Tags LLM

RL 算法详解:从 Q-learning 到 GRPO 系列

系统梳理强化学习算法:从定义、马尔可夫、Q-learning 起步,经 PPO、VAPO、DPO,到 GRPO、GMPO、GSPO、GFPO、GAPO、Dr.GRPO,含详细数学推导、伪代码、优缺点与继承关系。

SFT 监督微调

从原理到上手的 SFT 完整教程:损失函数推导、只对 response 算 loss 的 mask 机制、Alpaca 数据格式、LLaMA-Factory 手把手配置与训练,以及 LoRA/QLoRA 选型与常见坑。

Pre-Training、SFT 与 RLHF

梳理 Pre-Training / SFT / RLHF 概念与各自流程,并整理 PPO、GRPO、GSPO、DPO 等 RLHF 方法要点;公式与实例留待 SFT、RLHF 单独笔记展开。

KV Cache

KV Cache 完整教程:为什么需要、使用场景、注意力公式推导、为何只缓 K/V 不缓 Q、显存计算、PyTorch 代码实现、PagedAttention 等优化,以及面试要点。

大模型参数与显存

大模型参数量与显存占用的定义、计算公式、手算推导与估算实践;面向算法工程师面试的系统梳理,含 LLaMA 7B 等具体例子。

常见指标之pass@k, avg@k, const@k, best@k

在很多LLM的评测报告中,可能会看到这些指标,尤其是在代码生成、数学推理、程序合成等任务里。它们的侧重各不相同,但都基于一个前提设定:对同一个问题,模型允许生成 k 个不同的答案,再用不同方式来统计表现。

RL中的 Rollout 与 Training

经常听到rollout这个词, 周围人张口闭口就是。详细解释辨析一下。

大模型 temperature=0 输出不同结果的原因

分析大模型在Temperature=0时仍产生不同输出的根本原因(浮点运算非结合性、MoE架构、硬件异构性等)。本问题的产生深切反映了没学到本质,做的偏LLM顶层,疏忽了理解原理。

Agent Memory综述整理

整理自 https://arxiv.org/abs/2512.13564 《Memory in the Age of AI Agents》

Self-Evolving Agent综述整理

整理自 https://arxiv.org/abs/2507.21046 《A Survey of Self-Evolving Agents- On Path to Artificial Super Intelligence》