RL · 秋月春风的书房

Tags RL

Posted at 2026-03-07 学AI/DS LLM RL

系统梳理强化学习算法：从定义、马尔可夫、Q-learning 起步，经 PPO、VAPO、DPO，到 GRPO、GMPO、GSPO、GFPO、GAPO、Dr.GRPO，含详细数学推导、伪代码、优缺点与继承关系。

Posted at 2026-01-02 学AI/DS LLM Agent RL

经常听到rollout这个词，周围人张口闭口就是。详细解释辨析一下。

Page 1 / 1

秋月春风