Tags RL

RL 算法详解:从 Q-learning 到 GRPO 系列

系统梳理强化学习算法:从定义、马尔可夫、Q-learning 起步,经 PPO、VAPO、DPO,到 GRPO、GMPO、GSPO、GFPO、GAPO、Dr.GRPO,含详细数学推导、伪代码、优缺点与继承关系。

RL中的 Rollout 与 Training

经常听到rollout这个词, 周围人张口闭口就是。详细解释辨析一下。