Tags RL
系统梳理强化学习算法:从定义、马尔可夫、Q-learning 起步,经 PPO、VAPO、DPO,到 GRPO、GMPO、GSPO、GFPO、GAPO、Dr.GRPO,含详细数学推导、伪代码、优缺点与继承关系。
经常听到rollout这个词, 周围人张口闭口就是。详细解释辨析一下。
Page 1 / 1
Tags RL
系统梳理强化学习算法:从定义、马尔可夫、Q-learning 起步,经 PPO、VAPO、DPO,到 GRPO、GMPO、GSPO、GFPO、GAPO、Dr.GRPO,含详细数学推导、伪代码、优缺点与继承关系。
经常听到rollout这个词, 周围人张口闭口就是。详细解释辨析一下。
Page 1 / 1