Tags RLHF
Posted at 2026-03-03 学AI/DS LLM SFT RLHF Pre-Train
梳理 Pre-Training / SFT / RLHF 概念与各自流程,并整理 PPO、GRPO、GSPO、DPO 等 RLHF 方法要点;公式与实例留待 SFT、RLHF 单独笔记展开。
Page 1 / 1