Tags SFT
从原理到上手的 SFT 完整教程:损失函数推导、只对 response 算 loss 的 mask 机制、Alpaca 数据格式、LLaMA-Factory 手把手配置与训练,以及 LoRA/QLoRA 选型与常见坑。
梳理 Pre-Training / SFT / RLHF 概念与各自流程,并整理 PPO、GRPO、GSPO、DPO 等 RLHF 方法要点;公式与实例留待 SFT、RLHF 单独笔记展开。
Page 1 / 1
Tags SFT
从原理到上手的 SFT 完整教程:损失函数推导、只对 response 算 loss 的 mask 机制、Alpaca 数据格式、LLaMA-Factory 手把手配置与训练,以及 LoRA/QLoRA 选型与常见坑。
梳理 Pre-Training / SFT / RLHF 概念与各自流程,并整理 PPO、GRPO、GSPO、DPO 等 RLHF 方法要点;公式与实例留待 SFT、RLHF 单独笔记展开。
Page 1 / 1