SFT · 秋月春风的书房

Tags SFT

Posted at 2026-03-05 学AI/DS LLM SFT

从原理到上手的 SFT 完整教程：损失函数推导、只对 response 算 loss 的 mask 机制、Alpaca 数据格式、LLaMA-Factory 手把手配置与训练，以及 LoRA/QLoRA 选型与常见坑。

梳理 Pre-Training / SFT / RLHF 概念与各自流程，并整理 PPO、GRPO、GSPO、DPO 等 RLHF 方法要点；公式与实例留待 SFT、RLHF 单独笔记展开。

Page 1 / 1

秋月春风