秋月春风学AI/DS
2026
04月
面向 LLM Agent 的 Harness Engineering 概念框架、证据结构与工程实践综述。
Claude Code 2026-03-31意外泄露开源代码,进行分析学习,并整合了一些笔记。
03月
系统梳理强化学习算法:从定义、马尔可夫、Q-learning 起步,经 PPO、VAPO、DPO,到 GRPO、GMPO、GSPO、GFPO、GAPO、Dr.GRPO,含详细数学推导、伪代码、优缺点与继承关系。
从原理到上手的 SFT 完整教程:损失函数推导、只对 response 算 loss 的 mask 机制、Alpaca 数据格式、LLaMA-Factory 手把手配置与训练,以及 LoRA/QLoRA 选型与常见坑。
梳理 Pre-Training / SFT / RLHF 概念与各自流程,并整理 PPO、GRPO、GSPO、DPO 等 RLHF 方法要点;公式与实例留待 SFT、RLHF 单独笔记展开。
02月
01月
Claude带火了skills,学习一下Agent未来工程新范式。感觉现在有点像tools刚出来时候,后续应该会发展的。
在很多LLM的评测报告中,可能会看到这些指标,尤其是在代码生成、数学推理、程序合成等任务里。它们的侧重各不相同,但都基于一个前提设定:对同一个问题,模型允许生成 k 个不同的答案,再用不同方式来统计表现。
经常听到rollout这个词, 周围人张口闭口就是。详细解释辨析一下。
Page 1 / 5


