学AI/DS · 秋月春风的书房

秋月春风学AI/DS

LLM Agent DS AI4S Benchmark RL CV CS231n NLP ML 推理优化 CS224n SFT RLHF Pre-Train CompBio SingleCell

2026

04月

Harness Engineering 学习笔记

Posted at 2026-04-13 学AI/DS Agent

面向 LLM Agent 的 Harness Engineering 概念框架、证据结构与工程实践综述。

Claude Code 2026-03-31 开源笔记整理

Posted at 2026-04-01 学AI/DS Agent

Claude Code 2026-03-31意外泄露开源代码，进行分析学习，并整合了一些笔记。

03月

RL 算法详解：从 Q-learning 到 GRPO 系列

Posted at 2026-03-07 学AI/DS LLM RL

系统梳理强化学习算法：从定义、马尔可夫、Q-learning 起步，经 PPO、VAPO、DPO，到 GRPO、GMPO、GSPO、GFPO、GAPO、Dr.GRPO，含详细数学推导、伪代码、优缺点与继承关系。

SFT 监督微调

Posted at 2026-03-05 学AI/DS LLM SFT

从原理到上手的 SFT 完整教程：损失函数推导、只对 response 算 loss 的 mask 机制、Alpaca 数据格式、LLaMA-Factory 手把手配置与训练，以及 LoRA/QLoRA 选型与常见坑。

Pre-Training、SFT 与 RLHF

Posted at 2026-03-03 学AI/DS LLM SFT RLHF Pre-Train

梳理 Pre-Training / SFT / RLHF 概念与各自流程，并整理 PPO、GRPO、GSPO、DPO 等 RLHF 方法要点；公式与实例留待 SFT、RLHF 单独笔记展开。

02月

KV Cache

Posted at 2026-02-25 学AI/DS LLM 推理优化

KV Cache 完整教程：为什么需要、使用场景、注意力公式推导、为何只缓 K/V 不缓 Q、显存计算、PyTorch 代码实现、PagedAttention 等优化，以及面试要点。

大模型参数与显存

Posted at 2026-02-13 学AI/DS LLM 推理优化

大模型参数量与显存占用的定义、计算公式、手算推导与估算实践；面向算法工程师面试的系统梳理，含 LLaMA 7B 等具体例子。

01月

Agent Skills入门

Posted at 2026-01-30 学AI/DS Agent

Claude带火了skills,学习一下Agent未来工程新范式。感觉现在有点像tools刚出来时候，后续应该会发展的。

常见指标之pass@k, avg@k, const@k, best@k

Posted at 2026-01-03 学AI/DS LLM Agent Benchmark

在很多LLM的评测报告中，可能会看到这些指标，尤其是在代码生成、数学推理、程序合成等任务里。它们的侧重各不相同，但都基于一个前提设定：对同一个问题，模型允许生成 k 个不同的答案，再用不同方式来统计表现。

RL中的 Rollout 与 Training

Posted at 2026-01-02 学AI/DS LLM Agent RL

经常听到rollout这个词，周围人张口闭口就是。详细解释辨析一下。

Page 1 / 5

Next Last

秋月春风

明月守灯寻长梦，梦长寻灯守月明

明月守灯寻长梦，梦长寻灯守月明

秋月春风

秋月春风学AI/DS

2026

04月

03月

02月

01月