秋月春风学AI/DS

2026

01月

常见指标之pass@k, avg@k, const@k, best@k

在很多LLM的评测报告中,可能会看到这些指标,尤其是在代码生成、数学推理、程序合成等任务里。它们的侧重各不相同,但都基于一个前提设定:对同一个问题,模型允许生成 k 个不同的答案,再用不同方式来统计表现。

RL中的 Rollout 与 Training

经常听到rollout这个词, 周围人张口闭口就是。详细解释辨析一下。

2025

12月

大模型 temperature=0 输出不同结果的原因

分析大模型在Temperature=0时仍产生不同输出的根本原因(浮点运算非结合性、MoE架构、硬件异构性等)。本问题的产生深切反映了没学到本质,做的偏LLM顶层,疏忽了理解原理。

Agent Memory综述整理

整理自 https://arxiv.org/abs/2512.13564 《Memory in the Age of AI Agents》

08月

Self-Evolving Agent综述整理

整理自 https://arxiv.org/abs/2507.21046 《A Survey of Self-Evolving Agents- On Path to Artificial Super Intelligence》

07月

Agent Communication综述整理(Protocols & Safety)

整理自多篇综述与论文,以《A Survey of LLM-Driven AI Agent Communication- Protocols, Security Risks, and Defense Countermeasures》为主线。

06月

AI4Research综述整理 (DS Agent & AI scientist)

整理自 https://arxiv.org/abs/2412.14222 《A Survey on Large Language Model-based Agents for Statistics and Data Science》 & https://arxiv.org/abs/2510.23045 《A Survey of AI Scientists》

02月

LLM as a judge综述整理

整理自 https://arxiv.org/abs/2411.16594v7 《From Generation to Judgment- Opportunities and Challenges of LLM-as-a-judge》

Single Cell 基础知识Survey

一周速通single cell基本概念的survey

2024

03月

位置编码整理

位置编码笔记整理 绝对位置编码、RoPE、2D/3D RoPE、M-RoPE、PI、NTK-Aware、ALiBi、YARN、位置编码外推等。