Tags Agent
在很多LLM的评测报告中,可能会看到这些指标,尤其是在代码生成、数学推理、程序合成等任务里。它们的侧重各不相同,但都基于一个前提设定:对同一个问题,模型允许生成 k 个不同的答案,再用不同方式来统计表现。
经常听到rollout这个词, 周围人张口闭口就是。详细解释辨析一下。
整理自 https://arxiv.org/abs/2512.13564 《Memory in the Age of AI Agents》
整理自 https://arxiv.org/abs/2507.21046 《A Survey of Self-Evolving Agents- On Path to Artificial Super Intelligence》
整理自多篇综述与论文,以《A Survey of LLM-Driven AI Agent Communication- Protocols, Security Risks, and Defense Countermeasures》为主线。
整理自 https://arxiv.org/abs/2412.14222 《A Survey on Large Language Model-based Agents for Statistics and Data Science》 & https://arxiv.org/abs/2510.23045 《A Survey of AI Scientists》
Page 1 / 1


