推理优化 · 秋月春风的书房

Tags 推理优化

KV Cache 完整教程：为什么需要、使用场景、注意力公式推导、为何只缓 K/V 不缓 Q、显存计算、PyTorch 代码实现、PagedAttention 等优化，以及面试要点。

大模型参数量与显存占用的定义、计算公式、手算推导与估算实践；面向算法工程师面试的系统梳理，含 LLaMA 7B 等具体例子。

Page 1 / 1

秋月春风