Tags 推理优化

KV Cache

KV Cache 完整教程:为什么需要、使用场景、注意力公式推导、为何只缓 K/V 不缓 Q、显存计算、PyTorch 代码实现、PagedAttention 等优化,以及面试要点。

大模型参数与显存

大模型参数量与显存占用的定义、计算公式、手算推导与估算实践;面向算法工程师面试的系统梳理,含 LLaMA 7B 等具体例子。