
KV Cache Optimization 论文解读
📄 论文解读
KV Cache Optimization Strategies for Scalable and Efficient LLM Inference Yichun Xu, Navjot K. Khaira, Tejinder Singh(Dell Technologies) arXiv:2603.20397 · 2026 年 3 月 24 日 · 24 页 · 78 篇引用
为什么 KV cache 是个问题
- 自回归生成时每生成一个 token 都要"看到"前面所有 token 的 K/V 向量
- 不缓存的话,每个 step 都要从 0 重算所有历史 token → O(N²)
- 缓存后,KV cache 的内存随上下文长度线性增长:
KV 大小 = 2·H·D·L·B·N - 上下文从 2K 涨到 100K、1M、10M 后,KV cache 直接吃掉所有 GPU 显存,推理变慢、变贵、变得不可部署

五大技术分类
| # | 类别 | 一句话原理 | 代表工作 | 典型收益 |
|---|---|---|---|---|
| 1 | Cache Eviction(驱逐) | 生成过程中丢掉"不重要"的 token | H₂O、SnapKV、Ada-KV | 内存砍 80%+,精度几乎不掉 |
| 2 | Cache Compression(压缩) | 把 KV 量化到 2-4 bit 或低秩投影 | KIVI、KVQuant、Palu | 内存 ×4~×8,lossless 或 < 2% 精度损失 |
| 3 | Hybrid Memory(混合内存) | KV 主体放 CPU/SSD,GPU 上只留热点 | vLLM/PagedAttention、FlexGen、Oneiros | 单卡跑巨型模型、batch 大 6×、吞吐 3~33× |
| 4 | New Attention(新型注意力) | 改 attention 算法本身,O(N²) → O(N log N) | Linear、Log-Linear、Kimi Linear | 6.3× 吞吐 + 75% 内存下降(Kimi 数据) |
| 5 | Combination(组合拳) | 上面 4 类挑几种拼起来 | RocketKV、KVzip、ShadowKV、TailorKV | 综合最优 |
七大部署场景 × 推荐方法
| 场景 | 推荐 | 理由 |
|---|---|---|
| 超长上下文(>1M)单请求 | Eviction + Compression;Kimi Linear | 显存是瓶颈,必须砍 cache 大小 |
| 最少改动现有模型 | Ada-KV、SnapKV、KIVI | 全部 fine-tuning-free、plug-and-play |
| 高吞吐数据中心 | PagedAttention/vLLM、Oneiros、ShadowKV | batch 大、lossless、充分利用多租户 |
| 边缘/低显存设备 | InfiniPot、TailorKV | 单卡 24GB 跑 8B/128K |
| 多轮对话 | RocketKV-MT、KVzip、ShadowKV | 不能像 H₂O 那样永久丢 token |
| Prefill-heavy(长 prompt 编码) | NACL、HashEvict、LayerKV、MiniCache | 关注 TTFT(首 token 延迟) |
| 精度敏感推理 | PagedAttention | 无损 offload;不推荐 eviction/compression/linear attention |
核心结论
没有银弹。
- Ultra-long context(>1M)→ eviction + compression 主导
- 高吞吐服务 → hybrid memory 主导(vLLM 仍然是事实标准)
- 带宽受限环境 → 单独 compression 最有效
- 新 attention 机制 → 是未来方向,但需要重训
- 未来方向:adaptive, multi-stage pipelines —— 按 context 长度、负载、硬件动态组合
