KV Cache Optimization 论文解读

KV Cache Optimization 论文解读

📄 论文解读

KV Cache Optimization Strategies for Scalable and Efficient LLM Inference Yichun Xu, Navjot K. Khaira, Tejinder Singh(Dell Technologies) arXiv:2603.20397 · 2026 年 3 月 24 日 · 24 页 · 78 篇引用

为什么 KV cache 是个问题

  • 自回归生成时每生成一个 token 都要"看到"前面所有 token 的 K/V 向量
  • 不缓存的话,每个 step 都要从 0 重算所有历史 token → O(N²)
  • 缓存后,KV cache 的内存随上下文长度线性增长KV 大小 = 2·H·D·L·B·N
  • 上下文从 2K 涨到 100K、1M、10M 后,KV cache 直接吃掉所有 GPU 显存,推理变慢、变贵、变得不可部署
Transformer self-attention with KV cache

五大技术分类

#类别一句话原理代表工作典型收益
1Cache Eviction(驱逐)生成过程中丢掉"不重要"的 tokenH₂O、SnapKV、Ada-KV内存砍 80%+,精度几乎不掉
2Cache Compression(压缩)把 KV 量化到 2-4 bit 或低秩投影KIVI、KVQuant、Palu内存 ×4~×8,lossless 或 < 2% 精度损失
3Hybrid Memory(混合内存)KV 主体放 CPU/SSD,GPU 上只留热点vLLM/PagedAttention、FlexGen、Oneiros单卡跑巨型模型、batch 大 6×、吞吐 3~33×
4New Attention(新型注意力)改 attention 算法本身,O(N²) → O(N log N)Linear、Log-Linear、Kimi Linear6.3× 吞吐 + 75% 内存下降(Kimi 数据)
5Combination(组合拳)上面 4 类挑几种拼起来RocketKV、KVzip、ShadowKV、TailorKV综合最优

七大部署场景 × 推荐方法

场景推荐理由
超长上下文(>1M)单请求Eviction + Compression;Kimi Linear显存是瓶颈,必须砍 cache 大小
最少改动现有模型Ada-KV、SnapKV、KIVI全部 fine-tuning-free、plug-and-play
高吞吐数据中心PagedAttention/vLLM、Oneiros、ShadowKVbatch 大、lossless、充分利用多租户
边缘/低显存设备InfiniPot、TailorKV单卡 24GB 跑 8B/128K
多轮对话RocketKV-MT、KVzip、ShadowKV不能像 H₂O 那样永久丢 token
Prefill-heavy(长 prompt 编码)NACL、HashEvict、LayerKV、MiniCache关注 TTFT(首 token 延迟)
精度敏感推理PagedAttention无损 offload;不推荐 eviction/compression/linear attention

核心结论

没有银弹。

  • Ultra-long context(>1M)→ eviction + compression 主导
  • 高吞吐服务 → hybrid memory 主导(vLLM 仍然是事实标准)
  • 带宽受限环境 → 单独 compression 最有效
  • 新 attention 机制 → 是未来方向,但需要重训
  • 未来方向:adaptive, multi-stage pipelines —— 按 context 长度、负载、硬件动态组合