KV Cache Optimization 论文解读

KV Cache Optimization 论文解读

2026/06/02

1067

3

...

📄 论文解读

KV Cache Optimization Strategies for Scalable and Efficient LLM Inference Yichun Xu, Navjot K. Khaira, Tejinder Singh（Dell Technologies） arXiv:2603.20397 · 2026 年 3 月 24 日 · 24 页 · 78 篇引用

为什么 KV cache 是个问题

自回归生成时每生成一个 token 都要"看到"前面所有 token 的 K/V 向量
不缓存的话，每个 step 都要从 0 重算所有历史 token → O(N²)
缓存后，KV cache 的内存随上下文长度线性增长：KV 大小 = 2·H·D·L·B·N
上下文从 2K 涨到 100K、1M、10M 后，KV cache 直接吃掉所有 GPU 显存，推理变慢、变贵、变得不可部署

Transformer self-attention with KV cache

五大技术分类

#	类别	一句话原理	代表工作	典型收益
1	Cache Eviction（驱逐）	生成过程中丢掉"不重要"的 token	H₂O、SnapKV、Ada-KV	内存砍 80%+，精度几乎不掉
2	Cache Compression（压缩）	把 KV 量化到 2-4 bit 或低秩投影	KIVI、KVQuant、Palu	内存 ×4~×8，lossless 或 < 2% 精度损失
3	Hybrid Memory（混合内存）	KV 主体放 CPU/SSD，GPU 上只留热点	vLLM/PagedAttention、FlexGen、Oneiros	单卡跑巨型模型、batch 大 6×、吞吐 3~33×
4	New Attention（新型注意力）	改 attention 算法本身，O(N²) → O(N log N)	Linear、Log-Linear、Kimi Linear	6.3× 吞吐 + 75% 内存下降（Kimi 数据）
5	Combination（组合拳）	上面 4 类挑几种拼起来	RocketKV、KVzip、ShadowKV、TailorKV	综合最优

七大部署场景 × 推荐方法

场景	推荐	理由
超长上下文（>1M）单请求	Eviction + Compression；Kimi Linear	显存是瓶颈，必须砍 cache 大小
最少改动现有模型	Ada-KV、SnapKV、KIVI	全部 fine-tuning-free、plug-and-play
高吞吐数据中心	PagedAttention/vLLM、Oneiros、ShadowKV	batch 大、lossless、充分利用多租户
边缘/低显存设备	InfiniPot、TailorKV	单卡 24GB 跑 8B/128K
多轮对话	RocketKV-MT、KVzip、ShadowKV	不能像 H₂O 那样永久丢 token
Prefill-heavy（长 prompt 编码）	NACL、HashEvict、LayerKV、MiniCache	关注 TTFT（首 token 延迟）
精度敏感推理	PagedAttention	无损 offload；不推荐 eviction/compression/linear attention

核心结论

没有银弹。

Ultra-long context（>1M）→ eviction + compression 主导
高吞吐服务 → hybrid memory 主导（vLLM 仍然是事实标准）
带宽受限环境 → 单独 compression 最有效
新 attention 机制 → 是未来方向，但需要重训
未来方向：adaptive, multi-stage pipelines —— 按 context 长度、负载、硬件动态组合

#AI #LLM #KV Cache #推理优化