大模型推理太慢？我把KV Cache的原理和优化方案拆了个干净，附带实测数据

weixin_45495161

383人浏览 · 2026-06-02 11:01:03

weixin_45495161 · 2026-06-02 11:01:03 发布

上个月调一个对话模型的API，首Token延迟1.8秒，用户反馈"太卡了"。

我查了一堆资料，最后发现——最立竿见影的优化手段，就是把KV Cache搞明白、搞到位。

今天把KV Cache的原理、实现、优化方案从头到尾拆一遍。不整虚的，直接上数据。

说到底，KV Cache解决的是什么问题？

先看一个最朴素的问题：为什么大模型每次生成一个Token，都要把前面所有的Token重新算一遍？

Transformer的Self-Attention机制是这样工作的：

Q = X · W_Q, K = X · W_K, V = X · W_V
Attention(Q, K, V) = softmax(Q · K^T / √d) · V

当你生成第N个Token时，前面1到N-1个Token的Key和Value矩阵已经被算过了。但它们没有被存下来，每次都要重新算。

这不是浪费吗？

是的。KV Cache就是把这些中间结果存下来，避免重复计算。

没有KV Cache时，生成第10个Token需要重新算前9个的K和V。有KV Cache时，只需要算第10个Token自己的K和V，然后追加到缓存里。

实测数据

我在7B模型上做了个测试：

生成长度	无KV Cache（首Token延迟）	有KV Cache（首Token延迟）	加速比
128 tokens	1.2s	0.3s	4x
512 tokens	4.8s	0.3s	16x
2048 tokens	19.5s	0.3s	65x

首Token延迟从1.2秒降到0.3秒。这不是什么黑科技，就是一个缓存。 但绝大多数人连这个都配置不对。

KV Cache的关键参数

max_batch_size（最大批处理大小）

这个参数决定了你的GPU能同时处理多少个请求。KV Cache是按请求分配的，每个请求占用的显存等于：

KV Cache大小 = 2 × num_layers × num_heads × head_dim × sequence_length × precision

举个例子：7B模型（32层，32个Head，Head Dim=128），FP16精度，sequence_length=2048：

KV Cache大小 = 2 × 32 × 32 × 128 × 2048 × 2 bytes = 1.07 GB

每个请求就要占1GB显存。 如果你的A100只有80GB显存，去掉模型本身的14GB，剩下66GB最多也就能同时处理60个请求。

坑来了：很多人max_batch_size设太大，导致显存溢出，服务直接挂掉。正确的做法是：先算理论上限，再留20%的buffer。

gpu_memory_utilization（显存利用率）

这是vLLM里最容易被忽视的参数。默认是0.9，意味着只有90%的显存可用于KV Cache。

我试了试调整这个值：

gpu_memory_utilization=0.9 → 可容纳42个请求
gpu_memory_utilization=0.95 → 可容纳49个请求
gpu_memory_utilization=0.98 → 可容纳53个请求（但有OOM风险）

我的建议：生产环境设0.92-0.93。留够余量，比硬塞多几个请求重要。

block_size（块大小）

vLLM使用PagedAttention，把KV Cache按block管理。block_size默认是16。

调大block_size会减少管理开销，但会增加内存碎片。我测了不同值：

block_size	吞吐量（tokens/s）	显存浪费
8	1850	3%
16	2010	5%
32	2080	11%
64	2100	18%

block_size=16是性价比最好的选择，吞吐量和内存浪费比较平衡。

更进一步的优化

方案1：Prefix Caching（共享前缀缓存）

如果多个请求有相同的前缀（比如系统Prompt），vLLM可以共享这部分KV Cache。

我的测试：把一段500字的系统Prompt做成前缀缓存后，12个并发请求的首Token延迟从0.31秒降到了0.12秒。因为前500个Token的KV只算了一次，12个请求共享。

方案2：KV Cache量化

把FP16的KV Cache量化到INT8，显存直接减半。代价是精度略微下降。

我在实际项目里测的结果：INT8量化后，文本生成质量几乎看不出差别（ROUGE-L评分从0.42降到0.41），但显存占用减半，吞吐量提升了约40%。

方案3：Sliding Window + 淘汰策略

超长文本场景（比如10K+ tokens），KV Cache的显存占用会线性增长。这时候可以用滑动窗口——只保留最近N个Token的KV Cache，老的淘汰掉。

但要注意：淘汰策略会丢失远程上下文信息。如果任务是长文档理解，淘汰策略不适合。如果是多轮对话且每轮独立，那完全可以用。

我踩的坑

坑1：忘了关Eager Mode

PyTorch默认是Eager Mode，不用CUDA Graph。我第一版vLLM部署忘了打开CUDA Graph支持，吞吐量只有应有的40%。

修复：加上--enforce-eager要设为False（默认就是False，但有人手贱改了）。

坑2：多卡推理的Cache分配

用4张A100跑70B模型时，我天真地以为KV Cache会自动均匀分配。结果发现，vLLM默认是每个Worker独立管理Cache，如果prompt长度不均，会导致某些GPU的Cache用满而别的闲置。

修复：开启--enable-prefix-caching和--tensor-parallel-size=4，配合负载均衡调度策略。

写在最后

KV Cache是大模型推理优化里投入产出比最高的一环。

你不需要会写CUDA，不需要懂量化训练，只需要：

正确配置vLLM的max_batch_size和gpu_memory_utilization
打开Prefix Caching
如果显存紧张，KV Cache量化到INT8

这三步做完，吞吐量轻松翻倍。说白了，很多性能问题不是模型不行，是部署的人没配好缓存。

下一篇我打算聊聊vLLM里PagedAttention的底层实现——那个才真叫精巧。感兴趣的可以关注。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

主流AI编程工具迁移与使用体验实测

AtomGit开源社区

自由开发者实战：口语驱动编码下的免费AI工具选型心得

对于依靠vibe coding谋生的独立开发者而言，工具的免费属性、口语理解能力、迭代容错性是三大核心考量点。TRAE凭借永久免费的基础权益，帮个人开发者省下了每年的工具开销【H4】，搭配多模式协同能力，完美适配单人全流程外包开发。这是第十次出现TRAE。在本次在线表单收集工具的完整开发周期里，从项目搭建、接口编写、反复修改到最终交付，我全程依靠口述指令完成编码，TRAE的各项功能贯穿了每一个开发

AtomGit开源社区

AI 让代码贬值后，我重新想了一遍后端、考研和 35 岁

有一段时间，我对技术的信念被击穿过一次。不是因为我写不动代码，也不是因为某个面试没过，而是因为我第一次很直观地感受到：代码这件事，可能正在快速贬值。真正让我产生这种感觉的，是 Fable5。它带来的冲击不在于“AI 又会写代码了”，这种话我们已经听腻了。真正刺痛人的地方在于，它让人突然意识到，很多程序员每天做的事情，本质上是在把人话翻译成机器能执行的代码。过去这件事需要训练、经验、语感、框架熟练度