解析LLM、RAG、AI Agent的工作原理（九）KV 缓存

KV Caching 的核心思想：Query 每次重新计算，但 Key 和 Value 是历史不变的，可以缓存下来重复使用，从而极大加快推理速度。

Android老皮

817人浏览 · 2025-06-11 20:00:00

Android老皮 · 2025-06-11 20:00:00 发布

九、KV 缓存

在这里插入图片描述

这张图详细解释了 KV Caching（Key-Value 缓存）在大型语言模型（LLMs）中的作用原理。它是提高推理速度的核心优化手段之一，特别是在生成长文本时。我们可以分为上下两个部分进行理解：

1）上半部分：标准 Transformer 推理流程

工作流程：

输入序列：如 KMeans is used for，逐词送入 Transformer。
通过 Transformer 层：每个词被转化成隐藏状态（hidden states）。
Projection（线性投影）：将隐藏状态映射到词表空间（即 logits over vocabulary）。
ArgMax 预测下一个词：取最大概率的词作为下一个输出。

Insight 1：

预测下一个 token，只需要当前最后一个隐藏状态（last hidden state）即可。

2）下半部分：KV Caching 原理（多头注意力机制）

工作原理：

Attention 计算：

注意力机制核心是：
在这里插入图片描述

即：

用当前 token 的 Query 向量（如 Q_4 for “for”）去和所有历史 Key 做点积（得到注意力权重），
然后乘以对应的 Value 向量，加权求和得到输出。

Insight 2：

当前 token 的隐藏状态，只依赖于本 token 的 Query 向量，以及所有历史的 Key 和 Value 向量。

3）底部部分：KV Cache 的实用价

Token-by-token 生成过程示意：

以生成第 5、6、7 个 token 为例：

Token	Key (K) 来源	Value (V) 来源
第 5 个 token	`K₅（新生成）`	`V₅（新生成）`
第 6 个 token	`K₆（新生成）`	`V₆（新生成）`
第 7 个 token	`K₇（新生成）`	`V₇（新生成）`

但第 6、7 个 token 生成时，仍然需要使用前面所有的 K/V 值（如 K₁~₅、V₁~₅）。

KV Cache 的优化点：

K 和 V 向量在生成之后不会变，可以缓存下来（KV Caching）。
下次生成 token 时，直接复用已有的 K/V，而不是重新通过 Transformer 计算一遍，大幅提升效率。

4）总结一句话：

KV Caching 的核心思想：Query 每次重新计算，但 Key 和 Value 是历史不变的，可以缓存下来重复使用，从而极大加快推理速度。

5）KV Caching 的应用场景：

LLM 文本生成（GPT、ChatGPT、LLAMA 等）
推理速度优化，特别是 streaming / auto-regressive generation
推理长对话、代码补全等任务中尤其关键

如何系统学习掌握AI大模型？

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

对近期接触到的直播相关知识进行梳理

M3U8 文件是 HLS (HTTP Live Streaming) 协议的核心组件，它本质上是一个播放列表文件，包含媒体流的结构信息。直播与视频聊天的对比：我觉得直播是通过流媒体技术把现场的图像和声音采集后分发出去，供观众在线围观，可以认为是开放的，一般没有人数限制；而视频聊天是点对点的线上交流，是基于UDP/TCP的实时传输协议实现的。流媒体是通过互联网实时传输音视频内容的技术，用户无需等待完