九张图讲清楚AI Agent、LLM、RAG的工作原理（下篇）

这些模式是构建复杂AI系统时的不同阶段或能力层级，非常适合理解LangChain、AutoGPT、ChatDev等系统背后的设计理念。

AI小白龙*

1013人浏览 · 2025-06-13 18:48:12

AI小白龙* · 2025-06-13 18:48:12 发布

6. Agentic AI 系统的 5 个级别

上图是《5 Levels of Agentic AI Systems》（代理式人工智能系统的五个等级），展示了从最简单到最复杂的 智能体（Agentic AI）架构演进过程。这些模式是构建复杂AI系统时的不同阶段或能力层级，非常适合理解LangChain、AutoGPT、ChatDev等系统背后的设计理念。

🌱 1）Basic Responder（基础回应者）

工作原理： 用户发出一个查询（Query），直接交由一个 LLM（如 ChatGPT、DeepSeek 等）生成响应。
特点：
- 单轮对话。
- 不调用外部工具。
应用场景： 问答、写作、总结等基本任务。

🔀 2）Router Pattern（路由分发模式）

工作原理： 查询首先被送到一个“路由模型”（Router LLM），由其判断应该走哪条处理路径（例如不同的LLM或不同能力模块）。
特点：
- 根据上下文选择不同的模型或技能。
- 灵活性增强。
应用场景：
- 多语言支持（中文走模型A，英文走模型B）。
- 多任务系统（比如生成 vs 检索任务路由不同模块）。

🛠️ 3）Tool Calling（工具调用）

工作原理： LLM识别用户意图后，调用外部工具（API、本地函数、数据库、浏览器等）辅助完成任务。
特点：
- LLM不仅生成文本，还能“执行操作”。
- 如调用天气API、运行SQL、浏览网页等。
应用场景：
- AI助手、数据分析、代码生成执行、联网搜索等。

👥 4）Multi-agent Pattern（多智能体协作模式）

工作原理： 一个主控Agent（Manager Agent）将任务分配给多个子Agent（Sub-Agents），它们协作完成任务。
特点：
- 多个智能体之间可以沟通与协作。
- 实现“专业化分工”与复杂任务处理。
应用场景：
- 软件开发（ChatDev模型：产品经理→程序员→测试→部署）。
- 多步推理、协作性工作流（如文档审查 + 数据分析）。

🤖 5）Autonomous Pattern（自主智能体模式）

工作原理： 系统拥有完整闭环能力（如生成、执行、反馈、验证等），具备自我纠错、自我驱动能力，直到任务完成。
组成：
- Generator Agent：生成候选方案。
- Validator Agent：验证与反馈。
- 循环执行直到生成满意结果。
特点：
- 最复杂也最强大。
- 接近人类“项目执行者”的能力。
应用场景：
- AutoGPT、BabyAGI 等具备自我迭代和目标驱动的AI系统。
- 可以在没有人类干预下完成整个任务链。

✅ 总结对比表：

层级	名称	是否调用工具	是否支持协作	是否自主迭代
1	Basic Responder	❌	❌	❌
2	Router Pattern	✅（分路由）	❌	❌
3	Tool Calling	✅	❌	❌
4	Multi-agent Pattern	✅	✅	❌
5	Autonomous Pattern	✅	✅	✅

7. 传统 RAG 与 HyDE 对比

上图清晰对比了两种检索增强生成（RAG，Retrieval-Augmented Generation）技术的工作机制：

用途：帮助我们理解传统RAG与HyDE（Hypothetical Document Embeddings）在 知识检索 与 问答系统 中的差异。

✅ 上半部分：Traditional RAG（传统RAG）

🧠 原理步骤：

文档预处理
- 将额外知识（Additional documents）通过 Embedding model 编码为向量。
向量入库
- 把这些向量数据索引进 Vector database（向量数据库）。
用户查询编码
- 用户的 Query 也通过相同 Embedding 模型编码。
相似度检索
- 在向量数据库中使用 Query 向量进行 相似度检索，找出最接近的文档向量。
提取相关文档
- 找到若干与 Query 最相似的文档（即“检索到的上下文”）。
拼接提示词（Prompt）
- 将 Query 和检索结果拼成 Prompt，送入大模型（LLM）。
生成答案
- LLM 生成带参考信息的响应（Response）。

🔵 下半部分：HyDE（Hypothetical Document Embeddings）

HyDE 是一种更高级的技术，使用大语言模型生成“假设文档”来提升检索质量。

🚀 与传统 RAG 的不同点：

核心思想：不是直接用 query 去查库，而是先让模型生成一段“假设文档”，用它来作为更丰富的语义检索向量。

🧠 原理步骤：

1-2. 同上：额外文档编码并索引进向量库。

生成 Hypothetical Prompt
- 系统将用户 Query 作为提示词（Prompt: Write a passage about <query>）传入 LLM。
LLM生成 Hypothetical 文本
- 模型生成一段与 Query 有关的“假设文本”（Hypothetical text）。
对 Hypothetical Text 编码
- 将其编码为向量。
以假设向量做相似度搜索
- 用它在向量数据库中检索最相似的文档（比原始 Query 更丰富）。
提取上下文文档
拼接 Prompt：Query + Hypothetical Text + 检索文档 → Prompt。
最终响应生成：LLM 生成最终答案。

🔍 总结对比

特征	Traditional RAG	HyDE
查询方式	直接基于 Query 向量搜索	基于 LLM 生成的“假设文档”向量搜索
语义丰富度	依赖 Query 本身	利用 Hypothetical 文本扩展 Query 语义
检索效果	容易受限于 Query 质量	对模糊、短语义 Query 更健壮
使用模型	一个 Embedding 模型 + 一个 LLM	一个 LLM（生成假设）+ 一个 Embedding 模型 + 一个 LLM（最终回答）

📌 应用建议

若你的 Query 较长、语义明确，用 传统 RAG 即可；
若你面临 模糊问题、复杂查询、用户表达不清楚 的情况，HyDE 能提升检索质量与回答准确性。

8. RAG 与 Graph RAG 对比

如图是对 传统 RAG 与 Graph RAG（基于图结构的检索增强生成） 的对比，旨在说明它们在信息检索与生成任务中的差异与优势。

🟢 上半部分：Traditional RAG（传统检索增强生成）

🧠 工作流程（步骤 1 ~ 7）：

文档编码
- 把额外的知识文档（Additional documents）送入 Embedding Model，转化为向量表示。
索引进向量数据库
- 编码后的文档向量被存储于 Vector Database 中。
查询编码
- 用户的 Query 同样通过 Embedding Model 编码成向量。
相似度检索
- 使用 Query 向量在 Vector Database 中进行相似度搜索。
提取相似文档
- 返回若干与查询语义相近的文档段落。
构造 Prompt
- 将 Query 与文档内容拼接为 Prompt。
大模型生成回答（Final response）
- Prompt 被送入 LLM，输出最终的回答。

🔵 下半部分：Graph RAG（图结构 RAG）

Graph RAG 引入了图数据库和关系建模，让检索更具结构化、语义更清晰。

🧠 工作流程（步骤 1 ~ 10）：

文档预处理
- 将原始文本送入 LLM Graph Generator（一个专门的大模型模块）。
提取实体与关系
- 模型从文档中提取出实体（Entities）和它们之间的关系（Relationships），如“公司A 属于行业B”、“人物X 创立公司Y”。
图构建完成
- 实体关系被结构化后写入 Graph Database（图数据库），形成知识图谱。
文档编码（Embedding）
- 原始文档也被送入 Embedding Model，生成向量表示，用于后续语义搜索。
构建图数据库
- 存储的既包括实体关系图，也包括文档内容本身。
Query 编码
- 用户的查询也被 Embedding Model 编码为向量。
图遍历 + 向量检索
- 查询不仅进行向量相似度搜索，还会通过图结构执行“图遍历”（例如：找到某个实体的直接上下游关系）。
获取上下文
- 得到与 Query 相关的上下文文档 + 节点 + 实体关系。
构建 Prompt
- 将 Query + 图数据上下文合成 Prompt。
LLM生成答案

Prompt 输入 LLM，生成最终的回答（Final Response）。

🔍 两者对比总结：

特征	Traditional RAG	Graph RAG
数据结构	向量（无结构）	图结构（结构化）
检索方式	纯相似度匹配	向量匹配 + 图遍历
语义表达	可能模糊、浅层	更深层次理解实体与关系
上下文构建	语义最相似段落	语义 + 结构相关节点
适用场景	普通问答、知识补充	知识图谱问答、多跳问答、实体推理

✅ 总结建议：

若你想在问答中引入更丰富、可追溯的背景知识，Graph RAG 是升级选项。
特别适合复杂的关系推理，如医学、金融、科研、法律等场景。
相比传统 RAG，Graph RAG 可以回答例如“谁是A公司的创始人的配偶？”这种多跳复杂问题。

9. KV 缓存

这张图详细解释了 KV Caching（Key-Value 缓存）在大型语言模型（LLMs）中的作用原理。它是提高推理速度的核心优化手段之一，特别是在生成长文本时。我们可以分为上下两个部分进行理解：

🟦 上半部分：标准 Transformer 推理流程

✅ 工作流程：

输入序列：如 KMeans is used for，逐词送入 Transformer。
通过 Transformer 层：每个词被转化成隐藏状态（hidden states）。
Projection（线性投影）：将隐藏状态映射到词表空间（即 logits over vocabulary）。
ArgMax 预测下一个词：取最大概率的词作为下一个输出。

💡 Insight 1：

预测下一个 token，只需要当前最后一个隐藏状态（last hidden state）即可。

🟨 下半部分：KV Caching 原理（多头注意力机制）

✅ 工作原理：

Attention 计算：

注意力机制核心是：

即：

用当前 token 的 Query 向量（如 Q_4 for "for"）去和所有历史 Key 做点积（得到注意力权重），
然后乘以对应的 Value 向量，加权求和得到输出。

💡 Insight 2：

当前 token 的隐藏状态，只依赖于本 token 的 Query 向量，以及所有历史的 Key 和 Value 向量。

🟩 底部部分：KV Cache 的实用价值

✅ Token-by-token 生成过程示意：

以生成第 5、6、7 个 token 为例：

Token	Key (K) 来源	Value (V) 来源
第 5 个 token	`K₅（新生成）`	`V₅（新生成）`
第 6 个 token	`K₆（新生成）`	`V₆（新生成）`
第 7 个 token	`K₇（新生成）`	`V₇（新生成）`

但第 6、7 个 token 生成时，仍然需要使用前面所有的 K/V 值（如 K₁~₅、V₁~₅）。

💾 KV Cache 的优化点：

K 和 V 向量在生成之后不会变，可以缓存下来（KV Caching）。
下次生成 token 时，直接复用已有的 K/V，而不是重新通过 Transformer 计算一遍，大幅提升效率。

🧠 总结一句话：

KV Caching 的核心思想：Query 每次重新计算，但 Key 和 Value 是历史不变的，可以缓存下来重复使用，从而极大加快推理速度。

✅ KV Caching 的应用场景：

LLM 文本生成（GPT、ChatGPT、LLAMA 等）
推理速度优化，特别是 streaming / auto-regressive generation
推理长对话、代码补全等任务中尤其关键

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

基于此，我用做产品的心态来打磨这份大模型教程，深挖痛点并持续修改了近70次后，终于把整个AI大模型的学习门槛，降到了最低！

在这个版本当中：

第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言

您只需要听我讲，跟着我做即可，为了让学习的道路变得更简单，这份大模型教程已经给大家整理并打包，现在将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

五、AI产品经理大模型教程

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

数字人心理咨询：AIGC在心理健康服务的探索

本文旨在全面解析数字人心理咨询的技术原理和应用实践，探讨AIGC如何赋能心理健康服务。我们将覆盖从基础技术到实际应用，再到伦理考量的完整知识链条。文章将从技术基础开始，逐步深入到应用场景和案例分析，最后探讨伦理挑战和未来发展方向。数字人心理咨询：基于人工智能技术构建的虚拟心理咨询师，能够模拟人类咨询师的对话方式和治疗技术。AIGC(人工智能生成内容)：利用AI技术自动生成文本、图像、音频等内容的技