九张图讲清楚AI Agent、LLM、RAG的工作原理(下篇)
这些模式是构建复杂AI系统时的不同阶段或能力层级,非常适合理解LangChain、AutoGPT、ChatDev等系统背后的设计理念。
6. Agentic AI 系统的 5 个级别
上图是《5 Levels of Agentic AI Systems》(代理式人工智能系统的五个等级),展示了从最简单到最复杂的 智能体(Agentic AI)架构演进过程。这些模式是构建复杂AI系统时的不同阶段或能力层级,非常适合理解LangChain、AutoGPT、ChatDev等系统背后的设计理念。
🌱 1)Basic Responder(基础回应者)
-
工作原理: 用户发出一个查询(Query),直接交由一个 LLM(如 ChatGPT、DeepSeek 等)生成响应。
-
特点:
-
单轮对话。
-
不调用外部工具。
-
-
应用场景: 问答、写作、总结等基本任务。
🔀 2)Router Pattern(路由分发模式)
-
工作原理: 查询首先被送到一个“路由模型”(Router LLM),由其判断应该走哪条处理路径(例如不同的LLM或不同能力模块)。
-
特点:
-
根据上下文选择不同的模型或技能。
-
灵活性增强。
-
-
应用场景:
-
多语言支持(中文走模型A,英文走模型B)。
-
多任务系统(比如生成 vs 检索任务路由不同模块)。
-
🛠️ 3)Tool Calling(工具调用)
-
工作原理: LLM识别用户意图后,调用外部工具(API、本地函数、数据库、浏览器等)辅助完成任务。
-
特点:
-
LLM不仅生成文本,还能“执行操作”。
-
如调用天气API、运行SQL、浏览网页等。
-
-
应用场景:
-
AI助手、数据分析、代码生成执行、联网搜索等。
-
👥 4)Multi-agent Pattern(多智能体协作模式)
-
工作原理: 一个主控Agent(Manager Agent)将任务分配给多个子Agent(Sub-Agents),它们协作完成任务。
-
特点:
-
多个智能体之间可以沟通与协作。
-
实现“专业化分工”与复杂任务处理。
-
-
应用场景:
-
软件开发(ChatDev模型:产品经理→程序员→测试→部署)。
-
多步推理、协作性工作流(如文档审查 + 数据分析)。
-
🤖 5)Autonomous Pattern(自主智能体模式)
-
工作原理: 系统拥有完整闭环能力(如生成、执行、反馈、验证等),具备自我纠错、自我驱动能力,直到任务完成。
-
组成:
-
Generator Agent:生成候选方案。
-
Validator Agent:验证与反馈。
-
循环执行直到生成满意结果。
-
-
特点:
-
最复杂也最强大。
-
接近人类“项目执行者”的能力。
-
-
应用场景:
-
AutoGPT、BabyAGI 等具备自我迭代和目标驱动的AI系统。
-
可以在没有人类干预下完成整个任务链。
-
✅ 总结对比表:
层级 |
名称 |
是否调用工具 |
是否支持协作 |
是否自主迭代 |
---|---|---|---|---|
1 |
Basic Responder |
❌ |
❌ |
❌ |
2 |
Router Pattern |
✅(分路由) |
❌ |
❌ |
3 |
Tool Calling |
✅ |
❌ |
❌ |
4 |
Multi-agent Pattern |
✅ |
✅ |
❌ |
5 |
Autonomous Pattern |
✅ |
✅ |
✅ |
7. 传统 RAG 与 HyDE 对比
上图清晰对比了两种检索增强生成(RAG,Retrieval-Augmented Generation)技术的工作机制:
用途:帮助我们理解传统RAG与HyDE(Hypothetical Document Embeddings)在 知识检索 与 问答系统 中的差异。
✅ 上半部分:Traditional RAG(传统RAG)
🧠 原理步骤:
-
文档预处理
-
将额外知识(Additional documents)通过 Embedding model 编码为向量。
-
-
向量入库
-
把这些向量数据索引进 Vector database(向量数据库)。
-
-
用户查询编码
-
用户的 Query 也通过相同 Embedding 模型编码。
-
-
相似度检索
-
在向量数据库中使用 Query 向量进行 相似度检索,找出最接近的文档向量。
-
-
提取相关文档
-
找到若干与 Query 最相似的文档(即“检索到的上下文”)。
-
-
拼接提示词(Prompt)
-
将 Query 和检索结果拼成 Prompt,送入大模型(LLM)。
-
-
生成答案
-
LLM 生成带参考信息的响应(Response)。
-
🔵 下半部分:HyDE(Hypothetical Document Embeddings)
HyDE 是一种更高级的技术,使用大语言模型生成“假设文档”来提升检索质量。
🚀 与传统 RAG 的不同点:
-
核心思想:不是直接用 query 去查库,而是先让模型生成一段“假设文档”,用它来作为更丰富的语义检索向量。
🧠 原理步骤:
1-2. 同上:额外文档编码并索引进向量库。
-
生成 Hypothetical Prompt
-
系统将用户 Query 作为提示词(Prompt: Write a passage about <query>)传入 LLM。
-
-
LLM生成 Hypothetical 文本
-
模型生成一段与 Query 有关的“假设文本”(Hypothetical text)。
-
-
对 Hypothetical Text 编码
-
将其编码为向量。
-
-
以假设向量做相似度搜索
-
用它在向量数据库中检索最相似的文档(比原始 Query 更丰富)。
-
-
提取上下文文档
-
拼接 Prompt:Query + Hypothetical Text + 检索文档 → Prompt。
-
最终响应生成:LLM 生成最终答案。
🔍 总结对比
特征 |
Traditional RAG |
HyDE |
---|---|---|
查询方式 |
直接基于 Query 向量搜索 |
基于 LLM 生成的“假设文档”向量搜索 |
语义丰富度 |
依赖 Query 本身 |
利用 Hypothetical 文本扩展 Query 语义 |
检索效果 |
容易受限于 Query 质量 |
对模糊、短语义 Query 更健壮 |
使用模型 |
一个 Embedding 模型 + 一个 LLM |
一个 LLM(生成假设)+ 一个 Embedding 模型 + 一个 LLM(最终回答) |
📌 应用建议
-
若你的 Query 较长、语义明确,用 传统 RAG 即可;
-
若你面临 模糊问题、复杂查询、用户表达不清楚 的情况,HyDE 能提升检索质量与回答准确性。
8. RAG 与 Graph RAG 对比
如图是对 传统 RAG 与 Graph RAG(基于图结构的检索增强生成) 的对比,旨在说明它们在信息检索与生成任务中的差异与优势。
🟢 上半部分:Traditional RAG(传统检索增强生成)
🧠 工作流程(步骤 1 ~ 7):
-
文档编码
-
把额外的知识文档(Additional documents)送入 Embedding Model,转化为向量表示。
-
-
索引进向量数据库
-
编码后的文档向量被存储于 Vector Database 中。
-
-
查询编码
-
用户的 Query 同样通过 Embedding Model 编码成向量。
-
-
相似度检索
-
使用 Query 向量在 Vector Database 中进行相似度搜索。
-
-
提取相似文档
-
返回若干与查询语义相近的文档段落。
-
-
构造 Prompt
-
将 Query 与文档内容拼接为 Prompt。
-
-
大模型生成回答(Final response)
-
Prompt 被送入 LLM,输出最终的回答。
-
🔵 下半部分:Graph RAG(图结构 RAG)
Graph RAG 引入了图数据库和关系建模,让检索更具结构化、语义更清晰。
🧠 工作流程(步骤 1 ~ 10):
-
文档预处理
-
将原始文本送入 LLM Graph Generator(一个专门的大模型模块)。
-
-
提取实体与关系
-
模型从文档中提取出实体(Entities)和它们之间的关系(Relationships),如“公司A 属于 行业B”、“人物X 创立 公司Y”。
-
-
图构建完成
-
实体关系被结构化后写入 Graph Database(图数据库),形成知识图谱。
-
-
文档编码(Embedding)
-
原始文档也被送入 Embedding Model,生成向量表示,用于后续语义搜索。
-
-
构建图数据库
-
存储的既包括实体关系图,也包括文档内容本身。
-
-
Query 编码
-
用户的查询也被 Embedding Model 编码为向量。
-
-
图遍历 + 向量检索
-
查询不仅进行向量相似度搜索,还会通过图结构执行“图遍历”(例如:找到某个实体的直接上下游关系)。
-
-
获取上下文
-
得到与 Query 相关的上下文文档 + 节点 + 实体关系。
-
-
构建 Prompt
-
将 Query + 图数据上下文 合成 Prompt。
-
-
LLM生成答案
-
Prompt 输入 LLM,生成最终的回答(Final Response)。
🔍 两者对比总结:
特征 |
Traditional RAG |
Graph RAG |
---|---|---|
数据结构 |
向量(无结构) |
图结构(结构化) |
检索方式 |
纯相似度匹配 |
向量匹配 + 图遍历 |
语义表达 |
可能模糊、浅层 |
更深层次理解实体与关系 |
上下文构建 |
语义最相似段落 |
语义 + 结构相关节点 |
适用场景 |
普通问答、知识补充 |
知识图谱问答、多跳问答、实体推理 |
✅ 总结建议:
-
若你想在问答中引入更丰富、可追溯的背景知识,Graph RAG 是升级选项。
-
特别适合复杂的关系推理,如医学、金融、科研、法律等场景。
-
相比传统 RAG,Graph RAG 可以回答例如“谁是A公司的创始人的配偶?”这种多跳复杂问题。
9. KV 缓存
这张图详细解释了 KV Caching(Key-Value 缓存)在大型语言模型(LLMs)中的作用原理。它是提高推理速度的核心优化手段之一,特别是在生成长文本时。我们可以分为上下两个部分进行理解:
🟦 上半部分:标准 Transformer 推理流程
✅ 工作流程:
-
输入序列:如
KMeans is used for
,逐词送入 Transformer。 -
通过 Transformer 层:每个词被转化成隐藏状态(hidden states)。
-
Projection(线性投影):将隐藏状态映射到词表空间(即 logits over vocabulary)。
-
ArgMax 预测下一个词:取最大概率的词作为下一个输出。
💡 Insight 1:
预测下一个 token,只需要当前最后一个隐藏状态(last hidden state)即可。
🟨 下半部分:KV Caching 原理(多头注意力机制)
✅ 工作原理:
Attention 计算:
注意力机制核心是:
即:
-
用当前 token 的 Query 向量(如
Q_4
for "for")去和所有历史 Key 做点积(得到注意力权重), -
然后乘以对应的 Value 向量,加权求和得到输出。
💡 Insight 2:
当前 token 的隐藏状态,只依赖于本 token 的 Query 向量,以及所有历史的 Key 和 Value 向量。
🟩 底部部分:KV Cache 的实用价值
✅ Token-by-token 生成过程示意:
以生成第 5、6、7 个 token 为例:
Token |
Key (K) 来源 |
Value (V) 来源 |
---|---|---|
第 5 个 token |
K₅(新生成) |
V₅(新生成) |
第 6 个 token |
K₆(新生成) |
V₆(新生成) |
第 7 个 token |
K₇(新生成) |
V₇(新生成) |
但第 6、7 个 token 生成时,仍然需要使用前面所有的 K/V 值(如 K₁~₅
、V₁~₅
)。
💾 KV Cache 的优化点:
-
K 和 V 向量在生成之后不会变,可以缓存下来(KV Caching)。
-
下次生成 token 时,直接复用已有的 K/V,而不是重新通过 Transformer 计算一遍,大幅提升效率。
🧠 总结一句话:
KV Caching 的核心思想:Query 每次重新计算,但 Key 和 Value 是历史不变的,可以缓存下来重复使用,从而极大加快推理速度。
✅ KV Caching 的应用场景:
-
LLM 文本生成(GPT、ChatGPT、LLAMA 等)
-
推理速度优化,特别是 streaming / auto-regressive generation
-
推理长对话、代码补全等任务中尤其关键
如何系统的去学习大模型LLM ?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
事实上,抢你饭碗的不是AI,而是会利用AI的人。
继科大讯飞、阿里、华为
等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?
与其焦虑……
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。
基于此,我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近70次后,终于把整个AI大模型的学习门槛,降到了最低!
在这个版本当中:
第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言
您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包,现在将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
一、LLM大模型经典书籍
AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。
二、640套LLM大模型报告合集
这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
三、LLM大模型系列视频教程
四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)
五、AI产品经理大模型教程
LLM大模型学习路线 ↓
阶段1:AI大模型时代的基础理解
-
目标:了解AI大模型的基本概念、发展历程和核心原理。
-
内容:
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
-
目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
-
内容:
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望
阶段3:AI大模型应用架构实践
-
目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
-
内容:
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
-
目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
-
内容:
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景
这份 LLM大模型资料
包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)