从0到1开发AI Agent（智能体）：通过Llamalndex实现检索增强生成（RAG）

RAG，即检索增强生成（Retrieval-Augmented Generation），是一种结合了**信息检索（Retrieval）和文本生成（Generation）**的人工智能技术。RAG是生成式AI领域的重大进展，它通过整合外部知识源来增强传统的大语言模型 (LLM)。这种方法拓宽了人工智能的视野，使其能够访问和利用除初始训练数据之外的大量信息。可以将 RAG 想象为一位学者，除了拥有自己

Python编程杰哥

1092人浏览 · 2025-02-20 10:43:32

Python编程杰哥 · 2025-02-20 10:43:32 发布

通过一个具体的业务场景，使用Llamalndex的思路来实现检索增强生成（RAG），通过RAG查看商品的供应状况和销售趋势，同时对两家公司的业绩做出对比

智能体是一种能够感知环境、做出决策并采取行动的系统。这些系统能够执行被动的任务，也能够主动寻找解决问题的方法，适应环境的变化，并在没有人类直接干预的情况下做出决策。

我们现在通过使用Llamalndex来实现检索增强生成（RAG），结合ReAct Agent完成财报分析的功能

1. 业务需求

现在有一个生意很好的鲜花店

鲜花店的合作伙伴是东南亚的两家鲜花商品经销商(电商)，它们均为上市公司。每个月需要对这两家公司的财务报表进行分析，目的是查看鲜花商品的供应状况和销售趋势，同时对这两家公司的业绩进行比较。

这个工作需要耗费团队的大量人力。有时需要外聘商业分析师来完成。

现在通过Llamalndex的RAGAgent组件来帮助我们做到这一点。

Llamalndex和LangChain框架同时具有 Conversational Agent(或称为Conversational Retrieval Agent)的概念。顾名思义，这种 Agent 就是具有检索功能的智能对话式 Agent。

这个概念结合了几个关键趋势 - RAG、聊天界面以及先进的Agent认知框架，以提供更优的用户对话体验。通过Llamalndex提供的 ReAct RAGAgent，用户可以很轻松地完成信息检索、内外部知识整合以及文本生成工作。

2. 什么是RAG

RAG，即检索增强生成（Retrieval-Augmented Generation），是一种结合了**信息检索（Retrieval）和文本生成（Generation）**的人工智能技术。

RAG是生成式AI领域的重大进展，它通过整合外部知识源来增强传统的大语言模型 (LLM)。这种方法拓宽了人工智能的视野，使其能够访问和利用除初始训练数据之外的大量信息。可以将 RAG 想象为一位学者，除了拥有自己的知识外，还可以即时访问到一座全面的图书馆。

RAG的核心在于结合检索与生成两个步骤，利用检索结果来指导生成过程，从而提高模型的准确性和多样性。

RAG架构

微软公司在论文《RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture》中专门给出了在基于农业领域的一个应用案例中 RAG 与微调的评估结果

该论文指出，在这个农业问答案例研究中，回答的准确率方面，微调大于 RAG，但差异并不明显。准确率最高的应用方法是“RAG+微调”，但相应付出的成本也大得多。考虑到 RAG的应用成本较低，在成本有限的情况下，建议选择RAG作为该问答应用的解决方案。

论文：https://arxiv.org/abs/2401.08406

3. Agent+RAG

Agent是一个能够自主操作和做出决策的系统。RAG当然可以作为Agent的技术架构的一个重要部分。

包含RAG功能的Agent可以更高效地处理用户的查询提供有用和准确的信息。

这类Agent通过检索(在知识库中搜索信息)和生成(利用大模型来生成回答)处理复杂的用户需求。它不仅能回答简单的问题，而且能处理复杂且更具探索性的查询。

4. 代码实现

4.1 加载财报文件

SimpleDirectoryReader 是将数据从本地文件加载到 LlamaIndex 的最简单方法

默认情况下， SimpleDirectoryReader 会尝试读取它找到的任何文件，将它们全部视为文本。除了普通文本外，它还明确支持以下文件类型，这些文件类型是根据文件扩展名自动检测的：

.csv - 逗号分隔值
.docx - Microsoft Word
.epub - EPUB 电子书格式
.hwp - Hangul Word Processor
.ipynb - Jupyter Notebook
.jpeg, .jpg - JPEG 图片
.mbox - MBOX 电子邮件档案
.md - Markdown
.mp3, .mp4 - 音频和视频
.pdf - PDF文档格式
.png - Portable Network Graphics
.ppt, .pptm, .pptx - Microsoft PowerPoint

如果文件类型是 JSON，建议使用 JSON 加载器

import os      # OpenAI 环境变量   # 设置 OpenAI API 的基础 URL   os.environ['OPENAI_API_BASE'] = "https://api.openai-hk.com/v1"   # 设置 OpenAI API 密钥   os.environ['OpenAI_API_KEY'] = 'hk-iwtb1e427'      # 1.加载电商财报数据   from llama_index.core import SimpleDirectoryReader      # 读取 A 公司的财报数据   A_docs = SimpleDirectoryReader(       input_files=["电商A-Third Quarter 2023 Results.pdf"]   ).load_data()   # 读取 B 公司的财报数据   B_docs = SimpleDirectoryReader(       input_files=["电商B-Third Quarter 2023 Results.pdf"]   ).load_data()

4.2 将财报文件的数据转换为向量数据

向量存储是增强生成（RAG）中检索的关键组成部分，因此在使用 LlamaIndex 创建几乎每个应用时，您将直接或间接地使用它们。

使用向量存储的最简单方法是加载一组文档并使用 VectorStoreIndex.from_documents(documents) 构建索引

当你使用 from_documents 时，你的文档会被分割成块并解析成 Node 对象，这些对象是对文本字符串的轻量抽象，用于跟踪元数据和关系

默认情况下，VectorStoreIndex 将所有内容存储在内存中

# 2. 从文档中创建索引   from llama_index.core import VectorStoreIndex   from llama_index.core import Settings      # 创建自定义 OpenAI 客户端   from llama_index.llms.openai import OpenAI   llm = OpenAI(api_base=os.environ['OPENAI_API_BASE'])   # 将创建的 OpenAI 客户端设置为默认的大模型   Settings.llm = llm      # 为 A 公司的文档创建索引   A_index = VectorStoreIndex.from_documents(A_docs,show_progress=True)   # 为 B 公司的文档创建索引   B_index = VectorStoreIndex.from_documents(B_docs,show_progress=True)

4.3 构建查询引擎

我们为电商 A和电商 B各创建一个查询引擎，同时设置最高相似度返回的结果数目。这里设置 similarity top_k为 3，也就是抽取 3 个相似度最高的文本块。

查询引擎(Query engine)是一个通用接口，允许您对数据进行提问

查询引擎接受自然语言查询，并返回详细的回应。它可以基于一个或多个检索器构建的索引。可以组合多个查询引擎以实现更高级的能力

如果你想与数据进行对话（多次来回互动，而不是单一的问题和答案），可以使用聊天引擎（Chat Engine）

# 3. 创建查询引擎   # 为 A 公司的索引创建查询引擎   A_engine = A_index.as_query_engine(similarity_top_k=3)   # 为 B 公司的索引创建查询引擎   B_engine = B_index.as_query_engine(similarity_top_k=3)

4.4 构建查询工具

QueryEngine 工具封装现有的查询引擎，允许Agent对数据源执行复杂查询。这些工具与各种数据库和 API 集成，使Agent能够高效地检索和操作数据。

# 4. 配置查询工具   from llama_index.core.tools import QueryEngineTool   from llama_index.core.tools import ToolMetadata   # 创建查询引擎工具列表   query_engine_tools = [       QueryEngineTool(           query_engine=A_engine,           metadata=ToolMetadata(               name="A_Finance",               description=(                   "用于提供A公司的财务信息 "               ),           ),       ),       QueryEngineTool(           query_engine=B_engine,           metadata=ToolMetadata(               name="B_Finance",               description=(                   "用于提供B公司的财务信息 "               ),           ),       ),   ]

4.5 创建 ReAct Agent

至此，一切准备工作就绪。查询引擎作为工具，大模型作为Agent的大脑，将它们分配给即将创建的 ReAct RAG Agent。

ReAct框架正是这个自我反思环节使用到的一个框架，用于指导大模型完成复杂任务的结构化思考和决策过程。

通过 ReAct 框架，Agent获得了动态决策能力。当遇到自己内部知识无法解决的问题时，Agent先搜索或调用工具，拓展自己的知识面。Agent还利用工具的灵活性，协调使用各种工具，在多个数据点之间进行切换，以获得最终的决策数据。Agent在执行每一步后会观察结果，并将新信息用于接下来的决策过程，这体现了Agent出色的学习能力与适应性。

# 5.创建 ReAct Agent   from llama_index.core.agent import ReActAgent   # 使用查询工具和大模型创建 ReAct Agent   agent = ReActAgent.from_tools(query_engine_tools, llm=llm, verbose=True)

4.6 执行任务

这个 Agent 可以使用两种“工具”，分别用于查询电商 A 和电商 B 的财务信息。其次，和 Agent聊天，让它帮助我们进行财务分析。

# 6. 让 Agent 完成任务   # 发送查询请求给 Agent   result = agent.chat("比较一下两个公司的销售额,用中文告诉我结果")   # 打印结果   print(result)

5.执行结果

Agent输出：

根据提供的信息，B公司在2023年第三季度的销售额为人民币242,031百万元（折合美元33,173百万元），较2022年同期的人民币221,849百万元增长了9%。而A公司在2023年第三季度的销售额为33亿美元，较2022年同期的32亿美元增长了4.9%。通过比较，可以看出B公司的销售额增长率更高，因此B公司的经营状况在这方面更好。

执行过程

Llamalndex提供了一些出色的组件来实现RAG。这些组件可以作为构建基于Agent的应用的核心工具。一方面，Llamalndex中的某些组件具有“Agent式”自动化决策功能，以帮助特定用例来处理数据;另一方面，Llamalndex也可以作为另一个Agent 框架中的核心工具。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

一文彻底搞懂大型语言模型（LLM）：核心机制、训练流程、关键技术与未来展望（LLM领域必读）

天启AI社区

Function calling基础

fill:#333;color:#333;color:#333;fill:none;聊天机器人AI助手AI Agent。

天启AI社区

AI原生应用里语音识别的场景适应性

本文聚焦AI原生应用（以AI能力为核心构建的应用，如ChatGPT语音版、理想汽车的智能座舱、叮咚买菜语音助手）中的语音识别技术，重点讲解"场景适应性"这一关键能力——即语音识别系统如何根据不同环境（如噪声类型、说话人习惯、语言种类）自动调整，提升识别准确率。我们将从"生活中的语音识别尴尬场景"切入，解释什么是"场景适应性"；接着用"搭积木"的方式拆解核心技术（噪声对抗、多语言切换、个性化定制）；