一文读懂AI Agents:让大模型拥有行动力(基础篇)
一文读懂AI Agents:让大模型拥有行动力(基础篇)
“从2024年底,各大头部LLM 公司开始逐步发布 AI Agent产品,最新的如 xAI发布的基于 Grok3 的 Deepsearch;OpenAI发布的DeepReseach;Perplexity的Deepsesearh。
后面会深度解析以上各产品,在此之前,我们先再从基础理解下什么是 AI agent,基本概念,key components,基本的方法等 ”
以下是三篇与本文相关的推荐阅读的文章:
|
|
|
|
|
|
|
|
|
|
|
|
-
引言
-
Agent定义与基本架构
-
工具体系 (Tools: Extensions, Functions, Data Stores)
-
认知架构与推理框架 (Cognitive Architectures & Reasoning Frameworks)
-
提升Agent性能的策略
-
展望与局限性
-
总结
01
—
LLM Agents - 赋予生成式AI感知世界的能力
在生成式AI迅速发展的今天,LLMs 以其强大的文本理解和生成能力,已在各个领域展现出巨大潜力。然而,传统LLM存在明显的局限性:
-
知识边界受限
LLM仅能访问训练数据中已有的信息,无法获取实时数据及外部最新信息。
-
缺乏行动能力
LLM本身无法执行外部操作,如调用API、查询数据库、发送邮件等。
为突破上述局限性,业界提出了Agent的概念。简单来说,Agent 是以LLM为核心、具备内在推理能力(reasoning)与外部工具调用(tools)能力的自主系统。通过这一设计,Agent使生成式AI具备了感知外部世界、主动规划并执行复杂任务的能力。
典型的Agent架构通常包括三个核心组成部分:
-
模型(Model)
以LLM为决策核心,负责内部推理与决策;
-
工具(Tools)
通过Extensions、Functions、Data Stores等机制连接外部数据和服务;
-
编排层(Orchestration Layer)
利用推理框架(如ReAct、Chain-of-Thought)规划任务步骤、调用工具、管理记忆状态。
通过这些核心组件的协同工作,Agent可实现更复杂、更真实场景下的应用,例如:
-
实时查询并整合最新信息(如实时航班、体育赛事信息);
-
主动调用外部服务完成特定任务(如发送邮件、预订机票);
-
访问特定领域或私有数据(如企业数据库、知识库)以增强响应能力。
02
—
什么是Agent:定义与基本架构
Agent本质上是基于生成式AI模型的自主应用程序。其目标是通过观察环境、使用外部工具并自主决策和行动,以达成设定好的任务目标。
Agent具有以下几个关键特征:
-
自主性(Autonomous)
无需持续的人类干预,根据明确的目标或指令自主执行;
-
主动性(Proactive)
在没有详细指示的情况下,能主动规划并确定下一步行动;
-
工具调用(Tool Usage)
通过外部工具扩展模型本身无法实现的功能,如数据查询、API调用等;
-
推理决策(Reasoning & Decision Making)
具备内在的决策逻辑,能基于环境信息和任务目标进行推理规划。
Agent的基本架构(General Agent Architecture)由三个核心组件组成:
-
模型(Model):
-
作为Agent的决策核心;
-
模型负责接收任务输入、进行内部推理(如ReAct、Chain-of-Thought或Tree-of-Thoughts)并决定下一步行动;
-
模型可以是通用(general-purpose)或特定任务微调(fine-tuned),视具体应用场景而定。
-
工具(Tools):
-
Extensions
标准化的API调用接口,模型直接调用并执行API;
-
Functions
模型生成调用参数,由客户端(client-side)执行API调用;
-
Data Stores
通过向量数据库实现实时数据检索和增强(RAG),补充模型的知识边界。
-
编排层(Orchestration Layer):
-
Agent内部的核心调度机制,控制信息输入、模型推理过程、工具调用和输出生成;
-
通常采用推理框架(如ReAct、CoT、ToT)来实现Agent的任务规划和决策;
-
通过循环运行(如ReAct循环)持续执行推理-行动-观察(Thought-Action-Observation)过程,直至达到最终目标或终止条件。
Agent vs. 传统LLM的关键区别
|
|
|
|
|
|
|
|
|
|
通过以上架构与能力,Agent显著扩展了传统LLM的应用场景,赋予了生成式AI更广泛、更实用的交互能力和决策能力。
03
—
Agent Tools 详细解析
尽管LLMs具备强大的文本理解和生成能力,但其知识受限于训练数据,无法直接感知或操作外部世界。为突破这一限制,Agent引入了“工具(Tools)”概念,通过工具调用实现模型与外部实时数据和服务的连接。
Tools主要分为三种主要类型:
1. Extensions
定义:以标准化方式连接外部API与Agent,使Agent能直接调用API获取实时数据或执行具体操作。
特点:
-
API调用直接在Agent端(agent-side)执行;
-
通过提供调用示例(examples)教模型如何使用该API;
-
Agent运行时自主决定调用哪个Extension以及如何调用。
适用场景:
-
需要实时、直接的API调用(如实时航班查询、天气预报API);
-
复杂的API调用链路(multi-hop API calls),即后续行动依赖于前一步API结果。
2. Functions
定义:模型生成函数名和参数,实际API调用由客户端(client-side)实现和控制。
特点:
-
模型仅输出API调用所需的函数参数,不直接执行API调用;
-
API调用逻辑和流程控制由客户端自行实现;
-
更高的安全性与灵活性,适合对数据流有精细控制需求的场景。
适用场景:
-
API或数据源无法直接暴露给Agent(如内网API或安全敏感数据);
-
需要客户端执行额外的数据处理逻辑(如API结果过滤、异步任务处理);
-
存在时间或顺序依赖,需客户端控制API调用时机。
3. Data Stores
定义:基于向量数据库实现数据检索,支持Agent实时访问结构化或非结构化数据。
特点:
-
无需模型重新训练或微调,即可快速接入外部数据;
-
通常用于实现RAG;
-
支持多种数据格式,如PDF、Word、网页内容、数据库表格等。
适用场景:
-
动态内容检索与增强生成(如企业知识库、文档问答系统);
-
模型知识边界之外的大量实时数据接入。
三种工具类型对比小结
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
通过上述多样化的工具体系,Agents获得了实时感知外部世界、主动执行任务的能力,显著扩展了LLMs的应用场景与价值。
04
—
Agent 认知架构与推理框架 详细解析
(Cognitive Architectures & Reasoning Frameworks)
Agent的核心能力之一,是在面对复杂任务时进行主动的推理与规划。这种能力通常由Agent内部的认知架构(Cognitive Architecture) 实现。认知架构定义了Agent如何感知环境、处理信息并决策下一步行动。当前主流的认知架构通常围绕以下三种推理框架进行设计与实现:
1. ReAct(Reasoning and Acting)
定义与特点:
ReAct是一种广泛使用的prompt工程方法,其核心思想是将推理(Reasoning)与行动(Acting)紧密结合。模型通过反复循环执行以下步骤,逐步接近任务目标:
-
Thought(思考)
:根据当前信息,模型内部进行推理,决定下一步的行动方案;
-
Action(行动)
:模型选择并调用合适的工具(Tool);
-
Observation(观察)
:获得行动结果(如工具调用返回的信息),为下一轮决策提供参考。
典型示例:
以航班查询为例:
User: "查询下周五从北京到上海的航班信息"
Thought: 我需要查询实时航班数据
Action: Flights API(航班查询工具)
Action Input: {出发地: 北京, 目的地: 上海, 日期: 下周五}
Observation: 返回具体航班信息
Final Answer: "下周五北京到上海的航班有……"
2. Chain-of-Thought(CoT)
定义与特点:
Chain-of-Thought(思维链)是一种通过显式中间推理步骤,提高LLM推理性能的prompt工程方法。CoT鼓励模型按步骤逐层推导答案,而非直接跳跃到结论。
CoT的常见子方法包括:
-
Self-consistency
:通过生成多个推理路径,最终选择最一致的答案;
-
Active-prompt
:主动调整提示(prompt),进一步引导模型推理;
-
Multimodal CoT
:支持多模态输入场景(文本、图片、视频等)的推理方法。
典型示例:
以数学推理问题为例:
User: "小明有6个苹果,他吃了2个,又买了5个,现在他有几个苹果?"
CoT推理过程:
- 他原本有6个苹果。
- 吃掉2个,剩下4个苹果。
- 又买了5个,现在总共有9个苹果。
Final Answer: "现在小明共有9个苹果。"
3. Tree-of-Thoughts(ToT)
定义与特点:
Tree-of-Thoughts(思维树)是在CoT基础上进一步扩展的推理框架。它允许模型生成多个候选推理路径,形成树状结构,然后评估和选择最优路径,以解决复杂的决策和规划问题。
ToT具有以下优势:
-
支持深度探索(Deep Exploration):适合需要多路径探索和长期规划的任务;
-
灵活性强:通过树状结构管理多个并行推理方案,最终选择最优结果。
典型示例:
以旅行规划为例:
User: "推荐适合夏季旅行的目的地"
ToT推理过程:
- 路径1 → 海岛度假方向:马尔代夫、巴厘岛、普吉岛
- 路径2 → 山区避暑方向:瑞士阿尔卑斯、加拿大落基山脉
- 路径3 → 城市文化方向:巴黎、东京、纽约
模型评估并选择最佳路径(如海岛度假方向),继续细化推荐细节。
Final Answer: "推荐您去巴厘岛或马尔代夫,适合夏季海岛度假。"
三种推理框架对比总结
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
通过以上认知架构和推理框架的应用,Agent能够更加清晰有效地规划和执行复杂任务,显著提升了生成模型在实际场景中的表现与实用性。
05
—
提升Agent性能的策略(Targeted Learning Methods)
在实际应用中,Agent的性能不仅取决于所采用的LLM和工具(Tools),还与我们如何针对性地对模型进行学习优化密切相关。提升Agent性能的关键在于采用恰当的学习策略(Targeted Learning Methods),具体包括以下三种方法:
1. 即时上下文学习(In-context Learning)
定义与特点:
即时上下文学习指的是在模型的prompt中,通过提供少量示例(examples)帮助Agent在运行时快速掌握任务或工具使用方法,而无需重新训练或微调模型。
关键优势:
-
实施简单:无需额外训练或微调;
-
快速见效:即时增强模型能力;
-
适合快速迭代与实验。
适用场景:
-
新工具快速接入;
-
临时或实验性质的任务;
-
prompt长度允许包含少量有效示例的场景。
示例说明:
Prompt示例:
以下是调用天气API的示例:
示例输入: "上海今天天气如何?"
示例调用: 天气API(city="上海", date="今天")
示例输出: "上海今天是晴天,气温25度。"
用户输入: "北京明天天气怎么样?"
2. 检索增强即时学习(Retrieval-based In-context Learning,RAG)
定义与特点:
RAG 是一种基于外部知识检索的实时上下文增强方法。通过向量数据库或其他检索机制,实时检索相关知识或示例,动态加入Agent的prompt中,以帮助模型更精准地完成任务。
关键优势:
-
实时性强:即时检索最新数据;
-
知识边界扩展:超越模型原始知识限制;
-
灵活性高:无需重新微调模型,即可接入大量外部知识。
适用场景:
-
企业知识库问答;
-
文档或实时数据查询;
-
模型知识外的动态信息接入。
示例说明:
Prompt示例(动态检索):
用户输入: "介绍一下公司最新发布的产品X。"
[系统自动检索相关文档,并补充进prompt中]
检索内容: "产品X是本公司2025年最新发布的智能设备,具有高效节能、AI智能交互等特点..."
模型随后基于检索内容生成回答。
3. 微调学习(Fine-tuning Based Learning)
定义与特点:
微调学习指的是在基础模型(如GPT-4o、DeepSeek V3)的基础上,使用特定领域或任务的专属数据进行额外的训练,使模型更精准地适应特定任务或工具调用,改善模型效果。
关键优势:
-
长期稳定:提供长期、稳定的性能提升;
-
专业定制:高度适应特定业务场景或领域;
-
更高的准确性:相较于即时上下文学习,精细调整模型权重能显著提升准确性。
适用场景:
-
特定领域或垂直专业(如医疗、法律、金融);
-
大规模稳定业务场景;
-
对质量、准确性要求极高的任务。
示例说明:
-
收集特定业务场景的大量问题-回答对(QA数据集);
-
在预训练模型的基础上进行监督微调;
-
部署微调后的模型提供Agent服务。
三种学习策略的对比总结:
|
学习策略
|
优势
|
局限性
|
适用场景
|
| — | — | — | — |
|
即时上下文学习(In-context)
|
快速有效、无需额外训练
|
prompt长度限制,少量示例
|
快速迭代、新工具接入
|
|
检索增强即时学习(RAG)
|
动态实时检索、扩展知识边界
|
需要额外维护数据检索系统
|
企业知识库、实时数据接入
|
|
微调学习(Fine-tuning)
|
效果稳定、准确性高
|
成本较高、时间周期较长
|
垂直领域、高精度场景
|
通过合理选择和组合上述三种学习方法,可以有效提高Agent在实际场景中的表现,帮助开发者更好地满足不同场景下的业务需求。
06
—
展望与挑战
未来发展趋势
当前,Agent技术正处于快速发展的早期阶段,未来将在以下方向拥有广泛的发展空间:
-
多Agent协作(Multi-Agent Collaboration):
-
多个Agent协同工作,共享信息与资源;
-
更高效地完成复杂任务,如大型项目规划、复杂决策场景。
-
Agent链(Agent Chaining)与生态系统:
-
通过多个不同功能的Agent链式组合,实现更高层次的任务分解与规划;
-
形成完整的Agent生态系统,提升整体应用能力。
-
多模态Agent(Multimodal Agents):
-
支持文本、图像、视频、音频等多种模态输入;
-
更好地理解和响应真实世界的多样化任务。
-
自主学习与自我改进(Self-learning & Improvement):
-
Agent具备主动学习能力,从用户反馈与环境交互中持续学习;
-
减少人工干预,逐步优化性能与响应质量。
当前技术局限性与挑战
尽管Agent技术前景广阔,但当前也面临几个明显的局限性与实际挑战:
-
成本与效率问题(Cost & Efficiency):
-
Agent基于大型语言模型(LLMs)运行,推理成本较高;
-
多步推理与工具调用可能增加响应延迟。
-
工具调用与编排复杂度(Tool Complexity):
-
工具数量增加后,Agent选择合适工具的难度增大;
-
工具调用失败时,Agent可能缺乏有效的故障恢复机制。
-
信息安全与隐私风险(Security & Privacy Risks):
-
Agent调用外部API、访问敏感数据时可能产生安全风险;
-
如何有效保护数据隐私与安全至关重要。
-
可解释性与可控性(Explainability & Controllability):
-
Agent决策的内在逻辑可能不够透明,难以解释或调试;
-
如何确保Agent行为可控、可靠,成为重要的研究课题。
07
—
实例解析
序列图:用户、客户端UI(Client side UI)、Agent、模型(Model)和外部API之间的交互流程
交互流程详解:
整个流程从左侧用户发起请求开始,逐步向右侧推进,再返回给用户:
① 用户输入请求:
-
用户提出问题或请求,例如:
“…ski trip…”(想查询滑雪旅行相关信息)
② 客户端UI接收请求:
- 用户请求通过客户端界面(UI)传递给Agent进行下一步处理。
③ Agent处理与模型交互:
-
Agent收到请求后,向模型发送包含了Prompt(提示指令)和Examples(示例)的信息:
Agent sends Prompt + Examples to Model
-
模型基于接收到的Prompt和Examples,生成一个结构化的JSON输出,用于后续调用工具:
Model uses Prompt + Examples to generate JSON output
④ 模型返回JSON给Agent:
-
模型生成的JSON返回给Agent。JSON内明确指出需调用的函数或API,例如:
-
{"function":"display_cities", ...}
-
Agent将这个JSON结果返回给客户端UI,等待客户端执行API调用。
⑤ 客户端执行API调用:
-
客户端(Client side)截获Agent返回的JSON指令,调用对应的外部工具API(Google Places API):
Client Side intercepts JSON and makes API call to Google Places API
⑥ API执行与结果返回:
-
Google Places API收到调用请求后执行对应查询,返回所需的结果数据:
Google Places API returns in expected format
-
客户端UI接收到API返回的数据结果。
⑦ 客户端向用户展示最终响应:
-
客户端UI将结果数据封装成易于理解的响应内容,返回给用户:
“…here are some ski resorts w/images…”
(这是一些滑雪度假村及相关图片信息)
08
—
总结
-
Agent定义与基本架构:
-
Agent是一种自主应用程序,具备自主性、主动性、外部工具调用和内在推理决策能力;
-
三大核心组件:模型(Model)、工具(Tools)和编排层(Orchestration Layer)。
-
Agent工具体系(Tools):
-
Extensions:Agent端直接调用外部API;
-
Functions:客户端执行API调用,Agent生成参数;
-
Data Stores:通过向量数据库实现实时数据检索与增强生成(RAG)。
-
认知架构与推理框架(Reasoning Frameworks):
-
ReAct:通过Thought-Action-Observation循环实现实时工具调用;
-
Chain-of-Thought(CoT):通过显式推理步骤提升模型推理效果;
-
Tree-of-Thoughts(ToT):树状多路径推理结构,适合复杂规划任务。
-
提升Agent性能的策略(Targeted Learning Methods):
-
即时上下文学习(In-context Learning):快速简单的少量示例即时学习;
-
检索增强即时学习(RAG):实时动态检索外部数据,扩展模型知识边界;
-
微调学习(Fine-tuning):专属任务数据上的模型微调,提高长期稳定的性能表现。
-
展望与局限性(Future Prospects & Limitations):
-
未来趋势:多Agent协作、Agent链、多模态Agent、自主学习;
-
当前挑战:成本效率、工具复杂度、安全隐私风险、可解释性与可控性。
如何系统的去学习大模型LLM ?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
事实上,抢你饭碗的不是AI,而是会利用AI的人。
继科大讯飞、阿里、华为
等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?
与其焦虑……
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。
基于此,我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近70次后,终于把整个AI大模型的学习门槛,降到了最低!
在这个版本当中:
第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言
您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包,现在将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
一、LLM大模型经典书籍
AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。
二、640套LLM大模型报告合集
这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
三、LLM大模型系列视频教程
四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)
五、AI产品经理大模型教程
LLM大模型学习路线 ↓
阶段1:AI大模型时代的基础理解
-
目标:了解AI大模型的基本概念、发展历程和核心原理。
-
内容:
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
-
目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
-
内容:
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望
阶段3:AI大模型应用架构实践
-
目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
-
内容:
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
-
目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
-
内容:
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景
这份 LLM大模型资料
包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)