一文读懂AI Agents：让大模型拥有行动力（基础篇）

菜鸟Java码农

858人浏览 · 2025-03-04 10:36:04

菜鸟Java码农 · 2025-03-04 10:36:04 发布

“从2024年底，各大头部LLM 公司开始逐步发布 AI Agent产品，最新的如 xAI发布的基于 Grok3 的 Deepsearch；OpenAI发布的DeepReseach；Perplexity的Deepsesearh。

后面会深度解析以上各产品，在此之前，我们先再从基础理解下什么是 AI agent，基本概念，key components，基本的方法等 ”

以下是三篇与本文相关的推荐阅读的文章：

文章标题	链接	备注
Agentic Reasoning: Reasoning LLMs with Tools for the Deep Research	https://arxiv.org/abs/2502.04644	Agentic Reasoning 框架，通过集成外部工具代理（如网页搜索、代码执行和结构化记忆）增强 LLM 的推理能力
Cognitive Architectures for Language Agents	https://arxiv.org/abs/2309.02427	基于LLM的Agent认知框架
Agents	https://www.kaggle.com/whitepaper-agents	google agents产品负责人发布的Agent白皮书

引言
Agent定义与基本架构
工具体系 (Tools: Extensions, Functions, Data Stores)
认知架构与推理框架 (Cognitive Architectures & Reasoning Frameworks)
提升Agent性能的策略
展望与局限性
总结

—

LLM Agents - 赋予生成式AI感知世界的能力

在生成式AI迅速发展的今天，LLMs 以其强大的文本理解和生成能力，已在各个领域展现出巨大潜力。然而，传统LLM存在明显的局限性：

知识边界受限

LLM仅能访问训练数据中已有的信息，无法获取实时数据及外部最新信息。
缺乏行动能力

LLM本身无法执行外部操作，如调用API、查询数据库、发送邮件等。

为突破上述局限性，业界提出了Agent的概念。简单来说，Agent 是以LLM为核心、具备内在推理能力（reasoning）与外部工具调用（tools）能力的自主系统。通过这一设计，Agent使生成式AI具备了感知外部世界、主动规划并执行复杂任务的能力。

典型的Agent架构通常包括三个核心组成部分：

模型（Model）

以LLM为决策核心，负责内部推理与决策；
工具（Tools）

通过Extensions、Functions、Data Stores等机制连接外部数据和服务；
编排层（Orchestration Layer）

利用推理框架（如ReAct、Chain-of-Thought）规划任务步骤、调用工具、管理记忆状态。

通过这些核心组件的协同工作，Agent可实现更复杂、更真实场景下的应用，例如：

实时查询并整合最新信息（如实时航班、体育赛事信息）；
主动调用外部服务完成特定任务（如发送邮件、预订机票）；
访问特定领域或私有数据（如企业数据库、知识库）以增强响应能力。

—

什么是Agent：定义与基本架构

Agent本质上是基于生成式AI模型的自主应用程序。其目标是通过观察环境、使用外部工具并自主决策和行动，以达成设定好的任务目标。

Agent具有以下几个关键特征：

自主性（Autonomous）

无需持续的人类干预，根据明确的目标或指令自主执行；
主动性（Proactive）

在没有详细指示的情况下，能主动规划并确定下一步行动；
工具调用（Tool Usage）

通过外部工具扩展模型本身无法实现的功能，如数据查询、API调用等；
推理决策（Reasoning & Decision Making）

具备内在的决策逻辑，能基于环境信息和任务目标进行推理规划。

Agent的基本架构（General Agent Architecture）由三个核心组件组成：

模型（Model）：
作为Agent的决策核心；
模型负责接收任务输入、进行内部推理（如ReAct、Chain-of-Thought或Tree-of-Thoughts）并决定下一步行动；
模型可以是通用（general-purpose）或特定任务微调（fine-tuned），视具体应用场景而定。
工具（Tools）：
Extensions

标准化的API调用接口，模型直接调用并执行API；
Functions

模型生成调用参数，由客户端（client-side）执行API调用；
Data Stores

通过向量数据库实现实时数据检索和增强（RAG），补充模型的知识边界。
编排层（Orchestration Layer）：
Agent内部的核心调度机制，控制信息输入、模型推理过程、工具调用和输出生成；
通常采用推理框架（如ReAct、CoT、ToT）来实现Agent的任务规划和决策；
通过循环运行（如ReAct循环）持续执行推理-行动-观察（Thought-Action-Observation）过程，直至达到最终目标或终止条件。

Agent vs. 传统LLM的关键区别

传统LLM（Models）	Agent框架（Agents）
知识局限于训练数据，无实时数据访问能力	可通过工具实时访问外部数据，扩展知识边界
一次性推理，缺少内在状态管理能力	具备内在状态管理（如会话历史），支持多轮交互
无原生工具调用能力	原生支持外部工具调用（Extensions, Functions, Data Stores）
无内置逻辑推理与任务规划机制	内置推理与任务规划机制，如ReAct、Chain-of-Thought

通过以上架构与能力，Agent显著扩展了传统LLM的应用场景，赋予了生成式AI更广泛、更实用的交互能力和决策能力。

—

Agent Tools 详细解析

尽管LLMs具备强大的文本理解和生成能力，但其知识受限于训练数据，无法直接感知或操作外部世界。为突破这一限制，Agent引入了“工具（Tools）”概念，通过工具调用实现模型与外部实时数据和服务的连接。

Tools主要分为三种主要类型：

1. Extensions

定义：以标准化方式连接外部API与Agent，使Agent能直接调用API获取实时数据或执行具体操作。

特点：

API调用直接在Agent端（agent-side）执行；
通过提供调用示例（examples）教模型如何使用该API；
Agent运行时自主决定调用哪个Extension以及如何调用。

适用场景：

需要实时、直接的API调用（如实时航班查询、天气预报API）；
复杂的API调用链路（multi-hop API calls），即后续行动依赖于前一步API结果。

2. Functions

定义：模型生成函数名和参数，实际API调用由客户端（client-side）实现和控制。

特点：

模型仅输出API调用所需的函数参数，不直接执行API调用；
API调用逻辑和流程控制由客户端自行实现；
更高的安全性与灵活性，适合对数据流有精细控制需求的场景。

适用场景：

API或数据源无法直接暴露给Agent（如内网API或安全敏感数据）；
需要客户端执行额外的数据处理逻辑（如API结果过滤、异步任务处理）；
存在时间或顺序依赖，需客户端控制API调用时机。

3. Data Stores

定义：基于向量数据库实现数据检索，支持Agent实时访问结构化或非结构化数据。

特点：

无需模型重新训练或微调，即可快速接入外部数据；
通常用于实现RAG；
支持多种数据格式，如PDF、Word、网页内容、数据库表格等。

适用场景：

动态内容检索与增强生成（如企业知识库、文档问答系统）；
模型知识边界之外的大量实时数据接入。

三种工具类型对比小结

工具类型（Tools）	执行位置	关键特征	典型应用场景
Extensions	Agent端	模型直接调用API	实时航班、天气等实时查询
Functions	客户端	模型生成参数，客户端执行	安全敏感数据、异步处理
Data Stores	Agent端	向量数据库实时RAG	企业知识库、文档问答

通过上述多样化的工具体系，Agents获得了实时感知外部世界、主动执行任务的能力，显著扩展了LLMs的应用场景与价值。

—

Agent 认知架构与推理框架详细解析

（Cognitive Architectures & Reasoning Frameworks）

Agent的核心能力之一，是在面对复杂任务时进行主动的推理与规划。这种能力通常由Agent内部的认知架构（Cognitive Architecture） 实现。认知架构定义了Agent如何感知环境、处理信息并决策下一步行动。当前主流的认知架构通常围绕以下三种推理框架进行设计与实现：

1. ReAct（Reasoning and Acting）

定义与特点：
ReAct是一种广泛使用的prompt工程方法，其核心思想是将推理（Reasoning）与行动（Acting）紧密结合。模型通过反复循环执行以下步骤，逐步接近任务目标：

Thought（思考）

：根据当前信息，模型内部进行推理，决定下一步的行动方案；
Action（行动）

：模型选择并调用合适的工具（Tool）；
Observation（观察）

：获得行动结果（如工具调用返回的信息），为下一轮决策提供参考。

典型示例：
以航班查询为例：

User: "查询下周五从北京到上海的航班信息"  
Thought: 我需要查询实时航班数据  
Action: Flights API（航班查询工具）  
Action Input: {出发地: 北京, 目的地: 上海, 日期: 下周五}  
Observation: 返回具体航班信息  
Final Answer: "下周五北京到上海的航班有……"

2. Chain-of-Thought（CoT）

定义与特点：
Chain-of-Thought（思维链）是一种通过显式中间推理步骤，提高LLM推理性能的prompt工程方法。CoT鼓励模型按步骤逐层推导答案，而非直接跳跃到结论。

CoT的常见子方法包括：

Self-consistency

：通过生成多个推理路径，最终选择最一致的答案；
Active-prompt

：主动调整提示（prompt），进一步引导模型推理；
Multimodal CoT

：支持多模态输入场景（文本、图片、视频等）的推理方法。

典型示例：
以数学推理问题为例：

User: "小明有6个苹果，他吃了2个，又买了5个，现在他有几个苹果？"  
CoT推理过程:  
- 他原本有6个苹果。  
- 吃掉2个，剩下4个苹果。  
- 又买了5个，现在总共有9个苹果。  
Final Answer: "现在小明共有9个苹果。"

3. Tree-of-Thoughts（ToT）

定义与特点：
Tree-of-Thoughts（思维树）是在CoT基础上进一步扩展的推理框架。它允许模型生成多个候选推理路径，形成树状结构，然后评估和选择最优路径，以解决复杂的决策和规划问题。

ToT具有以下优势：

支持深度探索（Deep Exploration）：适合需要多路径探索和长期规划的任务；
灵活性强：通过树状结构管理多个并行推理方案，最终选择最优结果。

典型示例：
以旅行规划为例：

User: "推荐适合夏季旅行的目的地"  
ToT推理过程:  
- 路径1 → 海岛度假方向：马尔代夫、巴厘岛、普吉岛  
- 路径2 → 山区避暑方向：瑞士阿尔卑斯、加拿大落基山脉  
- 路径3 → 城市文化方向：巴黎、东京、纽约  
模型评估并选择最佳路径（如海岛度假方向），继续细化推荐细节。  
Final Answer: "推荐您去巴厘岛或马尔代夫，适合夏季海岛度假。"

三种推理框架对比总结

推理框架	关键特点	适用场景	优势
ReAct	思考-行动-观察循环	实时工具调用、交互式任务	实时反馈、工具调用灵活
Chain-of-Thought	显式中间推理步骤	需要明确计算与推理的问题	提高推理准确性与可解释性
Tree-of-Thoughts	树状多路径探索	复杂规划与决策问题	深度探索、多路径评估

通过以上认知架构和推理框架的应用，Agent能够更加清晰有效地规划和执行复杂任务，显著提升了生成模型在实际场景中的表现与实用性。

—

提升Agent性能的策略（Targeted Learning Methods）

在实际应用中，Agent的性能不仅取决于所采用的LLM和工具（Tools），还与我们如何针对性地对模型进行学习优化密切相关。提升Agent性能的关键在于采用恰当的学习策略（Targeted Learning Methods），具体包括以下三种方法：

1. 即时上下文学习（In-context Learning）

定义与特点：
即时上下文学习指的是在模型的prompt中，通过提供少量示例（examples）帮助Agent在运行时快速掌握任务或工具使用方法，而无需重新训练或微调模型。

关键优势：

实施简单：无需额外训练或微调；
快速见效：即时增强模型能力；
适合快速迭代与实验。

适用场景：

新工具快速接入；
临时或实验性质的任务；
prompt长度允许包含少量有效示例的场景。

示例说明：

Prompt示例：  
以下是调用天气API的示例：  
  
示例输入: "上海今天天气如何？"  
示例调用: 天气API(city="上海", date="今天")  
示例输出: "上海今天是晴天，气温25度。"  
  
用户输入: "北京明天天气怎么样？"

2. 检索增强即时学习（Retrieval-based In-context Learning，RAG）

定义与特点：
RAG 是一种基于外部知识检索的实时上下文增强方法。通过向量数据库或其他检索机制，实时检索相关知识或示例，动态加入Agent的prompt中，以帮助模型更精准地完成任务。

关键优势：

实时性强：即时检索最新数据；
知识边界扩展：超越模型原始知识限制；
灵活性高：无需重新微调模型，即可接入大量外部知识。

适用场景：

企业知识库问答；
文档或实时数据查询；
模型知识外的动态信息接入。

示例说明：

Prompt示例（动态检索）：  
  
用户输入: "介绍一下公司最新发布的产品X。"  
  
[系统自动检索相关文档，并补充进prompt中]  
检索内容: "产品X是本公司2025年最新发布的智能设备，具有高效节能、AI智能交互等特点..."  
  
模型随后基于检索内容生成回答。

3. 微调学习（Fine-tuning Based Learning）

定义与特点：
微调学习指的是在基础模型（如GPT-4o、DeepSeek V3）的基础上，使用特定领域或任务的专属数据进行额外的训练，使模型更精准地适应特定任务或工具调用，改善模型效果。

关键优势：

长期稳定：提供长期、稳定的性能提升；
专业定制：高度适应特定业务场景或领域；
更高的准确性：相较于即时上下文学习，精细调整模型权重能显著提升准确性。

适用场景：

特定领域或垂直专业（如医疗、法律、金融）；
大规模稳定业务场景；
对质量、准确性要求极高的任务。

示例说明：

收集特定业务场景的大量问题-回答对（QA数据集）；
在预训练模型的基础上进行监督微调；
部署微调后的模型提供Agent服务。

三种学习策略的对比总结：

|
学习策略

优势

局限性

适用场景

|
| — | — | — | — |
|

即时上下文学习（In-context）

快速有效、无需额外训练

prompt长度限制，少量示例

快速迭代、新工具接入

|
|

检索增强即时学习（RAG）

动态实时检索、扩展知识边界

需要额外维护数据检索系统

企业知识库、实时数据接入

|
|

微调学习（Fine-tuning）

效果稳定、准确性高

成本较高、时间周期较长

垂直领域、高精度场景

通过合理选择和组合上述三种学习方法，可以有效提高Agent在实际场景中的表现，帮助开发者更好地满足不同场景下的业务需求。

—

展望与挑战

未来发展趋势

当前，Agent技术正处于快速发展的早期阶段，未来将在以下方向拥有广泛的发展空间：

多Agent协作（Multi-Agent Collaboration）：
多个Agent协同工作，共享信息与资源；
更高效地完成复杂任务，如大型项目规划、复杂决策场景。
Agent链（Agent Chaining）与生态系统：
通过多个不同功能的Agent链式组合，实现更高层次的任务分解与规划；
形成完整的Agent生态系统，提升整体应用能力。
多模态Agent（Multimodal Agents）：
支持文本、图像、视频、音频等多种模态输入；
更好地理解和响应真实世界的多样化任务。
自主学习与自我改进（Self-learning & Improvement）：
Agent具备主动学习能力，从用户反馈与环境交互中持续学习；
减少人工干预，逐步优化性能与响应质量。

当前技术局限性与挑战

尽管Agent技术前景广阔，但当前也面临几个明显的局限性与实际挑战：

成本与效率问题（Cost & Efficiency）：
Agent基于大型语言模型（LLMs）运行，推理成本较高；
多步推理与工具调用可能增加响应延迟。
工具调用与编排复杂度（Tool Complexity）：
工具数量增加后，Agent选择合适工具的难度增大；
工具调用失败时，Agent可能缺乏有效的故障恢复机制。
信息安全与隐私风险（Security & Privacy Risks）：
Agent调用外部API、访问敏感数据时可能产生安全风险；
如何有效保护数据隐私与安全至关重要。
可解释性与可控性（Explainability & Controllability）：
Agent决策的内在逻辑可能不够透明，难以解释或调试；
如何确保Agent行为可控、可靠，成为重要的研究课题。

—

实例解析

序列图：用户、客户端UI（Client side UI）、Agent、模型（Model）和外部API之间的交互流程

交互流程详解：

整个流程从左侧用户发起请求开始，逐步向右侧推进，再返回给用户：

① 用户输入请求：

用户提出问题或请求，例如：

“…ski trip…”（想查询滑雪旅行相关信息）

② 客户端UI接收请求：

用户请求通过客户端界面（UI）传递给Agent进行下一步处理。

③ Agent处理与模型交互：

Agent收到请求后，向模型发送包含了Prompt（提示指令）和Examples（示例）的信息：

Agent sends Prompt + Examples to Model
模型基于接收到的Prompt和Examples，生成一个结构化的JSON输出，用于后续调用工具：

Model uses Prompt + Examples to generate JSON output

④ 模型返回JSON给Agent：

模型生成的JSON返回给Agent。JSON内明确指出需调用的函数或API，例如：
```
{"function":"display_cities", ...}  
```
Agent将这个JSON结果返回给客户端UI，等待客户端执行API调用。

⑤ 客户端执行API调用：

客户端（Client side）截获Agent返回的JSON指令，调用对应的外部工具API（Google Places API）：

Client Side intercepts JSON and makes API call to Google Places API

⑥ API执行与结果返回：

Google Places API收到调用请求后执行对应查询，返回所需的结果数据：

Google Places API returns in expected format
客户端UI接收到API返回的数据结果。

⑦ 客户端向用户展示最终响应：

客户端UI将结果数据封装成易于理解的响应内容，返回给用户：

“…here are some ski resorts w/images…”
（这是一些滑雪度假村及相关图片信息）

—

总结

Agent定义与基本架构：
Agent是一种自主应用程序，具备自主性、主动性、外部工具调用和内在推理决策能力；
三大核心组件：模型（Model）、工具（Tools）和编排层（Orchestration Layer）。
Agent工具体系（Tools）：
Extensions：Agent端直接调用外部API；
Functions：客户端执行API调用，Agent生成参数；
Data Stores：通过向量数据库实现实时数据检索与增强生成（RAG）。
认知架构与推理框架（Reasoning Frameworks）：
ReAct：通过Thought-Action-Observation循环实现实时工具调用；
Chain-of-Thought（CoT）：通过显式推理步骤提升模型推理效果；
Tree-of-Thoughts（ToT）：树状多路径推理结构，适合复杂规划任务。
提升Agent性能的策略（Targeted Learning Methods）：
即时上下文学习（In-context Learning）：快速简单的少量示例即时学习；
检索增强即时学习（RAG）：实时动态检索外部数据，扩展模型知识边界；
微调学习（Fine-tuning）：专属任务数据上的模型微调，提高长期稳定的性能表现。
展望与局限性（Future Prospects & Limitations）：
未来趋势：多Agent协作、Agent链、多模态Agent、自主学习；
当前挑战：成本效率、工具复杂度、安全隐私风险、可解释性与可控性。

LLM Agents | Prompt Engineering Guide

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

基于此，我用做产品的心态来打磨这份大模型教程，深挖痛点并持续修改了近70次后，终于把整个AI大模型的学习门槛，降到了最低！

在这个版本当中：

第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言

您只需要听我讲，跟着我做即可，为了让学习的道路变得更简单，这份大模型教程已经给大家整理并打包，现在将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

五、AI产品经理大模型教程

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

AIGC时代API设计范式重构：从数据管道到智能交互层的深度跃迁

天启AI社区

数字人心理咨询：AIGC在心理健康服务的探索

本文旨在全面解析数字人心理咨询的技术原理和应用实践，探讨AIGC如何赋能心理健康服务。我们将覆盖从基础技术到实际应用，再到伦理考量的完整知识链条。文章将从技术基础开始，逐步深入到应用场景和案例分析，最后探讨伦理挑战和未来发展方向。数字人心理咨询：基于人工智能技术构建的虚拟心理咨询师，能够模拟人类咨询师的对话方式和治疗技术。AIGC(人工智能生成内容)：利用AI技术自动生成文本、图像、音频等内容的技

天启AI社区

AIGC内容过滤中的多模态技术应用

随着ChatGPT、DALL·E、Sora等AIGC工具爆发，AI每天生成数十亿条图文、视频内容。但这些内容可能藏着“危险品”：比如AI生成的“儿童不宜”图片配“正常文字描述”，或“无害图片”配“煽动性文字”。传统单模态过滤（只查文字或只查图片）像“漏检的安检机”，多模态技术（同时分析文字+图片+声音）能补上漏洞。本文将覆盖多模态过滤的核心原理、实战方法及未来趋势。从“快递安检”的生活案例切入，拆