“从2024年底,各大头部LLM 公司开始逐步发布 AI Agent产品,最新的如 xAI发布的基于 Grok3 的 Deepsearch;OpenAI发布的DeepReseach;Perplexity的Deepsesearh。

后面会深度解析以上各产品,在此之前,我们先再从基础理解下什么是 AI agent,基本概念,key components,基本的方法等

以下是三篇与本文相关的推荐阅读的文章:

文章标题
链接
备注
Agentic Reasoning: Reasoning LLMs with Tools for the Deep Research
https://arxiv.org/abs/2502.04644
Agentic Reasoning  框架,通过集成外部工具代理(如网页搜索、代码执行和结构化记忆)增强 LLM 的推理能力
Cognitive Architectures for Language Agents
https://arxiv.org/abs/2309.02427
基于LLM的Agent认知框架 
Agents
https://www.kaggle.com/whitepaper-agents
google agents产品负责人发布的Agent白皮书

  1. 引言

  2. Agent定义与基本架构

  3. 工具体系 (Tools: Extensions, Functions, Data Stores)

  4. 认知架构与推理框架 (Cognitive Architectures & Reasoning Frameworks)

  5. 提升Agent性能的策略

  6. 展望与局限性

  7. 总结

01

LLM Agents - 赋予生成式AI感知世界的能力

在生成式AI迅速发展的今天,LLMs 以其强大的文本理解和生成能力,已在各个领域展现出巨大潜力。然而,传统LLM存在明显的局限性:

  • 知识边界受限

    LLM仅能访问训练数据中已有的信息,无法获取实时数据及外部最新信息。

  • 缺乏行动能力

    LLM本身无法执行外部操作,如调用API、查询数据库、发送邮件等。

为突破上述局限性,业界提出了Agent的概念。简单来说,Agent 是以LLM为核心、具备内在推理能力(reasoning)与外部工具调用(tools)能力的自主系统。通过这一设计,Agent使生成式AI具备了感知外部世界、主动规划并执行复杂任务的能力。

典型的Agent架构通常包括三个核心组成部分:

  • 模型(Model)

    以LLM为决策核心,负责内部推理与决策;

  • 工具(Tools)

    通过Extensions、Functions、Data Stores等机制连接外部数据和服务;

  • 编排层(Orchestration Layer)

    利用推理框架(如ReAct、Chain-of-Thought)规划任务步骤、调用工具、管理记忆状态。

通过这些核心组件的协同工作,Agent可实现更复杂、更真实场景下的应用,例如:

  • 实时查询并整合最新信息(如实时航班、体育赛事信息);

  • 主动调用外部服务完成特定任务(如发送邮件、预订机票);

  • 访问特定领域或私有数据(如企业数据库、知识库)以增强响应能力。

02

什么是Agent:定义与基本架构

Agent本质上是基于生成式AI模型的自主应用程序。其目标是通过观察环境、使用外部工具并自主决策和行动,以达成设定好的任务目标。

Agent具有以下几个关键特征:

  • 自主性(Autonomous)

    无需持续的人类干预,根据明确的目标或指令自主执行;

  • 主动性(Proactive)

    在没有详细指示的情况下,能主动规划并确定下一步行动;

  • 工具调用(Tool Usage)

    通过外部工具扩展模型本身无法实现的功能,如数据查询、API调用等;

  • 推理决策(Reasoning & Decision Making)

    具备内在的决策逻辑,能基于环境信息和任务目标进行推理规划。

Agent的基本架构(General Agent Architecture)由三个核心组件组成:

  • 模型(Model)

  • 作为Agent的决策核心;

  • 模型负责接收任务输入、进行内部推理(如ReAct、Chain-of-Thought或Tree-of-Thoughts)并决定下一步行动;

  • 模型可以是通用(general-purpose)或特定任务微调(fine-tuned),视具体应用场景而定。

  • 工具(Tools)

  • Extensions

    标准化的API调用接口,模型直接调用并执行API;

  • Functions

    模型生成调用参数,由客户端(client-side)执行API调用;

  • Data Stores

    通过向量数据库实现实时数据检索和增强(RAG),补充模型的知识边界。

  • 编排层(Orchestration Layer)

  • Agent内部的核心调度机制,控制信息输入、模型推理过程、工具调用和输出生成;

  • 通常采用推理框架(如ReAct、CoT、ToT)来实现Agent的任务规划和决策;

  • 通过循环运行(如ReAct循环)持续执行推理-行动-观察(Thought-Action-Observation)过程,直至达到最终目标或终止条件。

Agent vs. 传统LLM的关键区别

传统LLM(Models)
Agent框架(Agents)
知识局限于训练数据,无实时数据访问能力
可通过工具实时访问外部数据,扩展知识边界
一次性推理,缺少内在状态管理能力
具备内在状态管理(如会话历史),支持多轮交互
无原生工具调用能力
原生支持外部工具调用(Extensions, Functions, Data Stores)
无内置逻辑推理与任务规划机制
内置推理与任务规划机制,如ReAct、Chain-of-Thought

通过以上架构与能力,Agent显著扩展了传统LLM的应用场景,赋予了生成式AI更广泛、更实用的交互能力和决策能力。

03

Agent Tools 详细解析

尽管LLMs具备强大的文本理解和生成能力,但其知识受限于训练数据,无法直接感知或操作外部世界。为突破这一限制,Agent引入了“工具(Tools)”概念,通过工具调用实现模型与外部实时数据和服务的连接。

Tools主要分为三种主要类型:

1. Extensions

定义:以标准化方式连接外部API与Agent,使Agent能直接调用API获取实时数据或执行具体操作。

特点

  • API调用直接在Agent端(agent-side)执行;

  • 通过提供调用示例(examples)教模型如何使用该API;

  • Agent运行时自主决定调用哪个Extension以及如何调用。

适用场景

  • 需要实时、直接的API调用(如实时航班查询、天气预报API);

  • 复杂的API调用链路(multi-hop API calls),即后续行动依赖于前一步API结果。

2. Functions

定义:模型生成函数名和参数,实际API调用由客户端(client-side)实现和控制。

特点

  • 模型仅输出API调用所需的函数参数,不直接执行API调用;

  • API调用逻辑和流程控制由客户端自行实现;

  • 更高的安全性与灵活性,适合对数据流有精细控制需求的场景。

适用场景

  • API或数据源无法直接暴露给Agent(如内网API或安全敏感数据);

  • 需要客户端执行额外的数据处理逻辑(如API结果过滤、异步任务处理);

  • 存在时间或顺序依赖,需客户端控制API调用时机。

3. Data Stores

定义:基于向量数据库实现数据检索,支持Agent实时访问结构化或非结构化数据。

特点

  • 无需模型重新训练或微调,即可快速接入外部数据;

  • 通常用于实现RAG;

  • 支持多种数据格式,如PDF、Word、网页内容、数据库表格等。

适用场景

  • 动态内容检索与增强生成(如企业知识库、文档问答系统);

  • 模型知识边界之外的大量实时数据接入。

三种工具类型对比小结

工具类型(Tools)
执行位置
关键特征
典型应用场景
Extensions
Agent端
模型直接调用API
实时航班、天气等实时查询
Functions
客户端
模型生成参数,客户端执行
安全敏感数据、异步处理
Data Stores
Agent端
向量数据库实时RAG
企业知识库、文档问答

通过上述多样化的工具体系,Agents获得了实时感知外部世界、主动执行任务的能力,显著扩展了LLMs的应用场景与价值。

04

Agent 认知架构与推理框架 详细解析

(Cognitive Architectures & Reasoning Frameworks)

Agent的核心能力之一,是在面对复杂任务时进行主动的推理与规划。这种能力通常由Agent内部的认知架构(Cognitive Architecture) 实现。认知架构定义了Agent如何感知环境、处理信息并决策下一步行动。当前主流的认知架构通常围绕以下三种推理框架进行设计与实现:

1. ReAct(Reasoning and Acting)

定义与特点:
ReAct是一种广泛使用的prompt工程方法,其核心思想是将推理(Reasoning)与行动(Acting)紧密结合。模型通过反复循环执行以下步骤,逐步接近任务目标:

  • Thought(思考)

    :根据当前信息,模型内部进行推理,决定下一步的行动方案;

  • Action(行动)

    :模型选择并调用合适的工具(Tool);

  • Observation(观察)

    :获得行动结果(如工具调用返回的信息),为下一轮决策提供参考。

典型示例:
以航班查询为例:

User: "查询下周五从北京到上海的航班信息"  
Thought: 我需要查询实时航班数据  
Action: Flights API(航班查询工具)  
Action Input: {出发地: 北京, 目的地: 上海, 日期: 下周五}  
Observation: 返回具体航班信息  
Final Answer: "下周五北京到上海的航班有……"  


2. Chain-of-Thought(CoT)

定义与特点:
Chain-of-Thought(思维链)是一种通过显式中间推理步骤,提高LLM推理性能的prompt工程方法。CoT鼓励模型按步骤逐层推导答案,而非直接跳跃到结论。

CoT的常见子方法包括:

  • Self-consistency

    :通过生成多个推理路径,最终选择最一致的答案;

  • Active-prompt

    :主动调整提示(prompt),进一步引导模型推理;

  • Multimodal CoT

    :支持多模态输入场景(文本、图片、视频等)的推理方法。

典型示例:
以数学推理问题为例:

User: "小明有6个苹果,他吃了2个,又买了5个,现在他有几个苹果?"  
CoT推理过程:  
- 他原本有6个苹果。  
- 吃掉2个,剩下4个苹果。  
- 又买了5个,现在总共有9个苹果。  
Final Answer: "现在小明共有9个苹果。"  

3. Tree-of-Thoughts(ToT)

定义与特点:
Tree-of-Thoughts(思维树)是在CoT基础上进一步扩展的推理框架。它允许模型生成多个候选推理路径,形成树状结构,然后评估和选择最优路径,以解决复杂的决策和规划问题。

ToT具有以下优势:

  • 支持深度探索(Deep Exploration):适合需要多路径探索和长期规划的任务;

  • 灵活性强:通过树状结构管理多个并行推理方案,最终选择最优结果。

典型示例:
以旅行规划为例:

User: "推荐适合夏季旅行的目的地"  
ToT推理过程:  
- 路径1 → 海岛度假方向:马尔代夫、巴厘岛、普吉岛  
- 路径2 → 山区避暑方向:瑞士阿尔卑斯、加拿大落基山脉  
- 路径3 → 城市文化方向:巴黎、东京、纽约  
模型评估并选择最佳路径(如海岛度假方向),继续细化推荐细节。  
Final Answer: "推荐您去巴厘岛或马尔代夫,适合夏季海岛度假。"  

三种推理框架对比总结

推理框架
关键特点
适用场景
优势
ReAct
思考-行动-观察循环
实时工具调用、交互式任务
实时反馈、工具调用灵活
Chain-of-Thought
显式中间推理步骤
需要明确计算与推理的问题
提高推理准确性与可解释性
Tree-of-Thoughts
树状多路径探索
复杂规划与决策问题
深度探索、多路径评估

通过以上认知架构和推理框架的应用,Agent能够更加清晰有效地规划和执行复杂任务,显著提升了生成模型在实际场景中的表现与实用性。

05

提升Agent性能的策略(Targeted Learning Methods)

在实际应用中,Agent的性能不仅取决于所采用的LLM和工具(Tools),还与我们如何针对性地对模型进行学习优化密切相关。提升Agent性能的关键在于采用恰当的学习策略(Targeted Learning Methods),具体包括以下三种方法:

1. 即时上下文学习(In-context Learning)

定义与特点:
即时上下文学习指的是在模型的prompt中,通过提供少量示例(examples)帮助Agent在运行时快速掌握任务或工具使用方法,而无需重新训练或微调模型。

关键优势:

  • 实施简单:无需额外训练或微调;

  • 快速见效:即时增强模型能力;

  • 适合快速迭代与实验。

适用场景:

  • 新工具快速接入;

  • 临时或实验性质的任务;

  • prompt长度允许包含少量有效示例的场景。

示例说明:

Prompt示例:  
以下是调用天气API的示例:  
  
示例输入: "上海今天天气如何?"  
示例调用: 天气API(city="上海", date="今天")  
示例输出: "上海今天是晴天,气温25度。"  
  
用户输入: "北京明天天气怎么样?"  

2. 检索增强即时学习(Retrieval-based In-context Learning,RAG)

定义与特点:
RAG 是一种基于外部知识检索的实时上下文增强方法。通过向量数据库或其他检索机制,实时检索相关知识或示例,动态加入Agent的prompt中,以帮助模型更精准地完成任务。

关键优势:

  • 实时性强:即时检索最新数据;

  • 知识边界扩展:超越模型原始知识限制;

  • 灵活性高:无需重新微调模型,即可接入大量外部知识。

适用场景:

  • 企业知识库问答;

  • 文档或实时数据查询;

  • 模型知识外的动态信息接入。

示例说明:

Prompt示例(动态检索):  
  
用户输入: "介绍一下公司最新发布的产品X。"  
  
[系统自动检索相关文档,并补充进prompt中]  
检索内容: "产品X是本公司2025年最新发布的智能设备,具有高效节能、AI智能交互等特点..."  
  
模型随后基于检索内容生成回答。  

3. 微调学习(Fine-tuning Based Learning)

定义与特点:
微调学习指的是在基础模型(如GPT-4o、DeepSeek V3)的基础上,使用特定领域或任务的专属数据进行额外的训练,使模型更精准地适应特定任务或工具调用,改善模型效果。

关键优势:

  • 长期稳定:提供长期、稳定的性能提升;

  • 专业定制:高度适应特定业务场景或领域;

  • 更高的准确性:相较于即时上下文学习,精细调整模型权重能显著提升准确性。

适用场景:

  • 特定领域或垂直专业(如医疗、法律、金融);

  • 大规模稳定业务场景;

  • 对质量、准确性要求极高的任务。

示例说明:

  • 收集特定业务场景的大量问题-回答对(QA数据集);

  • 在预训练模型的基础上进行监督微调;

  • 部署微调后的模型提供Agent服务。

三种学习策略的对比总结:

|
学习策略

|

优势

|

局限性

|

适用场景

|
| — | — | — | — |
|

即时上下文学习(In-context)

|

快速有效、无需额外训练

|

prompt长度限制,少量示例

|

快速迭代、新工具接入

|
|

检索增强即时学习(RAG)

|

动态实时检索、扩展知识边界

|

需要额外维护数据检索系统

|

企业知识库、实时数据接入

|
|

微调学习(Fine-tuning)

|

效果稳定、准确性高

|

成本较高、时间周期较长

|

垂直领域、高精度场景

|

通过合理选择和组合上述三种学习方法,可以有效提高Agent在实际场景中的表现,帮助开发者更好地满足不同场景下的业务需求。

06

展望与挑战

未来发展趋势

当前,Agent技术正处于快速发展的早期阶段,未来将在以下方向拥有广泛的发展空间:

  • 多Agent协作(Multi-Agent Collaboration)

  • 多个Agent协同工作,共享信息与资源;

  • 更高效地完成复杂任务,如大型项目规划、复杂决策场景。

  • Agent链(Agent Chaining)与生态系统

  • 通过多个不同功能的Agent链式组合,实现更高层次的任务分解与规划;

  • 形成完整的Agent生态系统,提升整体应用能力。

  • 多模态Agent(Multimodal Agents)

  • 支持文本、图像、视频、音频等多种模态输入;

  • 更好地理解和响应真实世界的多样化任务。

  • 自主学习与自我改进(Self-learning & Improvement)

  • Agent具备主动学习能力,从用户反馈与环境交互中持续学习;

  • 减少人工干预,逐步优化性能与响应质量。

当前技术局限性与挑战

尽管Agent技术前景广阔,但当前也面临几个明显的局限性与实际挑战:

  • 成本与效率问题(Cost & Efficiency)

  • Agent基于大型语言模型(LLMs)运行,推理成本较高;

  • 多步推理与工具调用可能增加响应延迟。

  • 工具调用与编排复杂度(Tool Complexity)

  • 工具数量增加后,Agent选择合适工具的难度增大;

  • 工具调用失败时,Agent可能缺乏有效的故障恢复机制。

  • 信息安全与隐私风险(Security & Privacy Risks)

  • Agent调用外部API、访问敏感数据时可能产生安全风险;

  • 如何有效保护数据隐私与安全至关重要。

  • 可解释性与可控性(Explainability & Controllability)

  • Agent决策的内在逻辑可能不够透明,难以解释或调试;

  • 如何确保Agent行为可控、可靠,成为重要的研究课题。

07

实例解析

序列图:用户、客户端UI(Client side UI)、Agent、模型(Model)和外部API之间的交互流程

交互流程详解:

整个流程从左侧用户发起请求开始,逐步向右侧推进,再返回给用户:

① 用户输入请求:
  • 用户提出问题或请求,例如:

    “…ski trip…”(想查询滑雪旅行相关信息)

② 客户端UI接收请求:
  • 用户请求通过客户端界面(UI)传递给Agent进行下一步处理。
③ Agent处理与模型交互:
  • Agent收到请求后,向模型发送包含了Prompt(提示指令)和Examples(示例)的信息:

    Agent sends Prompt + Examples to Model

  • 模型基于接收到的Prompt和Examples,生成一个结构化的JSON输出,用于后续调用工具:

    Model uses Prompt + Examples to generate JSON output

④ 模型返回JSON给Agent:
  • 模型生成的JSON返回给Agent。JSON内明确指出需调用的函数或API,例如:

  • {"function":"display_cities", ...}  
    
    
  • Agent将这个JSON结果返回给客户端UI,等待客户端执行API调用。

⑤ 客户端执行API调用:
  • 客户端(Client side)截获Agent返回的JSON指令,调用对应的外部工具API(Google Places API):

    Client Side intercepts JSON and makes API call to Google Places API

⑥ API执行与结果返回:
  • Google Places API收到调用请求后执行对应查询,返回所需的结果数据:

    Google Places API returns in expected format

  • 客户端UI接收到API返回的数据结果。

⑦ 客户端向用户展示最终响应:
  • 客户端UI将结果数据封装成易于理解的响应内容,返回给用户:

    “…here are some ski resorts w/images…”
    (这是一些滑雪度假村及相关图片信息)

08

总结

  • Agent定义与基本架构

  • Agent是一种自主应用程序,具备自主性、主动性、外部工具调用和内在推理决策能力;

  • 三大核心组件:模型(Model)、工具(Tools)和编排层(Orchestration Layer)。

  • Agent工具体系(Tools)

  • Extensions:Agent端直接调用外部API;

  • Functions:客户端执行API调用,Agent生成参数;

  • Data Stores:通过向量数据库实现实时数据检索与增强生成(RAG)。

  • 认知架构与推理框架(Reasoning Frameworks)

  • ReAct:通过Thought-Action-Observation循环实现实时工具调用;

  • Chain-of-Thought(CoT):通过显式推理步骤提升模型推理效果;

  • Tree-of-Thoughts(ToT):树状多路径推理结构,适合复杂规划任务。

  • 提升Agent性能的策略(Targeted Learning Methods)

  • 即时上下文学习(In-context Learning):快速简单的少量示例即时学习;

  • 检索增强即时学习(RAG):实时动态检索外部数据,扩展模型知识边界;

  • 微调学习(Fine-tuning):专属任务数据上的模型微调,提高长期稳定的性能表现。

  • 展望与局限性(Future Prospects & Limitations)

  • 未来趋势:多Agent协作、Agent链、多模态Agent、自主学习;

  • 当前挑战:成本效率、工具复杂度、安全隐私风险、可解释性与可控性。

LLM Agents | Prompt Engineering Guide

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

基于此,我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近70次后,终于把整个AI大模型的学习门槛,降到了最低!

在这个版本当中:

第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言

您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包,现在将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

在这里插入图片描述

五、AI产品经理大模型教程

在这里插入图片描述

LLM大模型学习路线

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。

  • 内容

    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。

  • 内容

    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.3 流水线工程
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。

  • 内容

    • L3.1 Agent模型框架
    • L3.2 MetaGPT
    • L3.3 ChatGLM
    • L3.4 LLAMA
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。

  • 内容

    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐