过去两年,大模型(LLM)快速发展,很多人已经习惯了使用ChatGPT、Claude、Gemini或者DeepSeek等大模型。这些模型很好用,但是它们一般只会聊天,并不能真正帮我们做事。于是,AI 行业开始从“LLM(大模型)”进入下一个阶段,即AI Agent(智能体)。

1. AI agent是什么

AI Agent 是一个以大模型为“大脑”,具备感知、推理、规划和执行能力的智能化系统。用一句话总结即为:AI Agent = 大模型 + 记忆 + 工具调用 + 自主决策 + 工作流。

AI Agent 的核心组成

一个完整的 Agent 通常遵循 “大脑+五官+四肢” 的架构:

  • 控制中心(Brain): Agent的大脑主要是 LLM。常用的大模型包含:GPT-5、Claude或者Gemini等。主要负责理解客户目标、推理、规划和决策。

  • 记忆(Memory):Agent必须由记忆。记忆包含短期记忆和长期记忆。短期记忆也就是上下文对话(Context)。长期记忆是通过 RAG(检索增强生成)技术,从外部数据库调取历史信息。

  • 工具使用(Tool Use): 这是 Agent 与世界交互的核心。Agent可以调用浏览器搜索网页,可以利用python进行数据分析,可以调用外部 API调用外部服务等,这些都是用工具调用实现的。

  • 任务规划(Planning): Agent 会将用户提出的复杂任务拆解成子任务,并从错误中反思,调整下一步策略。

  • 执行器(Executor): Executor 负责真正执行动作,例如打开网页、执行python或者生成文件等。

2. 一个典型 AI Agent 的工作流程

Agent 的工作过程通常不是线性的,而是一个循环往复的感知-决策-行动过程:

1、任务感知 (Perception): 用户输入一个模糊目标,例如“帮我调研市场上所有 3000 元以下的洗地机并出一份对比表格”。

2、任务拆解 (Planning): Agent 意识到这包含多个步骤:搜索产品列表 -> 进入详情页提取参数 -> 综合对比 -> 格式化输出。

3、工具调用 (Action):

  • 调用搜索工具获取产品链接。

  • 调用网页解析工具读取具体配置。

4、自我反思 (Criticism/Reflection): 检查数据是否完整,如果某个产品缺价格,会重新执行搜索。

5、最终交付 (Response): 整理好所有信息,交付给用户。

3. 常见的 Agent 类型

开发领域(Agent应用最成熟的领域)

典型代表有:OpenAI的Codex, Anthropic 的 Claude Code,GitHub的Copilot

说明:Coding Agent已经能独立完成从写代码到调试的闭环。这类Agent可以写代码、调试代码、修复 Bug、代码 Review和自动测试等。

日常办公领域

具体示例:Microsoft 365 Copilot(相当于一个全能的办公助理),他可以自动生成PPT或者发送邮件等;Perplexity AI(相当于一个高级研究助理),它可以自动规划搜索词,阅读和提取关键信息,给出结论性的对比表格;Notion AI(相当于一个文档协作员),它能直接在你的页面、文档、任务和数据库中工作,让你无需切换工具即可更快完成任务 。

说明:相关的Agent可以自己处理文档或表格等数据,或者自动搜索相关的网页信息进行处理,给出我们需要的信息。

自媒体运行类

典型代表有:Coze (扣子) / Dify 上自建的运营Agent

说明:可以在Coze上自己搭建相应功能的Agent,配置爆款文案的Prompt、配图插件、热点搜索插件等,agent甚至可以自动发布。

4. 当前 AI Agent 最大的问题

虽然agent很火,但存在很多问题:

  • 模型可能存在幻觉,会胡编乱造。
  • 长任务不稳定,执行多步之后,容易跑偏。
  • Tool调用失败有时也会发生。
  • 成本高。频繁调用llm时成本会很高。

5. AI Agent 的趋势

目前行业趋势非常明显:

  • 从 Chat 转向 Action: AI 不再只是聊天,而是真正执行任务。
  • 多 Agent 协同: 未来不是一个超级agent,而是多个专业 Agent 协同。
  • 未来系统会结合:Workflow + Agent + RAG + Automation
Logo

AtomGit AI 社区提供模型库、数据集、Agent、Token等资源

更多推荐