AI Agent工作流程简介

过去两年，大模型（LLM）快速发展，很多人已经习惯了使用ChatGPT、Claude、Gemini或者DeepSeek等大模型。这些模型很好用，但是它们一般只会聊天，并不能真正帮我们做事。于是，AI 行业开始从“LLM（大模型）”进入下一个阶段，即AI Agent（智能体）。

weixin_40264313

328人浏览 · 2026-05-18 09:47:09

weixin_40264313 · 2026-05-18 09:47:09 发布

1. AI agent是什么

AI Agent 是一个以大模型为“大脑”，具备感知、推理、规划和执行能力的智能化系统。用一句话总结即为：AI Agent = 大模型 + 记忆 + 工具调用 + 自主决策 + 工作流。

AI Agent 的核心组成

一个完整的 Agent 通常遵循 “大脑+五官+四肢” 的架构：

控制中心（Brain）： Agent的大脑主要是 LLM。常用的大模型包含：GPT-5、Claude或者Gemini等。主要负责理解客户目标、推理、规划和决策。
记忆（Memory）：Agent必须由记忆。记忆包含短期记忆和长期记忆。短期记忆也就是上下文对话（Context）。长期记忆是通过 RAG（检索增强生成）技术，从外部数据库调取历史信息。
工具使用（Tool Use）：这是 Agent 与世界交互的核心。Agent可以调用浏览器搜索网页，可以利用python进行数据分析，可以调用外部 API调用外部服务等，这些都是用工具调用实现的。
任务规划（Planning）： Agent 会将用户提出的复杂任务拆解成子任务，并从错误中反思，调整下一步策略。
执行器（Executor）: Executor 负责真正执行动作，例如打开网页、执行python或者生成文件等。

2. 一个典型 AI Agent 的工作流程

Agent 的工作过程通常不是线性的，而是一个循环往复的感知-决策-行动过程：

1、任务感知 (Perception)：用户输入一个模糊目标，例如“帮我调研市场上所有 3000 元以下的洗地机并出一份对比表格”。

2、任务拆解 (Planning)： Agent 意识到这包含多个步骤：搜索产品列表 -> 进入详情页提取参数 -> 综合对比 -> 格式化输出。

3、工具调用 (Action)：

调用搜索工具获取产品链接。
调用网页解析工具读取具体配置。

4、自我反思 (Criticism/Reflection)：检查数据是否完整，如果某个产品缺价格，会重新执行搜索。

5、最终交付 (Response)：整理好所有信息，交付给用户。

3. 常见的 Agent 类型

开发领域（Agent应用最成熟的领域）

典型代表有：OpenAI的Codex, Anthropic 的 Claude Code，GitHub的Copilot

说明：Coding Agent已经能独立完成从写代码到调试的闭环。这类Agent可以写代码、调试代码、修复 Bug、代码 Review和自动测试等。

日常办公领域

具体示例：Microsoft 365 Copilot（相当于一个全能的办公助理），他可以自动生成PPT或者发送邮件等；Perplexity AI（相当于一个高级研究助理），它可以自动规划搜索词，阅读和提取关键信息，给出结论性的对比表格；Notion AI（相当于一个文档协作员），它能直接在你的页面、文档、任务和数据库中工作，让你无需切换工具即可更快完成任务。

说明：相关的Agent可以自己处理文档或表格等数据，或者自动搜索相关的网页信息进行处理，给出我们需要的信息。