一文看懂:AI 圈刷屏的 Agentic Workflows 到底是个啥?这篇终于说明白了!
呼~ 咱们今天一起深入探索了这个有点硬核但又极其重要的概念。Agentic Workflows 是啥?它们是由一个或多个AI Agent动态驱动的、用于完成复杂任务的工作流。这些 Agent 结合了LLM 的推理能力、与现实世界交互的工具以及学习适应的记忆。能够规划使用工具执行、并反思迭代。这让它们区别于死板的传统工作流和简单的 Non-agentic AI 工作流。PlanningTool Us
前段时间不是新书《智能体设计指南》发布么,
再加上Agent、MCP、FC、ANP等等概念再次热了起来,
最近后台简直要被“Agent”这个词刷爆了!
“AI Agent”、“Agentic AI”、“Agentic Architectures”、“Agentic Workflows”...
各种新词儿层出不穷,搞得大家是不是有点晕头转向?
感觉就像突然闯进了一个全是行话的派对,听着高大上,但又不知道具体是啥玩意儿,心里有点小焦虑?
别慌!这太正常了。每次新技术浪潮来袭,总会伴随着一堆让人懵圈的术语、天花乱坠的期待,
还有各路“专家”的解读(有些靠谱,有些嘛...你懂的😉)。
近期,正好阅读到一篇博客内容《What Are Agentic Workflows? Patterns, Use Cases, Examples, and More》,里面说的比较清晰,是由weaviate的几位工程师一起写的,这里连翻译加自己的解读给到各位小伙伴。
原文地址:https://weaviate.io/blog/what-are-agentic-workflows 作者Mary Newhauser等
甲木带大家一起拨开迷雾,砍掉那些花里胡哨的噪音和过度吹捧,聚焦一个理解“AI Agent”宇宙的核心概念——Agentic Workflows。
原文题图
为啥要先聊这个?
因为啊,单个的 Agent,光杆司令一个,其实干不了太多惊天动地的大事。
它们需要被赋予角色 (roles)、设定目标 (goals),并且需要一个清晰的行动框架 (structure) 来指导它们一步步走向目标。
这个行动框架,很大程度上就是咱们今天要聊的 —— Workflows (工作流) 。
搞懂了 Agentic Workflows,你就等于拿到了理解 AI Agent 如何运作、为何能这么运作的“密钥”🔑。
所以,跟上甲木的脚步,咱们今天就来一次彻彻底底的大扫盲!我们会讲清楚:
-
AI Agent 到底是啥玩意儿?(拆解核心部件)
-
Agentic Workflows 的清晰定义?(告别模糊不清)
-
凭啥一个 Workflow 就叫 “Agentic” 了?(抓住本质特征)
-
Agentic Workflows 里反复出现的关键模式 (Patterns) 是啥?(掌握核心招式)
-
现实世界里有哪些酷炫的应用案例 (Use Cases & Examples)?(看看大神怎么玩)
-
最后,咱们也得实在点,聊聊用这玩意儿的好处和挑战。
准备好了吗?Let's go! 🚀
AI Agent 到底是何方神圣?
在我们深入 Agentic Workflows 之前,得先搞清楚它的主角——AI Agent。
简单来说,AI Agent 就像一个被赋予了“超能力”的智能助理。
它不仅仅是一个能聊天的 LLM (Large Language Model,大型语言模型),
更是一个系统 (systems)
这个系统把 LLM 的推理决策能力 (reasoning and decision-making) 和与现实世界互动的工具 结合了起来。
这样一来,它就能在很少需要人类干预的情况下,独立完成一些复杂的任务。
你可以给这些 Agent 分配特定的角色(比如“数据分析师”、“社交媒体运营”、“差旅规划师”),并给予它们不同程度的自主权 (autonomy) 去达成最终目标。
更牛的是,它们还配备了记忆,能从过去的经验中学习,不断提升自己的表现。
甲木举个栗子🌰
想象一下,你请了个全能管家(AI Agent)。
他的“大脑”是顶级的(LLM),能理解你的复杂指令,还能自己思考怎么做最好。
他不是空想家,手里有各种“工具”(Tools),比如能上网查信息、能用计算器、能帮你订票(调用API)、能翻阅你的笔记(访问数据库)。
他还特别“记事儿”(Memory),记得你上次说咖啡要少糖(短期记忆),也记得你一直以来的口味偏好(长期记忆),下次会做得更合你心意。
你给他设定了目标(Role & Goal),比如“帮我规划下周去北京的出差行程”,然后给他一定的权限(Autonomy),他就能自己查航班、订酒店、安排会议,中间可能还会问你几个关键问题确认一下。
是不是比只会聊天的机器人厉害多了?
更甚至,可以想想钢铁侠的Javis~
(想更深入了解 AI Agent 的历史、工具啥的,欢迎阅读《智能体设计指南》,哈哈哈哈,给自己打个广子)
要理解 AI Agent 如何在 Agentic Workflows 中发挥作用,咱们得把它拆开看看,了解它的核心“零件”。
AI Agent 的核心组件
虽然 AI Agent 被设计成能半自主地做决策,但它不是凭空运作的,需要一个更大的框架来支撑。
这个框架主要包含三个核心部分:LLM (提供推理能力)、工具 (Tools,提供行动能力) 和 记忆 (Memory,提供学习和适应能力) 。
AI Agent组成
甲木再唠叨几句:
这就好比一个超级员工(Agent)。
LLM (Reasoning) 是他的聪明才智和思考能力。
Tools 是他完成工作所需的各种软件、硬件、权限。
Memory 是他的工作经验和学习笔记。
三者结合,才能高效地完成任务。
1. 推理能力 (Reasoning)
AI Agent 之所以这么能打,很大一部分原因在于它的迭代推理 (iterative reasoning) 能力。
说白了,就是在整个解决问题的过程中,它能持续地“思考”。这种思考能力主要源自它底层的 LLM,并且体现在两个关键功能上:规划 (planning) 和 反思 (reflecting)
-
规划 (Planning): 在这个阶段,Agent 会进行任务分解,也就是把一个复杂的大问题,拆解成一个个更容易处理的小步骤。 这让 Agent 能系统地处理任务,并且可以针对不同的小步骤调用不同的工具。同时,它也能进行查询分解,把复杂的提问拆成简单的提问,这样向 LLM 提问时,得到的答案更准确、更可靠。
甲木举个栗子🌰 (Planning - Task Decomposition):
你让 Agent “写一份关于AI在教育领域应用的行业报告”。
它不会直接闷头就写。它会先规划一下:
看,一个大任务被拆成了清晰的小步骤,是不是就好办多了?
甲木再举个栗子🌰 (Planning - Query Decomposition):
你问 Agent:“对比分析一下目前主流的几个AI绘画工具在生成照片级真实感人像方面的优缺点,并推荐一个最适合新手设计师的。”
它可能会把这个问题拆成:
拆解之后,每个小问题的答案都更精准,最后汇总的结果自然更靠谱。
-
目前主流的AI绘画工具有哪些?(Web Search)
-
工具A在生成真实人像方面的表现如何?优点?缺点?(Web Search / Documentation Search)
-
工具B在生成真实人像方面的表现如何?优点?缺点?(Web Search / Documentation Search)
-
... (对其他工具重复步骤2)
-
哪个工具的操作界面和学习曲线对新手更友好?(Web Search / User Reviews Search)
-
综合以上信息,哪个最值得推荐给新手?(LLM Reasoning)
-
Step 1: 上网搜索“AI在教育领域的最新进展”。(需要用到 Tool: Web Search)
-
Step 2: 查找相关的学术论文和市场报告。(需要用到 Tool: Database/API)
-
Step 3: 分析收集到的信息,总结关键应用场景和趋势。(需要 LLM Reasoning)
-
Step 4: 撰写报告初稿。(需要 LLM Reasoning)
-
Step 5: 根据预设的格式要求,排版并生成报告。(可能需要 Tool: Code Interpreter 或 LLM Formatting)
-
-
反思 (Reflecting): Agent 还会通过反思自己行动的结果来进行推理。这让它能够评估每一步的效果,并根据外部数据源返回的结果,迭代地调整 自己的行动计划。
甲木打个比方 (Reflecting):
想象 Agent 是个厨师,正在学做一道新菜。
这种边做边看、边想边调整的能力,就是反思的力量。让 Agent 不会一条道走到黑。
-
Plan: 它看了菜谱(LLM Planning),知道要先放油,再放葱姜蒜,然后放主料...
-
Action (with Tool): 它打开火(Tool: Stove API),倒了油(Tool: Robot Arm)。
-
Observe & Reflect: 它通过传感器(Tool: Sensor)发现油温太高了,有点冒烟。(LLM Reflecting: "嗯,这火太大了,得调小点,不然菜要糊了。")
-
Adjust Plan: 它调整了计划,在下一步加入调小火力的动作。
-
2. 工具 (Tools)
LLM 本身拥有的知识是静态的、参数化(向量化)的。啥意思呢?就是它的知识都固化在训练时的数据里了,训练完之后就基本不会变了,像一本印好的百科全书。
为了让 Agent 的能力突破这本“旧书”的限制,能够接触到实时信息 (real-time information),与外部世界互动,就需要给它配备 外部工具。这些工具就像 Agent 的“手”和“脚”,让它能:
-
上网冲浪 (Web search engines) 搜索最新资讯。
-
访问特定的数据库 (Databases) 或知识库 (Vector search)。
-
调用其他软件的功能 (APIs),比如发邮件、订机票、控制智能家居。
-
运行代码、做计算 。
有了这些工具,Agent 就能获取实时的外部数据来指导决策,并且完成那些需要和别的应用程序打交道的任务。
甲木小课堂 - 常见工具和用途:
[图片]
当 LLM 决定要用哪个工具来完成任务时,它会执行一种叫做函数调用 (function calling 也就是FC...) 的行为。这让 LLM 不再仅仅是生成文本,而是能真正地和现实世界互动。
至于用哪个工具,可以由我们(使用用户)预先指定,也可以让Agent自己动态选择。
-
"动态选择工具" 对于解决复杂问题很有帮助,Agent 可以根据情况灵活应变。
-
但对于简单的流程, "预先指定工具" 可能更高效,避免不必要的复杂性。
甲木举个栗子🌰 (Tool Selection): (对于大多数场景,动态选择是首选)
任务: 在一个订单管理系统中,用户需要查询特定订单号(例如 "ORD12345")的状态。
预设工具: 直接告诉 Agent 用查询订单状态的内部 API 接口。简单高效。
任务: 帮我规划一个五天的北京旅游攻略,包含景点、交通和特色美食。
动态选择工具: Agent 可能需要自己决定:先用 Web Search 查景点和评价,再用 Map API 规划路线,接着用 Restaurant Review API 找美食,最后可能还需要 Calendar API 检查你的日程安排。这种复杂任务,让 Agent 自己判断用啥工具更灵活。
同时,工具通常会和权限 配对使用。比如,允许 Agent 查询某个 API,允许它发送消息,或者只允许它访问特定的文档或数据库模式。
这就像给你的管家一把钥匙,但明确告诉他哪些房间能进,哪些不能进,确保安全可控。
3. 记忆 (Memory)
Agentic Workflows 和纯粹由 LLM 驱动的流程(比如你直接问 ChatGPT 一个问题然后得到回答)相比,一个关键的区别就在于 Agent 能从过去的经验中学习,并且记住行动发生的上下文 (context)
记忆 (Memory) 就是实现这一点的关键组件。
它负责捕获和存储跨越多次用户互动和会话的上下文信息和反馈。
Agent 主要有两种记忆:
-
短期记忆 (Short-term memory): 存储比较临近的信息,比如当前的对话历史。这有助于 Agent 理解当前的语境,决定下一步该做什么来完成整体目标。
甲木打个比方 (Short-term Memory):
你和 Agent 对话: 你:“帮我找找附近评价好的意大利餐厅。” Agent:“找到了三家:A餐厅、B餐厅、C餐厅。A餐厅评分最高。” 你:“A餐厅有什么特色菜吗?”
Agent 能回答你的第二个问题,因为它记得(短期记忆)你们刚才正在讨论 A 餐厅。如果没这记忆,它可能就懵了:“哪个A餐厅?”
-
长期记忆 (Long-term memory): 存储长期积累下来的信息和知识,跨越多个会话。这使得 Agent 能够实现个性化,并且随着时间的推移提升性能。
甲木打个比方 (Long-term Memory):
你经常让 Agent 帮你预定会议室。几次之后,它记住(长期记忆)了你偏爱有投影仪和靠窗的会议室。下次你再说“帮我定个会议室”时,它可能会优先推荐符合你偏好的,甚至直接帮你选好,只需要你确认。这就是长期记忆带来的个性化和效率提升。🌟
好了,了解完 Agent 的三大核心组件(Reasoning, Tools, Memory),
我们就可以正式进入今天的主题——Agentic Workflows 了!
到底啥是 Agentic Workflows?
一般来说,工作流 (Workflow) 就是为了完成某个特定任务或目标而设计的一系列相互连接的步骤。
最简单的工作流是确定性的 (deterministic) ,这意味着它们严格按照预先定义的顺序执行步骤,无法适应新的信息或变化的情况。
举个栗子🌰 (Deterministic Workflow):
比如一个简单的自动化报销审批流程:
IF (费用类型 = '餐饮') AND (金额 < 30美元) THEN (自动批准)
这个流程非常死板,条件满足就执行,不满足就不执行,没有任何灵活性。
现在,有些工作流会利用 LLM 或其他机器学习模型/技术。
这些通常被称为 AI 工作流 (AI workflows) 。
它们可以是 Agentic (代理性的) ,也可以是 Non-agentic (非代理性的) 。
- 在一个 Non-agentic AI Workflow 中,通常是给 LLM 一个指令 (instruction),然后它生成一个输出 (output)。
举个栗子🌰 (Non-agentic AI Workflow):
比如一个“文本摘要”工作流:
这个流程用了 AI (LLM),但 LLM 只是被动地执行了一个单一任务,没有自主规划、使用工具或反思调整。所以它是 Non-agentic 的。
-
输入:一篇长文章。
-
操作:调用 LLM,给它指令“请将以下文章总结为 200 字”。
-
输出:LLM 生成的摘要。
-
重点来了!Agentic Workflow 是指由一个或多个 Agent 动态地执行一系列相互连接的步骤,以实现特定任务或目标。
与 Non-agentic 不同,Agentic Workflow 中的 Agent 被用户授予了权限,这给了它们有限度的自主权 去:
-
收集数据
-
执行任务
-
做出决策,这些决策会在现实世界中被执行
Agentic Workflows 充分利用了我们前面讲的 AI Agent 的核心组件:
-
推理能力 (Reasoning): 用于规划和反思。
-
使用工具与环境互动 (Tools): 获取信息,执行动作。
-
持久记忆 (Memory): 学习和适应。
正是这些能力,将传统的工作流彻底转变成了响应迅速、适应性强 且能自我进化 的过程。
三种模式的对比
甲木划重点✍️:
传统工作流: 按部就班,死规矩。像工厂流水线。
Non-agentic AI 工作流: 用 AI 完成某个特定步骤,但整体流程还是固定的。像流水线上某个工位换成了机器人,但整条线没变。
Agentic Workflow: 由 AI Agent 主导,能自己规划、调整、使用工具、学习。像一个经验丰富的项目经理,带着一堆工具和资源,灵活地推进项目,遇到问题还能自己想办法解决。
是什么让一个 Workflow 变得 "Agentic"?
一个 AI Workflow 啥时候才能算得上 "Agentic" 呢?关键在于是否有一个或多个 Agent 在引导和塑造任务的进展。
把 Agent 加入到一个现有的 Non-agentic 工作流中,就创造了一种 混合方法。这种方法结合了结构化工作流的可靠性和可预测性,以及LLM 的智能和适应性。
Agentic Workflows 的定义性特征在于它们能够:
-
制定计划 (Make a plan): 工作流的起点是规划。利用 LLM 进行任务分解,把复杂任务拆成小任务,然后确定最佳的执行路径。
-
使用工具执行动作 (Execute actions with tools): 使用一系列预定义的工具 和相应的权限来完成任务,执行生成的计划。
-
反思和迭代 (Reflect and iterate): Agent 能在每一步评估结果,如果需要就调整计划,然后循环 这个过程,直到结果令人满意为止。
总结一下核心区别:
传统 vs AI 工作流: 主要区别在于用预定义步骤还是用AI模型来完成任务。
Non-agentic AI vs Agentic AI 工作流: 主要区别在于用静态的AI模型还是用动态的AI Agent。Agentic Workflow 因为 Agent 的存在,变得更自适应 (adaptive) 和 动态 (dynamic)
“Agentic Architectures” VS “Agentic Workflows”:别搞混了!
随着任何新兴技术的发展,总会涌现出一堆新术语。有些人可能会把 “Agentic Architectures” 和 “Agentic Workflows” 混用,但实际上它们之间有个重要的区别。
-
Agentic Workflow (工作流): 指的是 Agent 为了达成某个特定目标而采取的一系列步骤。这些步骤可能包括:用 LLM 做计划、分解任务、用工具(如网页搜索)完成任务、用 LLM 反思结果并调整计划等等。它关注的是“怎么做”的过程。
甲木打个比方 (Workflow):
就像你做一道菜的菜谱,详细说明了先洗菜、再切菜、然后下锅炒、最后调味出锅的步骤和顺序。
-
Agentic Architecture (架构): 指的是为了实现某个特定任务而使用的技术框架和整体系统设计。Agentic Architectures 多种多样,富有创造性,但总是包含至少一个具备决策和推理能力的 Agent,供 Agent 使用的工具,以及用于短期和长期记忆的系统。它关注的是“用什么搭起来”的结构。
甲木打个比方 (Architecture):
就像你厨房的整体布局和配置。包括了灶台(处理单元/Agent)、各种锅碗瓢盆刀具(Tools)、冰箱(长期记忆)、操作台上的备菜区(短期记忆)等等。这个基础设施支撑着你按照菜谱(Workflow)做菜。
简单理解,Workflow 是“剧本”,Architecture 是“舞台和演员班底”。
Agentic Workflows 中的常见模式 (Patterns)
还记得吗?Agentic Workflow 是为完成特定任务(最终目标)而采取的一系列结构化步骤。所以,当我们讨论 Agentic Workflows 时,我们实际上是在讨论一些特定的 行为模式 (patterns of behavior) ,这些模式使得 Agent 能够达成它们的最终目标。
前面提到的 AI Agent 的核心组件(Reasoning, Tools, Memory)在这些模式中扮演着关键角色:
-
Agent 的推理能力 (Reasoning) 促进了 规划 (Planning) 和 反思 (Reflection) 这两种模式。
-
Agent 使用工具与环境互动 (Tools) 的能力是 工具使用 (Tool Use) 模式的基础。
下面我们来详细看看这三大核心模式:
之前吴恩达教授也在红杉资本的人工智能峰会上《Agentic Reasoning》提出了主流的4种设计模式,规划、反思、工具使用、多智能体协同~
1. 规划模式 (Planning Pattern)
规划 (Planning) 设计模式允许 Agent 自主地 (autonomously) 将复杂的任务分解成一系列更小、更简单的子任务,这个过程我们前面提过,叫任务分解。
为啥要分解?因为这样做能带来更好的结果:
-
减轻 LLM 的“认知负担”,让它处理更小的问题,想得更清楚。
-
提升推理能力。
-
减少“幻觉”和其他不准确性。
什么时候用规划模式最有效?
当达成最终目标的方法不明确,且解决问题的过程需要高度适应性 时,规划模式就特别给力。
举个例子🌰 (Planning Pattern in Action):
假设你让一个 AI Agent 去修复一个软件 bug。
触发规划模式: Agent 收到指令“修复编号 #123 的 bug”。目标明确,但具体怎么修复还不清楚。
任务分解: Agent 开始规划:
a. 读取 #123 的 bug 报告。(需要 Tool: Bug Tracking System API)
b. 找到相关的代码文件和函数。(需要 Tool: Code Repository Access)
c. 分析代码,生成可能导致 bug 的原因列表。(需要 LLM Reasoning)
d. 选择一种调试策略(比如,先尝试修改 X 函数)。(需要 LLM Reasoning)
执行与反思 (结合其他模式): Agent 尝试修改代码 (Tool Use),运行测试 (Tool Use),发现不行,报错了。它读取错误信息 (Tool Use),反思 (Reflection) 失败原因,调整计划 (Planning),比如:“看起来不是 X 函数的问题,试试修改 Y 函数吧。”
这个过程中,规划模式让 Agent 能够有条不紊地把“修复 bug”这个复杂任务拆解开,并能在后续步骤中根据情况调整计划。
需要注意的点:
虽然规划能让 Agent 更好地处理复杂任务,但它也可能导致结果比更确定性的工作流更难预测。所以,最好只在那些需要密集解决问题 (intense problem-solving) 和 多跳推理 (multi-hop reasoning) (就是需要思考好几步才能得到结论)的任务中使用规划模式。
甲木备注:大家在这里有没有想到什么?「推理模型」和「通用模型」之间分别在哪些场景下使用更符合预期呢?
规划模式
图片描述: 一个大方框代表复杂任务,箭头指向多个小方框代表分解后的子任务,子任务之间可能有依赖关系,并可能存在循环箭头表示计划调整。
2. 工具使用模式 (Tool Use Pattern)
生成式 LLM 的一个显著限制是它们依赖于预先存在的训练数据。
这意味着它们无法获取实时信息,也无法验证超出它们“已知”范围的事实。
因此,它们可能会生成不符合事实的回应,或者在不知道答案时进行“猜测”。
检索增强生成 (Retrieval Augmented Generation, RAG) 通过给 LLM 提供相关的、实时的外部数据,帮助缓解了这个问题,使得回应更准确、更有依据。
但是,工具使用 (Tool use) 模式比简单的 RAG 更进了一步。它允许 LLM 动态地与真实世界互动,而不仅仅是从中检索数据。
在 Agentic Workflows 中,工具使用模式通过允许 Agent 与以下资源互动,极大地扩展了它们的能力:
-
外部资源和应用程序 (External resources and applications)
-
实时数据 (Real-time data)
-
其他计算资源 (Computational resources)
常见的工具包括我们前面提到的 APIs、信息检索工具 (如向量搜索)、网页浏览器 (Web browsers)、机器学习模型 (Machine learning models) 和 代码解释器。这些工具被用来执行特定的任务,比如搜索网页、从外部数据库检索数据、或者收发邮件,以帮助 Agent 实现其目标。
当然,这里更进一步的是Claude提出的MCP协议,等之后有机会再给大家分享~
Tool模式
甲木场景剧场 (Tool Use Pattern):
你: “Agent 小助手,帮我预定今晚7点去上海的火车票,要二等座。”
Agent 的内心戏 (和行动):
理解指令: 用户要订火车票,时间、目的地、席位已指定。(LLM Reasoning)
选择工具: 需要查询和预定火车票,得用 “火车票预订 API”。(LLM Reasoning -> Tool Selection)
执行动作 (调用工具): 调用 “火车票预订 API”,传入参数:时间=今晚7点,目的地=上海,席位=二等座。(Tool Use: API Call)
获取结果: API 返回查询结果:“今晚7点 G123 次列车有二等座余票,价格 553 元。” (Tool Use: API Response)
确认/行动: (根据设定)可能向用户确认“是否预定?”,或者如果被赋予了直接预定权限,就再次调用 API 完成预定。(LLM Reasoning -> Tool Use: API Call)
在这个过程中,API 这个工具 是 Agent 完成任务的关键,它让 Agent 能够真正地操作外部系统。
3. 反思模式 (Reflection Pattern)
反思 (Reflection) 是一个强大且相对容易实现的 Agentic 设计模式,能显著提升 Agentic Workflows 的效果。
反思模式 是一种自我反馈机制 (self-feedback mechanism)。在这种机制下,Agent 会在最终确定回应或采取进一步行动之前,迭代地评估 其输出或决策的质量。然后,这些评判 会被用来改进 Agent 的方法、纠正错误,并提升 未来的回应或决策。
什么时候用反思模式最有用?
当 Agent 不太可能一次就成功 达成目标时,反思模式就特别有用。比如编写代码。
举个例子🌰 (Reflection Pattern in Coding):
任务: Agent, 帮我写一个 Python 函数,计算斐波那契数列的第 n 项。
生成代码 (Tool Use: LLM): Agent 生成了第一版代码。
执行与评估 (Tool Use: Code Interpreter): Agent 在沙盒环境 (sandbox) 或执行环境 (execution environment) 中运行这段代码,输入 n=5。发现报错了!或者结果不对(比如应该是 5,结果是 4)。
反思 (LLM Reflecting): Agent 读取错误信息或对比预期结果。“嗯,看起来我的递归基准情况写错了,或者循环条件有问题。”
改进 (LLM Refining): Agent 将这个“反思”结果(错误信息和自我评判)连同原代码一起,再次输入给 LLM,并指示它“根据这个错误信息修正代码”。
迭代 (Loop): 重复步骤 2-5,直到代码能够成功执行并得到正确结果。
反思模式的威力在于: Agent 能够批判自己的输出,并将这些见解动态地整合 回工作流中,从而在没有直接人类反馈 的情况下实现持续改进。
这些反思的结果可以被编码到 Agent 的记忆 中,使得在当前用户会话中解决问题更高效,并且通过适应用户偏好来实现个性化,改善未来的互动。
反思模式示意图
图片描述: 一个循环流程图。Agent 生成输出 -> 输出被评估器(可以是Agent自身或另一个Agent/工具)评估 -> 产生反馈/评判 -> 反馈给 Agent -> Agent 根据反馈改进输出 -> 再评估... 直到满足条件退出循环。
甲木小结三大模式:
Planning (规划): 运筹帷幄,把大事化小。解决“做什么,按什么顺序做”的问题。
Tool Use (工具使用): 脚踏实地,动手干活。解决“怎么获取信息,怎么执行动作”的问题。
Reflection (反思): 复盘总结,持续进步。解决“做得好不好,怎么做得更好”的问题。
一个强大的 Agentic Workflow 通常会将这三种模式巧妙地结合起来!(当然,关于多智能体协作这块暂且按下不表)🎯
Agentic Workflows 的应用场景
像 Planning 和 Tool Use 这样的原子设计模式 (atomic design patterns) 可以被创造性地组合起来,从而有效地利用 Agentic AI 来处理各种不同领域的任务。
除了组合设计模式,我们还可以:
-
给 AI Agent 提供不同的工具组合。
-
甚至赋予 Agent 动态选择所需工具 的能力。
-
将 Agent 与人类反馈循环 (human feedback loops) 相结合。
-
给予 Agent 不同级别的自主权和决策权。
这些多样化的配置使得 Agentic Workflows 可以被定制用于各行各业的广泛任务。下面,我们就来介绍两个特别强大的应用场景:Agentic RAG 和 Agentic Research Assistants。(weaviate的case)
1. Agentic RAG
我们前面提到过 RAG,它是一个通过从外部数据源检索相关数据来增强 LLM 知识的框架。
Agentic RAG 则更进一步,它将一个或多个 Agent 整合到了 RAG 的流程 (pipeline) 中。
Agent 在 Agentic RAG 中能干啥呢?
-
规划阶段:
-
通过查询分解 将复杂查询拆分成更小的子查询。
-
判断是否需要向用户询问更多信息 才能完成请求。
-
-
评估阶段 (Evaluation phase - leveraging Reflection):
-
重新组织查询。
-
重新进行查询分解。
-
甚至为响应查询创建一套全新的计划。
-
在将检索到的数据和生成的响应传递给用户之前,Agent 可以先评估它们的相关性 和 准确性。
-
如果响应不令人满意,Agent 可以:
-
Agentic RAG 工作流示意图
图片描述: 用户查询 -> Agent (Planning: Query Decomposition/Clarification?) -> [可能与用户交互] -> Agent (Tool Use: Vector Search/DB Query) -> 检索到的文档 -> Agent (Reasoning: Synthesize info & Generate draft response) -> Agent (Reflection: Evaluate relevance & accuracy?) -> [如果不好,则循环回到 Planning 或 Tool Use 阶段] -> 最终响应 -> 用户。
甲木畅想 (Agentic RAG):
想象一下,你问公司的智能知识库 (用了 Agentic RAG): “我们公司上个季度针对新入职员工的培训计划反馈怎么样?有哪些主要建议可以改进下一期的计划?”
Non-Agentic RAG: 可能只是搜到所有包含“新员工培训”、“反馈”、“建议”的文档,然后让 LLM 做个总结。结果可能比较零散,甚至包含不相关的信息。
Agentic RAG:
Agent (Planning): “嗯,这个问题需要查两部分:一是上季度的反馈数据,二是要提炼出可行的改进建议。” 它可能会先确认:“您是指哪个部门的上季度培训?” (Query Clarification)
Agent (Tool Use): 确认后,它分别去查 “HR 数据库” 里的反馈评分和评语,再去 “项目文档库” 找当时的计划详情。
Agent (Reasoning): 综合信息,生成初步的反馈总结和建议列表。
Agent (Reflection): “这些建议靠谱吗?有没有数据支撑?是不是太笼统了?” 它可能会回去重新分析数据,或者再搜索一下“有效的员工培训方法”来优化建议。
Final Response: 给出经过评估和提炼的、更有条理、更具可行性的反馈总结和改进建议。
是不是感觉 Agentic RAG 更像一个能干的助理,而不仅仅是个搜索引擎+总结器?
2. Agentic Research Assistants (代理研究助理)
也就是最近很火的“Deep Research”功能~
Agentic Research Assistants,有些 AI 公司也称之为 “深度研究” (Deep Research),它们能通过 彻底地搜索网络 和各种外部数据,生成关于复杂主题的深度报告 和 详细见解。
这些助理利用了 Agentic RAG 来响应用户查询,从网络和其他外部来源检索信息。但它们与传统 RAG 的关键区别在于,它们不仅是检索相关数据来增强 LLM 的输出,更能综合和分析信息。
这种独特的能力归功于几个特点:
-
专用 LLM: 通常使用专门为网页浏览、任务分解和动态规划而微调 (fine-tuned) 的 LLM。
-
主动寻求指导: Workflow 中的 Agent 会主动寻求用户指导,比如请求更多信息或澄清,以更好地理解最终目标。
-
计划适应性: 这些 Agent 能够根据检索到的信息调整计划、改变方向。这意味着它们可以在综合新信息时追寻新的、有趣的视角,并且可以连续查询多个数据源,直到获取到必要的数据。
因此,Agentic Research Assistants 能够获得更深入的见解,识别长期趋势,并就某个主题编写完整的报告,而不仅仅是检索现有知识。
甲木标注:
这简直就是请了个 7x24 小时不休息、博览群书、还能帮你深度思考和撰写报告的超级研究员啊!所以才有很多大模型厂商都在这个赛道开始疯狂地卷,对于需要做市场调研、竞品分析、学术研究的人来说,这简直是神器!
ps.当然,这里我们应该把"Deep Research"和"Deep Search"的概念区分清楚,也可以通过上述的三个特点加以区分~
截至原文撰写时(2025年3月),OpenAI, Perplexity, 和 Google 都已经推出了各自版本的 Deep Research 功能,大家可以去关注一下。
OpenAI Pro会员让人心甘情愿掏$200的主要原因就是"Deep Research"功能,我们国内的大家可以关注一下「智谱沉思」,免费不限量~
3. Agentic Coding Assistants (代理编程助理)
Agentic Coding Assistants 可以在很少需要人类干预的情况下生成、重构、改进和调试代码。
Non-agentic 的编程助理,比如 GitHub Copilot 的早期版本,它们是由专门生成代码的生成式 LLM 驱动的,但它们的功能也就仅限于此——生成代码。
是什么让编程助理变得 "Agentic" 呢? 关键在于它能够:
-
与环境互动: 比如执行生成的代码。
-
根据执行结果、错误或反馈进行迭代改进 (运用了 Reflection 模式)。
更进一步,这些助理还可以被赋予权限:
-
对现有代码库进行更改: 比如创建 commits 和 PRs (Pull Requests) ,就像 Anthropic 的 Claude Code 那样,这是向自动化软件开发迈出的重要一步。
-
建议终端命令 和其他代码更改,并在执行前等待明确的人类批准,比如 Cursor 的 Agent,这样人类就能完全掌控 Agent 的行为。
-
从错误中学习: 将错误和成功的经验编码到长期记忆 中,让它们随着时间的推移变得越来越聪明。
甲木注解:
关于「AI编程会取代“程序员”吗?」的话题一直都居高不下,在我看来,程序员不是被取代了,而是人人都是程序员,AI赋予了每一个普通人编程的能力,解决场景小问题。
未来的程序员可能更多地扮演“架构师”和“指挥官”的角色,把具体的编码、调试、甚至部分测试工作交给 Agentic Coding Assistants 来完成。
人的价值将更多地体现在创造性、系统设计和最终决策上。想想就有点小激动呢!
Agentic Workflow 实战案例
现在我们已经了解了 Agentic Workflows 的一些用例,接下来让我们更详细地看看两个真实世界 Agent 的工作流步骤:Claygent 和 ServiceNow AI Agents。
每个工作流都使用了独特的模式和工具组合,赋予了 Agent 不同程度的自主权和决策能力,并依赖不同程度的人类反馈和参与。
案例 1: Claygent (来自 Clay 公司)
对于增长和销售团队来说,进行潜在客户研究 和数据补充 可能是一项繁琐的任务。
数据补充和外联自动化公司 Clay 通过 Claygent——一个 AI 驱动的研究 Agent——简化了这个过程。Claygent 能持续扫描网络和内部数据库,提供实时的、可操作的见解。
场景: 假设你想用 Claygent 来基于一份姓名和邮箱地址列表,补充这些人的 LinkedIn 个人资料信息,然后发送个性化的介绍信息。
工作流大致如下:
-
指定目标: 你先指定你想要查找的数据字段(例如,工作经历、教育背景、技能)。这些字段会被注入到一个预先配置好的提示词模板 中。
-
处理查询 & 规划: Agent 的 LLM 处理这个请求,并规划执行步骤。
-
执行 (Tool Use):
-
Agent 使用网页抓取工具 在网上搜索对应的 LinkedIn URL。
-
找到后,从 LinkedIn 个人资料中提取 你想要的数据字段。
-
-
数据处理: 提取出的数据可以被发送给另一个 LLM (或者同一个 LLM 的不同实例/指令)。你可以指示这个 LLM 对补充后的数据进行总结 或 按你希望的方式进行分析。
-
内容生成: 同一个 LLM (或另一个) 可以接着被用来为每个补充好的个人资料创建个性化的外联消息。
点评: Claygent 是一个相对灵活的 Agentic Workflow 案例。它可以通过创造性的方式进行定制,但同时也通过为特定任务预设提示词模板来为 Agent 提供指导。它在自动化信息收集和初步内容生成方面展示了 Agent 的威力。
示意图
案例 2: ServiceNow AI Agents
ServiceNow 是一个云平台,用于简化和自动化 IT、运营、人力资源和客户服务领域的工作流。他们的 ServiceNow 平台现在包含了 AI Agents,旨在自动化重复性任务 和 处理预先存在的工作流,同时仍然让人类完全掌控决策权。
场景: 看看 Agentic Workflow 如何帮助解决一个技术支持案例。
工作流大致如下:
-
触发 (Trigger): 当客户提交一个技术支持工单时,工作流被触发。
-
信息传递 & RAG: 工单信息被传递给一个或多个 Agent。
-
Agent 执行:
-
Agent 对内部的 IT 支持知识库执行 RAG (检索增强生成)。
-
Agent 总结 检索到的发现。
-
Agent 分析 类似的历史案例。
-
Agent 为 IT 支持专员生成一份摘要。
-
-
生成建议 & 人类决策:
-
最后,Agent 生成一个处理建议。
-
IT 支持专员可以批准 或 拒绝 这个建议。
-
点评: ServiceNow AI Agents 代表了一种在生产环境中部署 Agent 的**创新但更谨慎 ** 的方法。它们给 Agent 分配了 严格的角色和任务 ,并且在影响最终用户或客户的决策上,只给予有限的(甚至没有)自主权。这种方式在需要高可靠性和人类监督的场景下可能更为适用。
Agentic Workflows 的好处与局限
AI Agent 已经迅速地从机器学习圈子走向了主流视野。面对所有关于 Agentic AI 的兴奋、期待和期望,我们很难分清哪些是炒作,哪些是现实,很难理解它真正的能力和局限。
在这一部分,将带大家用一个平衡的视角 (balanced view) 来看待 Agentic Workflows 的好处 (benefits)、挑战 (challenges) 和 局限 (limitations) 。
Agentic Workflows 的好处 (Benefits)
Agentic Workflows 通过让 AI Agent 能够规划、适应和随时间改进,超越了传统的自动化。与遵循固定规则的确定性工作流不同,Agentic Workflows 可以:
-
动态响应复杂性。
-
通过反馈改进方法。
-
扩展以处理更高级的任务。
这种适应性 使得它们在那些灵活性、学习能力 和决策能力 至关重要的场景中特别有价值。
让我们仔细看看 Agentic Workflows 的主要好处:
-
灵活性、适应性和可定制性:
-
静态的、确定性的工作流难以适应不断变化的情况和意想不到的困难。
-
Agentic Workflows 则提供了根据任务难度进行调整和演进 的灵活性,确保它们始终保持相关性并提供最佳解决方案。
-
它们还可以通过组合不同的模式进行定制,实现模块化设计,随着需求和复杂性的增长进行迭代升级。
-
-
在复杂任务上表现更佳:
-
通过将复杂任务分解为更小的、可管理的步骤(通过任务分解和规划),Agentic Workflows 的表现显著优于 确定性的、零样本 (zero-shot) 的方法。
-
-
自我纠正和持续学习:
-
反思模式 允许 Agentic Workflow 评估自身行为、改进策略并随时间推移改善结果。
-
利用短期和长期记忆,它们从过去的经验中学习,在每次迭代中变得更有效、更个性化。
-
-
运营效率和可扩展性:
-
在特定场景下,Agentic Workflows 可以高精度地自动化重复性任务(如果构建得当),减少人工投入和运营成本。
-
它们也很容易扩展,使其成为处理更大工作负载或复杂系统的理想选择。
-
甲木注解:
想象一下,未来的很多重复性、流程化的工作都可以交给高效可靠的 Agentic Workflows 处理,人类可以解放出来,专注于更有创造性、战略性和人情味的工作。这难道不香吗?
请记住,AI Agent 仍然是一项新兴技术 (emerging technology) ,随着研究人员和用户发现将 Agent 融入工作流的新颖方式,这份好处清单很可能会继续扩展。
Agentic Workflows 的挑战与局限 (Challenges and Limitations)
尽管有诸多好处和创新特性,AI Agent 也伴随着一系列挑战和局限。
由于其概率性本质,AI Agent 天生就会给工作流增加复杂性。而且,仅仅因为 Agent 可以用来自动化流程,并不意味着就应该使用它们。
以下是一些最值得注意的挑战和局限:
-
对于简单任务可能过于复杂:
甲木直白说: 杀鸡焉用牛刀?如果一个简单的 Excel 公式或者 Zapier/IFTTT 规则就能搞定的事,非要上 Agent,可能就是自找麻烦了。一定不要为了 AI 而 AI !😅
-
当用于像表单录入或基本数据提取这样直接了当的工作流时,AI Agent 可能会增加开销。
-
在确定性的、基于规则的自动化已经足够的情况下,引入 Agent 可能导致效率低下、额外成本,甚至可能性能下降。
-
-
自主权增加导致可靠性降低:
甲木提醒: 放权需谨慎!给 Agent 的“自由度”越大,它“跑偏”的可能性也越大。必须有缰绳(护栏)和监督(审查)。
-
随着 Agent 在工作流中获得更多决策权,它们的概率性 可能会引入不可预测性,使得输出不那么可靠 且更难控制。
-
为 Agent 实施并积极维护护栏,并持续审查其被授予的权限 至关重要。
-
-
伦理和实践考量:
甲木提醒: 比如医疗诊断、法律判决、金融投资决策等领域,让 AI Agent 完全自主决策?目前来看,风险太高,责任也无法承担。人的判断和最终把关是必不可少的。
-
并非所有决策都应委托给 AI 系统。
-
在高风险 或 敏感领域 使用 Agent 需要仔细的监督,以确保负责任的部署 并防止意外后果。
-
在决定是否使用 Agent 前,问自己几个问题:
考虑到这些局限性,我们建议大家在考虑是否在某个工作流中使用 Agent 时,花点时间反思一下,问自己这几个问题:
-
这个任务是否足够复杂,需要自适应的决策能力?还是一个确定性的方法就够了?
-
一个更简单的 AI 辅助工具(比如没有 Agent 的 RAG)能否达到同样的效果?
-
这个工作流是否涉及不确定性、变化的条件或多步推理,而 Agent 能更有效地处理这些?
-
赋予 Agent 自主权会带来哪些风险?这些风险是否可以被有效缓解?
想清楚这些问题,能帮你更明智地决定是否以及如何在你的场景中引入 Agentic Workflows。
总结 (Summary)
呼~ 咱们今天一起深入探索了 Agentic Workflows 这个有点硬核但又极其重要的概念。信息量有点大,让甲木带大家快速回顾一下重点:
-
Agentic Workflows 是啥? 它们是由一个或多个 AI Agent 动态驱动的、用于完成复杂任务的工作流。这些 Agent 结合了 LLM 的推理能力、与现实世界交互的 工具 以及学习适应的 记忆。
-
Agentic 的核心特征: 能够规划、使用工具执行、并反思迭代。这让它们区别于死板的传统工作流和简单的 Non-agentic AI 工作流。
-
三大核心模式: Planning、Tool Use、Reflection,这些模式是构建 Agentic Workflows 的基石。
-
强大应用场景: 我们看到了 Agentic RAG (更智能的信息检索与生成)、Agentic Research Assistants (深度研究与报告撰写)、Agentic Coding Assistants (自动化编程辅助) 等激动人心的应用。
-
实战案例: Claygent (灵活的销售线索补充与外联) 和 ServiceNow AI Agents (谨慎的 IT 支持流程自动化) 展示了不同的落地策略。
-
理性看待: Agentic Workflows 带来了灵活性、高效处理复杂任务、持续学习等巨大好处,但也面临复杂性增加、可靠性挑战、伦理考量等局限。是否使用,需要权衡利弊,因地制宜。
结语
理解 Agentic Workflows,就像是拿到了未来自动化和智能化协作的“说明书”。
它不再是简单的命令与执行,而是赋予了 AI “思考、行动、学习”的能力框架。
这背后,其实是 AI 技术不断进化,从“单纯的工具”向“有能力的协作者”转变的一个缩影。
但无论技术如何发展,甲木始终坚信一点:人,要比 AI 凶!
Agent 和 Workflow 终究是为人服务的。
我们的洞察力、创造力、价值观判断以及定义目标、掌控方向的能力,是 AI 无法替代的。
Agentic Workflows 的设计和应用,最终目的应该是增强人的能力,解放人的生产力,而不是取代人的价值。
别焦虑,去尝试!
我知道,面对这些新概念,大家可能会觉得有点压力。但最好的学习方式永远是“干中学” 和 “玩中学”。
-
去试试那些已经应用了 Agentic 功能的产品 (比如前面提到的 Perplexity AI 的深度搜索,或者一些 Agentic Coding 工具)。
-
关注一些开源的 Agent 框架 (如 LangChain, AutoGen 等),尝试跑跑 Demo,看看它们是怎么运作的。
-
更重要的是,开始思考:在你的学习、工作、生活中,有哪些复杂的、重复的、可以通过“规划-执行-反思”模式来优化的流程?Agentic Workflows 能帮上什么忙?
技术的大门已经敞开,关键在于我们是否愿意迈出探索和实践的那一步。
让 AI 成为你的神兵利器,而不是焦虑的源头!
一、大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)