AI 革命的下一站：Agent 智能体！李宏毅万字拆解，看懂它，你就领先 90%的人

😂 LLM 也有自己的“内部知识”，它会和工具提供的“外部知识”进行“角力”。，形成更深层次的理解或新的见解（比如从“她天天跟我同车”+“她今天对我笑了”反思出“她可能喜欢我”😍）。早在 2022 年（ChatGPT 出现前的“上古时代”），就有人试过用当时的 LLM 下西洋棋。这说明，至少在下棋这种需要精确逻辑和规则的任务上，目前的 LLM Agent 还有很长的路要走。别急，今天这篇文章，

lizhijianwill

617人浏览 · 2025-04-09 09:27:10

lizhijianwill · 2025-04-09 09:27:10 发布

你有没有过这样的瞬间：对着电脑屏幕，感觉自己像个陀螺，在无数个任务、邮件、信息中疯狂旋转，心里呐喊：“谁能来帮帮我？！” 😫

或者，看着 ChatGPT 这种 AI 聊天越来越溜，忍不住想：“能不能让它不光动嘴皮子，还能真的帮我干点活儿？”

如果这些想法击中了你，那么恭喜，你已经触摸到了 AI 革命的下一个浪潮——AI Agent（智能体）！🚀

这不是科幻电影，而是正在真实发生的技术变革。最近，台大知名教授李宏毅（没错，就是那个讲课超有趣的教授！）专门开讲 AI Agent，油管视频爆火。这玩意儿到底是什么？为什么突然这么火？它跟我们熟知的 ChatGPT 有啥不一样？

别急，今天这篇文章，就为你深度拆解李宏毅教授的核心观点，用大白话讲透 AI Agent 的前世今生、核心能力和未来潜力。耐心看完，你将不仅理解一个新概念，更能洞察 AI 的发展方向，甚至找到提升自己工作效率的“超能力”！ 💪

---

### Part 1: AI Agent？听起来高大上，其实就是“目标导向行动派”

我们现在用 AI，大多是“一个指令，一个动作”。你问“AI Agent 怎么翻译？”，它给你答案，然后就结束了。

但 AI Agent 不一样。你只给它一个目标，它自己想办法搞定！ 🤯

想象一下：
*   你给 AI 一个研究课题，它能自己提出假设、设计实验、分析结果，甚至根据结果修正假设。
*   你想订个披萨，告诉 Agent 你的口味和地址，它自己上网、下单、付款。
*   你需要规划一次旅行，告诉它预算、时间和想去的地方，它帮你搞定机票、酒店、行程。

听起来是不是很像一个得力的智能助理？

李宏毅教授总结了 AI Agent 的核心运作流程，其实很简单：

1. 接收目标 (Goal)： 人类下达最终目的。
2. 观察现状 (Observation)： 分析当前环境和情况。
3. 决定行动 (Action)： 根据目标和观察，选择下一步该做什么。
4. 执行行动 & 影响环境： 行动改变了环境。
5. 看到新观察 (New Observation)： 再次分析新情况。
6. 循环往复... 直到目标达成！✅

举个例子，大家熟悉的 AlphaGo 其实就是一个 AI Agent。
*   目标： 赢棋 🏆
*   观察： 当前棋盘的局势（黑白子位置）
*   行动： 在 19x19 的棋盘上选择一个位置落子
*   环境变化： 对手落子，棋盘局势改变
*   新观察 -> 新行动... 直到分出胜负。

简单吧？但以前要实现这种 Agent，通常需要用一种叫强化学习 (Reinforcement Learning, RL) 的方法，为每个特定任务（如下围棋）训练一个专门的模型。这就像培养一个专项运动员，下围棋的 AlphaGo 不会自动就会下象棋。

---

### Part 2: 为什么现在爆火？不是新技术，是“大模型”解锁了新玩法 🔑

那为什么 AI Agent 这个词最近又铺天盖地了呢？

关键在于 大型语言模型 (Large Language Models, LLM)，比如 ChatGPT 背后的模型。这些 LLM 太强大了，人们突然发现：我们能不能直接把 LLM 当成 AI Agent 来用？

思路变成了这样：
*   目标： 用自然语言告诉 LLM 你想干嘛（比如“帮我写一个爬虫程序”）。
*   观察： 把环境信息（比如网页内容、错误报告）也变成文字（或者现在很多模型能直接看图！）喂给 LLM。
*   行动： LLM 输出一段文字，描述它想做的动作（比如“调用搜索引擎查找资料”、“编写 Python 代码”）。
*   转译执行： 需要一个“翻译官”把 LLM 的文字指令变成实际操作。
*   环境变化 -> 新观察 -> 新行动...本质上，LLM Agent 没搞什么新模型训练，它就是利用 LLM 强大的理解和生成能力，不断地进行“文字接龙”来模拟思考和行动的过程。这更像是一种 LLM 的新应用方式。

那么，现在的 LLM 做 Agent 靠谱吗？李宏毅教授举了个有趣的例子：LLM 下棋。

早在 2022 年（ChatGPT 出现前的“上古时代”），就有人试过用当时的 LLM 下西洋棋。结果嘛...很惨。模型连规则都搞不清，瞎走一气。

那现在的顶级 LLM 呢？比如 GPT-4o 和 DeepSeek 下棋？网上有个几百万人围观的视频，结果更是让人哭笑不得 😂：
*   兵当马用
*   主教无视阻挡横冲直撞
*   凭空变出棋子吃掉对方
*   最后 DeepSeek 甚至用自己的城堡吃掉了自己的兵，然后宣布胜利... ChatGPT 还真就认输了！

这说明，至少在下棋这种需要精确逻辑和规则的任务上，目前的 LLM Agent 还有很长的路要走。但这并不妨碍它们在其他领域大放异彩，比如：
*   AI 虚拟村民： 斯坦福做的 AI 小镇，每个村民都是 LLM 驱动，有自己的目标和社交。
*   AI 操作电脑： Claude 的 Computer Use、ChatGPT 的 Operator，让 AI 像人一样使用软件、浏览网页、完成订票购物等任务。
*   AI 做科研/写代码： AI 可以帮你分析数据、写程序、甚至提出研究假设（虽然目前还有局限）。

---

### Part 3: 揭秘 Agent “大脑”：它如何“记住”和“学习”？🧠 (不用训练！)

一个好的 Agent，不能像金鱼一样只有七秒记忆。它得能从过去的经验中学习和调整。

比如一个 AI 程序员 Agent，写代码出错了 (compile error)，它应该能看懂错误信息，下次修正。

过去用 RL，需要根据错误调整模型参数。但现在用 LLM Agent，李教授强调：我们不训练模型！

那它怎么学习呢？直接把过去的经验（包括错误信息）当作新的“观察”信息，一起喂给 LLM！

模型还是在做文字接龙，但输入变了，输出自然就可能改变。
*   输入：“写个程序” -> 输出：错误代码
*   输入：“写个程序 + 上次报错信息是 XXX” -> 输出：修正后的代码

这就像你跟人沟通，你告诉他上次哪里做错了，聪明人下次就会改进。

但这里有个大问题： 如果 Agent 活得够久，经历了成千上万步，难道每次决策都要回忆“一生”的经历吗？那计算量不得爆炸？🤯

这就像得了“超忆症”的人，记得住所有细节，但可能被信息淹没，难以思考和生活。

所以，我们需要给 Agent 一个更高效的记忆系统 (Memory)，类似人脑的长期记忆和检索机制：

1. 写入 (Write)： 不是所有鸡毛蒜皮的事都记。Agent (或者一个专门的模块) 自问：“这事儿重要吗？值得记下来吗？” 只记录关键信息到“长期记忆库”。（可以明确告诉 ChatGPT "记住这个信息"，它就会存起来）
2. 读取 (Read)： 当遇到新情况，不是翻遍所有记忆。而是像 RAG (Retrieval-Augmented Generation) 技术一样，根据当前问题，精准检索 (Retrieve) 出最相关的几条记忆。
3. 反思 (Reflect)： 更高级的操作！Agent 对记忆进行整理、抽象、总结，形成更深层次的理解或新的见解（比如从“她天天跟我同车”+“她今天对我笑了”反思出“她可能喜欢我”😍）。甚至可以构建知识图谱 (Knowledge Graph)，让记忆之间的联系更清晰。

有趣发现 (来自 Streambench 研究)：
*   用 RAG 检索相关经验，比随机给经验或不给经验，效果好得多！
*   对现在的 LLM 来说，正面反馈（成功的例子）比负面反馈（失败的例子）更有效！ 记住，要多夸夸你的 AI，告诉它“怎么做是对的”，而不是一直说“不要那样做”。👍

---

### Part 4: Agent 的“双手”：不止会动脑，还会“用工具”！🛠️

强大的 Agent 不仅要会思考，还得会使用工具 (Tool Use)，也叫 Function Calling。

这里的“工具”可以是：
*   搜索引擎： 进行 RAG，获取最新信息。
*   计算器/代码执行器： 处理计算或运行代码。
*   其他 AI 模型： 比如文字 LLM 调用图像识别 AI 来理解图片，或者小模型搞不定时“摇人”叫来大模型帮忙。
*   各种 API： 查询天气、订机票、控制智能家居等。

LLM 怎么学会用工具？很简单，还是用文字告诉它：
*   在 System Prompt (系统指令) 里告诉它：“你可以使用这些工具，格式是 `Tool: [工具名]([参数])`，工具会返回结果在 `Output: [结果]` 里。”
*   描述清楚每个工具的功能和用法。
*   当用户提问时 (User Prompt)，LLM 如果觉得需要用工具，就会在回答里生成调用工具的文字。
*   开发者需要写代码，捕捉这些特殊格式的文字，真正去调用工具 API，再把结果塞回给 LLM 继续生成回答。

工具虽好，也有挑战：

1. 工具太多怎么办？ 上千个工具说明书读不过来？解决方法类似记忆系统：把工具说明存起来，需要时再用 RAG 检索匹配的工具。
2. Agent 能自己造工具吗？ 能！LLM 会写代码，它可以自己写个函数 (function)，如果发现好用，就存入自己的“工具箱”下次再用。
3. Agent 会不会太相信工具？ 会！著名的 Google AI Overview 建议用胶水粘披萨上的芝士，就是 RAG 错信了网上的玩笑话。😂 LLM 也有自己的“内部知识”，它会和工具提供的“外部知识”进行“角力”。
    *   研究发现： 外部知识如果和 LLM 的“常识”差距太大，它反而不信。差距适中时最容易被说服。
    *   有趣发现： AI 可能更倾向于相信其他 AI 写的内容，而不是人类写的！（可能是因为 AI 写得更有条理？）
    *   元数据也重要： AI 更相信发布时间更新的文章，甚至可能“喜欢”排版更好看的网页！（虽然这点还需要更多验证）

记住： 即使工具给对了信息，LLM Agent 本身也可能在整合信息时犯错（比如把两个同名的人搞混）。它不是万能的！

---

### Part 5: Agent 的“规划局”：从“想到哪做到哪”到“谋定而后动” 🗺️

复杂的任务需要规划 (Planning)。Agent 不能只靠直觉反应，得能制定一个行动步骤序列。

理想状态下：
1. Agent 看到观察 (Observation)。
2. 它先生成一个计划 (Plan)：为了达成目标，接下来应该做 A, B, C...
3. 把计划也作为输入信息。
4. 根据计划，一步步执行动作。

但现实是： 环境会变！计划赶不上变化！
*   下棋时对手的棋路 unpredictable。
*   用电脑时突然弹个广告打断流程。

所以 Agent 还需要重新规划 (Replanning) 的能力：每次看到新的观察，都评估一下：“当前计划还适用吗？要不要调整？”

LLM 的规划能力如何？

*   简单任务还行： 问它“如何刷牙”，它能列出合理步骤。问它“如何成为百万 YouTuber”，也能给个像模像样的计划。
*   基准测试 (PlanBench)：
    *   普通积木： 让它规划怎么把 A 积木放到 B 上面，GPT-4 能做到。但这可能是“背题”了，网上类似例子太多。
    *   神秘方块世界： 规则极其诡异（方块可以互相吞噬、征服、渴望...），考验真正的理解和规划能力。早期模型惨不忍睹，但最新的 GPT-4o 似乎有所突破（也可能是训练数据里包含了？）。
    *   旅行规划： 要求在预算、时间等限制下规划行程。早期模型成功率极低 (GPT-4 Turbo 只有 4%)，各种不合常理（飞机起飞了还安排午餐）、死脑筋（宁愿放弃也不懂换个便宜酒店）。但结合外部 Solver (求解器) 工具后，成功率能飙升到 90%+！说明结合工具能极大增强规划能力。

如何强化规划能力？

*   尝试与探索 (Trial and Error / Tree Search)： 像 AlphaGo 一样，在行动前先“脑内推演”或“实际试探”各种可能性，找出最优路径。
    *   挑战 1： 可能性太多，算力爆炸。需要剪枝，放弃看起来没希望的路径。
    *   挑战 2： 有些动作“覆水难收”（比如订了不能退的披萨 🍕），不能随便试。
*   脑内剧场 (World Model / Simulation)： 把所有尝试都放在“想象中”进行。Agent 不仅要规划动作，还要模拟 (Simulate) 执行动作后环境会如何变化（需要一个 World Model，有时 LLM 自己就能扮演）。
    *   它想象点了按钮 A 会怎样，点 B 会怎样...评估哪条路最有希望，然后在现实中执行那一步。
    *   这很像现在 LLM 的 Reasoning (思考/推理) 过程（比如 Chain of Thought），模型在输出最终答案前，会先在内部进行一步步的推导和规划。

最新的发现 (The Danger of Overthinking)：
能进行复杂思考的 Agent 确实更强，但有时会“想太多”！😂
*   明明点一下按钮试试就知道结果，它偏要反复推演，结果卡住不动。
*   还没开始尝试，就先把自己想“死”了，直接放弃。

看来，如何让 Agent 在深思熟虑和果断行动之间找到平衡，是个新课题。

---

### Part 6: 所以，AI Agent 对我到底意味着什么？🤔

好了，我们拆解了这么多，现在总结一下 AI Agent 的核心能力：
*   目标驱动： 不用你喂指令，给目标就行。
*   记忆与学习： 能利用 RAG 等方式从经验中学习（无需重新训练）。
*   工具使用： 能调用外部 API、搜索引擎、其他 AI 来增强能力。
*   规划与调整： 能制定计划，并根据环境变化灵活调整。

这对你意味着什么？

1. 生产力的指数级提升： 未来的 AI 可能不再只是聊天或写稿，而是能真正帮你执行复杂的多步骤任务，成为你的超级助理。想象一下，动动嘴就能完成报告、预定、分析...
2. 全新的交互方式： 与 AI 的互动将更接近与人协作，更加自然和目标导向。
3. 必须理解的趋势： 无论你喜不喜欢，AI Agent 都代表了 AI 应用的一个重要方向。理解它，才能更好地利用它，甚至不被它“优化”掉。😉

当然，AI Agent 还远非完美，它会犯错，需要监督，也面临伦理和安全的挑战。但它的潜力毋庸置疑。

现在，请思考一下：
*   在你目前的工作或生活中，有哪些重复、繁琐、多步骤的任务，是 AI Agent 未来可能接管的？
*   你可以如何利用 AI Agent 的“思考模式”（目标导向、经验学习、工具调用、规划调整）来优化自己的工作方法？

AI Agent 的时代正在加速到来。保持好奇，持续学习，拥抱变化，你就能抓住这波浪潮带来的机遇！🌊

这篇文章为你打开了 AI Agent 的大门，希望能引发你的思考和行动。

你对 AI Agent 有什么期待或担忧？你觉得它最先会在哪些领域爆发？欢迎在评论区留下你的看法！ 👇

觉得有收获？点个“在看”，转发给你的朋友，一起跟上 AI 的脚步吧！👣

（本文内容基于台大李宏毅教授 AI Agent 课程观点整理，旨在通俗化解读，部分细节和比喻为便于理解有所简化。）

一起“点赞”👍 + “在看”👀 + “分享”🚀 三连↓

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

对近期接触到的直播相关知识进行梳理

M3U8 文件是 HLS (HTTP Live Streaming) 协议的核心组件，它本质上是一个播放列表文件，包含媒体流的结构信息。直播与视频聊天的对比：我觉得直播是通过流媒体技术把现场的图像和声音采集后分发出去，供观众在线围观，可以认为是开放的，一般没有人数限制；而视频聊天是点对点的线上交流，是基于UDP/TCP的实时传输协议实现的。流媒体是通过互联网实时传输音视频内容的技术，用户无需等待完