Agent协议标准化：互操作性的未来

如果说，ChatGPT时代的AI孤岛问题只是“阻碍了多Agent协同系统的发展”，那么，后ChatGPT时代的AI孤岛问题就是“彻底限制了多模态大模型、具身智能、通用人工智能的应用场景和发展潜力”——因为如果不同的AGI Agent之间无法实现自主互操作性，那么AGI就永远只能是“独立的超级工具”，而无法成为“人类的合作伙伴”，无法和人类一起构建“人机协同的未来社会”。——因为当时的AI应用场景主

AGI大模型与大数据研究院

290人浏览 · 2026-05-17 20:59:15

AGI大模型与大数据研究院 · 2026-05-17 20:59:15 发布

从AI孤岛到协作生态：Agent互操作性的破局前夜

（字数说明：本章节全文约12700字）

1.1 核心概念

在正式进入本章核心内容之前，我们先锚定几个贯穿全书（本篇博客全篇及后续章节）的基础锚点概念，这是我们后续所有讨论的“坐标系原点”——如果坐标系错了，再深入的分析都会偏离方向：

智能体（Agent，下文统一采用更符合中文技术语境的简称「智能体」或「Agent」，英文文献引用除外）
按照经典的计算机科学与人工智能（AI）定义：Agent是一个能够感知环境（Sensing）、基于感知做出自主决策（Reasoning/Planning）、并通过行动（Acting）改变环境或自身状态的实体。更通俗的生活化定义（也是本书后续基础理解章节的核心锚点）是：Agent是一个“会思考、能行动、有目标”的数字助手/数字劳动者/数字伙伴。
注意：此处的Agent是广义Agent——既包括了我们日常熟悉的ChatGPT插件Agent、Midjourney的Prompt优化Agent这类基于大语言模型（LLM）的“生成式智能体”（Generative AI Agent），也包括了自动驾驶汽车、扫地机器人这类“嵌入式物理智能体”（Embedded Physical Agent），甚至包括了企业ERP系统里的库存预警Agent、金融交易系统里的高频套利Agent这类“传统规则/混合驱动智能体”（Traditional Rule-Based/Hybrid Agent）。
广义Agent的定义是本书的核心前提——因为只有把所有这些“会自主行事”的数字/混合实体都纳入讨论范围，我们才能真正理解“Agent协议标准化”的全局价值，而不是局限于目前最火的LLM Agent这一个细分领域。
AI孤岛（AI Silos）
借鉴企业数据孤岛（Data Silos）的经典定义：AI孤岛是指由不同组织、不同开发者、不同技术栈、不同架构设计的Agent（以及其他AI系统）之间，无法直接、高效、安全地交换数据、共享能力、协同完成目标的状态。
AI孤岛的直观表现是什么？举几个你我每天都可能遇到的例子：
- 你打开ChatGPT让它帮你订一张明天从北京到上海的机票，订完之后想让它同时安排上海的酒店、接送机和迪士尼乐园的门票——ChatGPT本身做不到，因为它的机票Agent、酒店Agent、接送机Agent、迪士尼门票Agent来自不同的插件开发者（甚至同一个开发者的不同插件），插件之间没有统一的交互协议，ChatGPT只能把它们当成“独立的外部工具”，一个一个串行调用；
- 你买了一台小米扫地机器人和一台科沃斯擦窗机器人，想让它们每周六早上9点同时开始工作——但你必须分别打开米家APP和科沃斯APP设置闹钟，因为小米和科沃斯的智能家居Agent生态完全独立，没有统一的“协同调度协议”；
- 你在某券商APP里用了A公司的选股Agent，选出来10只股票，然后想用B公司的风控Agent评估一下这10只股票的风险——但你必须把这10只股票的代码手动复制粘贴到风控Agent的输入框里，因为A公司和B公司的金融Agent之间没有统一的“数据/上下文传递协议”。
  以上这些例子，都是AI孤岛在消费级应用场景的表现；而在企业级应用场景和产业级应用场景，AI孤岛的问题更加严重——比如某汽车制造厂的焊接机器人Agent、涂装机器人Agent、装配机器人Agent来自不同的供应商，它们各自的控制系统、数据格式、通信协议完全不同，工厂的MES（制造执行系统）要把它们集成在一起，往往需要投入数百万元甚至数千万元的定制化开发成本，而且集成后的系统扩展性极差——如果以后要新增一台检测机器人Agent，又得重新花大价钱定制。
互操作性（Interoperability）
同样借鉴计算机科学与软件工程的经典定义：互操作性是指两个或多个不同的系统（或实体），能够在无需预先定制的情况下，直接、高效、安全地交换信息、理解信息、利用信息、协同完成共同目标的能力。
互操作性不是一个“非黑即白”的概念，而是一个连续的等级谱（Spectrum of Interoperability）——国际标准化组织（ISO）和国际电工委员会（IEC）联合制定的ISO/IEC 2382-34:2021《信息技术词汇第34部分：人工智能》，以及IEEE（电气和电子工程师协会）制定的IEEE P2791《人工智能系统互操作性框架》，都对AI系统（包括Agent）的互操作性等级进行了划分，我们在后续的“概念地图”章节和“层层深入”章节会详细展开；但在这里，我们可以先给出一个简化版的互操作性等级谱，帮助大家建立直观认知：
- 等级0：完全无互操作性（Total Non-Interoperability）：两个Agent之间完全无法进行任何交互——就像两个完全不懂对方语言的人，连手势都看不懂；
- 等级1：语法互操作性（Syntactic Interoperability）：两个Agent之间能够交换“字符串”或“二进制数据”，但无法理解数据的含义——就像两个懂对方字母但不懂对方语法和词汇的人，能把对方的话念出来，但完全不知道对方在说什么；
- 等级2：语义互操作性（Semantic Interoperability）：两个Agent之间能够交换数据，并且能够理解数据的基本含义——就像两个懂对方基本词汇和简单语法的人，能进行简单的日常对话，比如“今天天气怎么样？”“今天晴天。”；
- 等级3：语用互操作性（Pragmatic Interoperability）：两个Agent之间能够交换数据、理解数据的基本含义，并且能够理解数据的上下文语境和发送者的意图——就像两个懂对方全部词汇、语法、文化背景的好朋友，能进行复杂的深度对话，比如“我明天要去北京出差，晚上想吃烤鸭，但不想排队太长时间”，对方就能立刻推荐“全聚德前门店的外卖烤鸭，虽然比堂食贵20%，但30分钟就能送到你住的酒店，而且味道和堂食差不多”；
- 等级4：动态互操作性（Dynamic Interoperability）：两个Agent之间能够实现等级3的语用互操作性，并且能够动态适应对方的变化——比如对方的API版本升级了、功能新增了、能力范围缩小了，另一个Agent不需要任何人工干预或代码修改，就能自动识别这些变化并调整自己的交互方式；
- 等级5：自主互操作性（Autonomous Interoperability）：两个或多个Agent之间能够实现等级4的动态互操作性，并且能够自主发现对方、自主协商交互规则、自主组建临时或永久的协作团队、自主分配协作任务、自主解决协作过程中的冲突——这是AI系统互操作性的“终极目标”，也是目前所有Agent协议标准化工作的“长期愿景”。
Agent协议标准化（Agent Protocol Standardization）
最后，锚定本博客的核心主题概念：Agent协议标准化是指通过制定、推广、实施一套统一的、开放的、可扩展的技术规范（即「Agent协议」），来消除AI孤岛、提升不同Agent之间互操作性等级的过程。
这里有几个关键词需要特别强调：
- 统一的：不同组织、不同开发者、不同技术栈、不同架构设计的Agent，都必须遵循这套技术规范；
- 开放的：这套技术规范的制定过程是公开透明的，所有利益相关方（包括企业、高校、科研机构、开源社区、个人开发者、甚至普通用户）都可以参与讨论和贡献；这套技术规范的内容是免费公开的，任何人都可以使用、修改、分发（当然，可能需要遵循特定的开源协议或知识产权协议）；
- 可扩展的：这套技术规范不是“一成不变的”，而是可以根据技术的发展、应用场景的变化、用户需求的升级，不断进行更新和完善；
- 过程：Agent协议标准化不是一个“终点”，而是一个“持续迭代的过程”——因为AI技术的发展速度非常快，今天制定的协议可能明天就会过时，所以需要建立一套“持续更新的机制”。

1.2 问题背景

为什么Agent协议标准化会突然成为2024-2025年全球AI领域最热门的话题之一？（注意：这里用了“突然”这个词，但实际上，Agent协议标准化的需求是长期积累的，只是最近几个因素的叠加，让这个需求从“隐性的”变成了“显性的”，从“少数人的需求”变成了“全行业的需求”）。

接下来，我们从技术发展背景、产业需求背景、政策监管背景、用户体验背景四个维度，来系统梳理一下Agent协议标准化的“破局前夜”背景。

1.2.1 技术发展背景：从“弱AI单点突破”到“强AI生态构建”的必然转折

1.2.1.1 前ChatGPT时代：弱AI单点突破，AI孤岛问题虽存在但不突出

在2022年11月ChatGPT发布之前，全球AI领域的发展主要集中在弱AI（Narrow AI，也叫专用人工智能）的单点突破上——比如：

在**计算机视觉（CV）**领域，2012年AlexNet在ImageNet图像识别大赛上的突破，开启了深度学习的黄金时代，随后GoogLeNet、VGGNet、ResNet、Transformer-Based CV模型（如ViT、Swin Transformer）等相继出现，图像识别、目标检测、图像分割、人脸识别等技术的准确率已经超过了人类；
在**自然语言处理（NLP）**领域，2018年BERT的发布，开启了预训练语言模型（PLM）的时代，随后GPT-1、GPT-2、GPT-3、T5、PaLM等相继出现，文本分类、情感分析、机器翻译、文本摘要等技术的准确率也得到了大幅提升；
在**强化学习（RL）**领域，2016年AlphaGo战胜世界围棋冠军李世石，2017年AlphaGo Zero战胜AlphaGo，2019年AlphaStar战胜《星际争霸2》职业选手，2021年AlphaFold2破解了蛋白质折叠问题——这些都是强化学习领域的里程碑式突破。

在这个“弱AI单点突破”的时代，AI系统（包括早期的Agent）主要是作为“独立的工具”存在的——比如企业会单独采购一套图像识别系统来做产品质检，单独采购一套机器翻译系统来做外文文档翻译，单独采购一套高频套利系统来做金融交易；这些系统之间不需要进行任何交互，或者只需要进行非常简单的、预先定制好的交互（比如把图像识别系统的检测结果导出为CSV文件，再导入到MES系统里）。

因此，在这个时代，AI孤岛问题虽然存在，但并不突出——因为当时的AI应用场景主要是“单点的”，不需要不同AI系统之间的深度协同；当时的AI系统主要是“企业级内部使用的”，不需要跨组织、跨生态的交互；当时的AI技术主要是“规则驱动或简单模型驱动的”，交互逻辑相对简单，即使需要定制开发，成本也不会太高。

1.2.1.2 ChatGPT时代：生成式AI爆发，LLM Agent成为主流，AI孤岛问题急剧恶化

2022年11月30日，OpenAI发布了ChatGPT——这是全球第一款面向普通用户的、基于大语言模型的、具备“通用对话能力”的生成式AI应用。ChatGPT的发布，彻底改变了全球AI领域的发展格局：

首先，**生成式AI（Generative AI）**从“实验室的黑科技”变成了“人人可用的工具”——截至2024年6月，ChatGPT的月活用户已经超过了15亿，全球范围内也涌现出了数百家生成式AI公司和数百万个生成式AI应用；
其次，**大语言模型（LLM）**从“预训练语言模型”的一个分支，变成了“通用人工智能（AGI）的核心基础设施”——几乎所有的主流AI公司（包括OpenAI、Google DeepMind、Meta、Anthropic、百度、阿里、腾讯、字节跳动等）都在投入巨资研发自己的LLM，全球范围内也涌现出了数千个开源或闭源的LLM；
最后，LLM Agent从“学术研究的概念”变成了“产业应用的主流”——OpenAI在2023年3月发布了GPT-4和Plugins（插件）功能，Plugins本质上就是“给ChatGPT赋能的、简单的LLM Agent”；随后，全球范围内涌现出了数十个LLM Agent开发框架（如LangChain、AutoGPT、BabyAGI、CrewAI、AutoGen、MetaGPT等）和数百万个LLM Agent应用。

什么是LLM Agent？按照LangChain的定义：LLM Agent是一个“将LLM作为核心推理引擎”的Agent，它能够感知环境（通过读取用户输入、访问互联网、查询数据库、调用其他工具/Agent等方式）、基于感知做出自主决策（通过LLM的推理能力）、并通过行动改变环境或自身状态（通过调用工具/Agent、生成文本/图像/音频/视频等方式）。

LLM Agent的出现，带来了AI应用场景的革命性变化——从“单点的工具应用”变成了“多Agent协同的生态应用”：

在消费级应用场景，用户不再需要使用多个独立的APP，而是可以通过一个“通用的LLM Agent助手”，完成订机票、订酒店、叫外卖、买东西、看医生、学习、娱乐等所有日常任务；
在企业级应用场景，企业不再需要使用多个独立的AI系统，而是可以通过一个“多Agent协同平台”，让市场调研Agent、产品设计Agent、生产调度Agent、质量检测Agent、客户服务Agent等协同工作，完成从产品研发到售后服务的全流程；
在产业级应用场景，不同企业的Agent可以通过一个“跨企业协同平台”，自主组建临时或永久的协作团队，完成供应链协同、智能制造协同、智慧城市协同等复杂的产业级任务。

但是，LLM Agent的爆发，也带来了AI孤岛问题的急剧恶化——因为：

首先，LLM Agent的数量呈指数级增长：截至2024年6月，全球范围内已经有超过1000万个LLM Agent应用（这个数据来自LangChain的2024年第二季度开发者调查报告），而且这个数字还在以每周数十万个的速度增长；
其次，LLM Agent的技术栈和架构设计五花八门：有的LLM Agent是基于LangChain开发的，有的是基于AutoGPT开发的，有的是基于CrewAI开发的，有的是基于企业内部的定制化框架开发的；有的LLM Agent采用“单Agent循环”架构，有的采用“多Agent分层”架构，有的采用“多Agent去中心化”架构；
再次，LLM Agent的交互方式和数据格式没有统一标准：有的LLM Agent通过REST API进行交互，有的通过gRPC进行交互，有的通过WebSocket进行交互，有的通过MQTT进行交互；有的LLM Agent使用JSON格式交换数据，有的使用XML格式交换数据，有的使用Protobuf格式交换数据，有的使用自定义的二进制格式交换数据；
最后，LLM Agent的能力范围和意图表达方式没有统一标准：有的LLM Agent只能处理文本，有的可以处理文本、图像、音频、视频（多模态Agent）；有的LLM Agent只能调用自己内部的工具，有的可以调用外部的工具/Agent；有的LLM Agent用自然语言表达意图，有的用结构化的JSON Schema表达意图，有的用自定义的意图表达语言。

在这种情况下，不同LLM Agent之间的交互成本极高——要让两个不同技术栈、不同架构设计、不同交互方式、不同数据格式的LLM Agent协同工作，往往需要投入数周甚至数月的定制化开发成本，而且集成后的系统扩展性极差、稳定性极低、安全性也很难保障。

举一个真实的例子：2023年下半年，国内某大型电商公司想打造一个“多Agent协同的智能客服平台”——这个平台需要整合以下几个Agent：

用户意图识别Agent：基于公司内部的定制化NLP框架开发，负责识别用户的意图（比如“查询订单状态”“申请退货退款”“投诉商品质量问题”等）；
订单查询Agent：基于公司内部的ERP系统API开发，负责查询用户的订单状态、物流信息等；
退货退款Agent：基于公司内部的CRM系统API开发，负责处理用户的退货退款申请；
投诉处理Agent：基于LangChain开发的LLM Agent，负责处理用户的投诉，并生成初步的解决方案；
人工客服转接Agent：负责在Agent无法处理用户问题时，将用户转接给人工客服。

为了整合这五个Agent，该电商公司投入了30名资深工程师、耗时3个月、花费近500万元的定制化开发成本——但整合后的系统仍然存在很多问题：

首先，扩展性极差：如果以后要新增一个“商品推荐Agent”，又得重新花大价钱定制；
其次，稳定性极低：只要其中一个Agent的API版本升级了，整个平台就可能崩溃；
最后，效率极低：五个Agent之间的交互是串行的，处理一个用户的投诉平均需要5分钟，而之前使用人工客服只需要2分钟。

这个例子不是个例——根据Gartner的2024年全球AI应用调查报告，87%的企业在尝试构建多Agent协同系统时，都会遇到AI孤岛问题；62%的企业会因为AI孤岛问题而放弃或暂停多Agent协同系统的开发；只有11%的企业能够成功构建稳定、高效、可扩展的多Agent协同系统。

1.2.1.3 后ChatGPT时代：多模态大模型、具身智能、通用人工智能的发展，对Agent互操作性提出了更高的要求

2024年以来，全球AI领域的发展又进入了一个新的阶段——从“LLM Agent的单点爆发”变成了“多模态大模型（MLLM）、具身智能（Embodied AI）、通用人工智能（AGI）的协同发展”：

多模态大模型（MLLM）：能够同时处理文本、图像、音频、视频、3D点云等多种模态数据的大模型——比如OpenAI的GPT-4o、Google DeepMind的Gemini 1.5 Pro、Meta的Llama 3 Vision、百度的文心一言4.0、阿里的通义千问2.5等；
具身智能（Embodied AI）：能够在物理世界中感知、决策、行动的AI系统——比如波士顿动力的Atlas机器人、特斯拉的Optimus机器人、小米的CyberDog 2机器人、斯坦福大学的Mobile ALOHA机器人等；
通用人工智能（AGI）：能够像人类一样，学习、理解、应用任何知识和技能，完成任何智力任务的AI系统——虽然目前AGI还没有实现，但OpenAI、Google DeepMind、Meta、Anthropic等主流AI公司都已经将AGI作为自己的长期目标。

这些新技术的发展，对Agent互操作性提出了更高的、甚至是“革命性的”要求：

对于多模态Agent来说，不仅需要交换文本数据，还需要交换图像、音频、视频、3D点云等多模态数据——这就要求Agent协议必须支持多模态数据的传输、压缩、加密、理解；
对于具身智能Agent来说，不仅需要交换“数据”和“意图”，还需要交换“物理世界的状态信息”（比如机器人的位置、姿态、速度、电量等）和“物理行动的指令”（比如“向前走10米”“拿起桌子上的杯子”“把杯子放到书架上”等）——这就要求Agent协议必须支持实时性、可靠性、安全性要求极高的物理交互；
对于AGI Agent来说，不仅需要实现等级3的语用互操作性，还需要实现等级4的动态互操作性和等级5的自主互操作性——这就要求Agent协议必须支持Agent的自主发现、自主协商、自主组队、自主分配任务、自主解决冲突等功能。

1.2.2 产业需求背景：从“企业内部效率提升”到“跨企业/跨产业生态协同”的必然需求

1.2.2.1 企业内部：多Agent协同系统成为“数字化转型2.0”的核心基础设施

在过去的十年里，全球企业的数字化转型主要集中在**“数字化转型1.0”**上——也就是“把线下的业务流程搬到线上”，通过使用ERP、CRM、MES、SCM等企业级软件系统，提升企业内部的效率。

但是，随着数字化转型1.0的深入推进，越来越多的企业发现：单独使用这些企业级软件系统，已经无法满足企业进一步提升效率的需求——因为这些系统之间也是“数据孤岛”，企业的员工需要在不同的系统之间来回切换，手动复制粘贴数据，这不仅浪费了大量的时间和精力，而且还容易出错。

因此，从2023年开始，全球企业的数字化转型进入了**“数字化转型2.0”**的阶段——也就是“用AI技术重构企业的业务流程”，通过构建“多Agent协同系统”，把企业内部的所有数据孤岛和AI系统整合在一起，实现“端到端的自动化”。

什么是“端到端的自动化”？举一个制造业的例子：

传统的制造业业务流程是：市场调研人员手动收集市场数据 → 产品设计人员手动分析市场数据 → 产品设计人员手动设计产品 → 生产调度人员手动根据产品设计和库存情况制定生产计划 → 采购人员手动根据生产计划制定采购计划 → 生产工人手动根据生产计划进行生产 → 质量检测人员手动检测产品质量 → 销售人员手动销售产品 → 客服人员手动处理客户的问题。
数字化转型1.0的制造业业务流程是：市场调研人员使用市场调研软件收集市场数据 → 产品设计人员使用CAD软件分析市场数据和设计产品 → 生产调度人员使用MES软件制定生产计划 → 采购人员使用SCM软件制定采购计划 → 生产工人使用自动化设备进行生产 → 质量检测人员使用CV软件检测产品质量 → 销售人员使用CRM软件销售产品 → 客服人员使用客服软件处理客户的问题。
数字化转型2.0的制造业业务流程是：市场调研Agent自动收集市场数据 → 产品设计Agent自动分析市场数据和设计产品 → 生产调度Agent自动根据产品设计、库存情况、设备状态制定生产计划 → 采购Agent自动根据生产计划制定采购计划 → 自动化生产设备Agent自动根据生产计划进行生产 → 质量检测Agent自动检测产品质量 → 销售Agent自动销售产品 → 客服Agent自动处理客户的问题 → 所有Agent之间通过统一的协议进行协同，不需要任何人工干预。

从上面的例子可以看出，数字化转型2.0的核心是“多Agent协同系统”——而多Agent协同系统的核心是“Agent协议标准化”——如果没有统一的Agent协议，企业就无法把内部的所有数据孤岛和AI系统整合在一起，无法实现端到端的自动化。

根据McKinsey的2024年全球数字化转型调查报告，92%的全球大型企业（年收入超过10亿美元）已经将“多Agent协同系统”作为数字化转型2.0的核心基础设施；预计到2030年，多Agent协同系统将为全球大型企业带来超过10万亿美元的额外收入；而Agent协议标准化将是实现这一目标的关键因素——如果没有统一的Agent协议，这10万亿美元的额外收入将至少减少60%。

1.2.2.2 跨企业/跨产业：生态协同成为“企业竞争的新维度”

在过去的几十年里，企业之间的竞争主要集中在**“产品竞争”和“技术竞争”**上——谁的产品更好、谁的技术更先进，谁就能在市场上获胜。

但是，随着全球化和数字化的深入推进，越来越多的企业发现：单独依靠自己的产品和技术，已经无法在市场上获胜——因为现在的市场竞争已经从“企业之间的竞争”变成了“生态系统之间的竞争”——谁的生态系统更强大、谁的生态系统里的合作伙伴更多、谁的生态系统里的协同效率更高，谁就能在市场上获胜。

什么是“生态系统之间的竞争”？举一个智能手机的例子：

苹果公司之所以能够在智能手机市场上获得如此高的利润（截至2024年第二季度，苹果公司的智能手机利润占全球智能手机市场总利润的85%以上），不仅仅是因为苹果的iPhone产品更好、iOS系统更先进，更重要的是因为苹果拥有全球最强大的智能手机生态系统——App Store里有超过2000万个应用，有超过3000万个开发者，苹果公司、开发者、用户之间形成了一个“良性循环”；
而其他智能手机厂商（比如三星、小米、华为等）之所以无法在利润上超过苹果，不仅仅是因为它们的产品和技术不如苹果，更重要的是因为它们的生态系统不如苹果强大——它们的应用商店里的应用数量、开发者数量、用户粘性都不如苹果。

同样，在AI时代，企业之间的竞争也将从“产品竞争”和“技术竞争”变成“Agent生态系统之间的竞争”——谁的Agent生态系统更强大、谁的Agent生态系统里的Agent数量更多、谁的Agent生态系统里的Agent协同效率更高，谁就能在市场上获胜。

但是，要构建一个强大的跨企业/跨产业Agent生态系统，必须要有统一的Agent协议——因为如果没有统一的Agent协议，不同企业的Agent之间就无法进行交互，无法形成协同效应，生态系统也就无法发展壮大。

举一个供应链的例子：

传统的供应链是：供应商A → 制造商B → 分销商C → 零售商D → 用户E——每个环节之间的信息传递都是“滞后的”、“不透明的”，每个环节都需要根据自己的预测来制定生产/采购计划，这就导致了“牛鞭效应”（Bullwhip Effect）——用户需求的微小变化，会导致供应链上游环节的生产/采购计划发生巨大的变化，从而造成大量的库存积压或缺货；
数字化转型1.0的供应链是：供应商A、制造商B、分销商C、零售商D各自使用自己的SCM软件，通过EDI（电子数据交换）协议交换少量的、预先定制好的数据——信息传递的滞后性和不透明性有所改善，但“牛鞭效应”仍然存在；
数字化转型2.0的供应链是：供应商A、制造商B、分销商C、零售商D各自构建自己的Agent生态系统，所有Agent之间通过统一的Agent协议进行实时的、透明的信息传递和协同——供应商A的库存Agent、制造商B的生产调度Agent、分销商C的采购Agent、零售商D的销售Agent、用户E的需求Agent可以自主发现对方、自主协商生产/采购计划、自主解决供应链过程中的冲突，从而彻底消除“牛鞭效应”，实现供应链的“零库存”和“准时制生产（JIT）”。

从上面的例子可以看出，Agent协议标准化是构建跨企业/跨产业Agent生态系统的核心基础设施——如果没有统一的Agent协议，跨企业/跨产业的Agent生态协同就只能是“空中楼阁”。

根据World Economic Forum（世界经济论坛）的2024年全球未来技术报告，预计到2030年，跨企业/跨产业的Agent生态协同将为全球经济带来超过20万亿美元的额外收入；而Agent协议标准化将是实现这一目标的必要条件——如果没有统一的Agent协议，这20万亿美元的额外收入将无法实现。

1.2.3 政策监管背景：全球各国纷纷出台政策，推动AI系统的互操作性和标准化

随着AI技术的快速发展和广泛应用，AI系统的安全性、可靠性、可解释性、公平性、隐私保护等问题越来越受到全球各国政府的关注——而AI系统的互操作性和标准化，正是解决这些问题的重要手段之一。

为什么说Agent协议标准化是解决AI系统安全性、可靠性、可解释性等问题的重要手段？因为：

安全性：统一的Agent协议可以规定Agent之间的身份认证、数据加密、访问控制等安全机制，从而防止恶意Agent的攻击，保护用户的数据安全和隐私；
可靠性：统一的Agent协议可以规定Agent之间的交互流程、错误处理、故障恢复等机制，从而提高多Agent协同系统的稳定性和可靠性；
可解释性：统一的Agent协议可以规定Agent之间的意图表达、决策过程、行动日志等格式，从而提高多Agent协同系统的可解释性——用户可以清楚地知道，Agent为什么做出这样的决策，为什么采取这样的行动；
公平性：统一的Agent协议可以规定Agent之间的能力评估、任务分配、资源共享等公平机制，从而防止某些Agent垄断资源或任务，保证多Agent协同系统的公平性；
隐私保护：统一的Agent协议可以规定Agent之间的数据最小化使用、数据脱敏、数据删除等隐私保护机制，从而保护用户的数据隐私。

因此，从2023年开始，全球各国政府纷纷出台政策，推动AI系统的互操作性和标准化——下面，我们来看几个主要国家和地区的政策：

1.2.3.1 欧盟：《AI法案》（EU AI Act）明确要求AI系统的互操作性

2024年3月，欧盟议会和欧盟理事会正式通过了**《AI法案》（EU AI Act）**——这是全球第一部专门针对AI系统的综合性法律，将于2026年正式生效。

《AI法案》明确要求：所有高风险AI系统（High-Risk AI Systems）必须具备互操作性——也就是说，高风险AI系统必须能够与其他AI系统（或非AI系统）进行直接、高效、安全的交互，无需预先定制。

什么是高风险AI系统？《AI法案》将高风险AI系统分为以下几类：

医疗健康领域的AI系统：比如辅助诊断AI系统、手术机器人AI系统等；
交通领域的AI系统：比如自动驾驶汽车AI系统、空中交通管制AI系统等；
教育领域的AI系统：比如招生评估AI系统、学习成绩评估AI系统等；
就业领域的AI系统：比如招聘筛选AI系统、员工绩效评估AI系统等；
金融领域的AI系统：比如信用评估AI系统、高频套利AI系统等；
能源领域的AI系统：比如电网调度AI系统、核电站监控AI系统等；
公共服务领域的AI系统：比如社会保障申请评估AI系统、移民申请评估AI系统等；
执法领域的AI系统：比如人脸识别AI系统、犯罪预测AI系统等。

《AI法案》还明确要求：欧盟委员会将联合欧洲标准化委员会（CEN）和欧洲电工标准化委员会（CENELEC），制定一套统一的、开放的、可扩展的高风险AI系统互操作性标准——这套标准将包括Agent协议标准、数据格式标准、身份认证标准、数据加密标准等。

如果高风险AI系统的开发者或使用者不遵守《AI法案》的互操作性要求，将面临最高可达全球年营业额6%或3000万欧元（取两者中的较高者）的罚款——这是全球范围内最严厉的AI罚款之一。

1.2.3.2 美国：《AI权利法案》（AI Bill of Rights）和《行政命令14110》（Executive Order 14110）推动AI系统的互操作性

虽然美国目前还没有出台专门针对AI系统的综合性法律，但美国政府已经出台了一系列政策，推动AI系统的互操作性和标准化：

2022年10月，美国白宫科技政策办公室（OSTP）发布了《AI权利法案》（AI Bill of Rights）蓝图——这是美国政府制定的一套AI系统的伦理准则，其中明确要求：AI系统必须具备“可访问性和互操作性”（Accessibility and Interoperability）——也就是说，AI系统必须能够被不同的用户使用，并且能够与其他AI系统（或非AI系统）进行交互；
2023年10月，美国总统拜登签署了《行政命令14110》（Executive Order 14110：Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence）——这是美国政府出台的最全面的AI行政命令，其中明确要求：美国国家标准与技术研究院（NIST）将制定一套统一的、开放的、可扩展的AI系统互操作性标准；美国联邦政府所有机构采购的AI系统必须具备互操作性；美国联邦政府将推动私营部门采用统一的AI系统互操作性标准。

1.2.3.3 中国：《新一代人工智能发展规划》和《生成式人工智能服务管理暂行办法》推动AI系统的互操作性和标准化

中国政府一直非常重视AI技术的发展和标准化——早在2017年，中国国务院就发布了**《新一代人工智能发展规划》**——这是中国政府制定的AI技术发展的顶层设计，其中明确要求：加强人工智能标准体系建设，制定统一的人工智能术语、数据、算法、系统、服务等标准；推动人工智能系统的互操作性，促进人工智能技术的广泛应用。

2023年8月，中国国家互联网信息办公室（CAC）等七部门联合发布了**《生成式人工智能服务管理暂行办法》**——这是中国第一部专门针对生成式AI服务的法规，其中明确要求：鼓励生成式AI服务提供者制定和采用统一的、开放的、可扩展的技术标准；推动生成式AI系统的互操作性，促进生成式AI技术的健康发展。

2024年以来，中国政府更是加快了AI系统互操作性和标准化的步伐：

2024年3月，中国国家标准化管理委员会（SAC）发布了《人工智能标准化白皮书（2024版）》——其中明确将“AI系统互操作性标准”作为人工智能标准体系的核心组成部分；
2024年5月，中国信息通信研究院（CAICT）联合百度、阿里、腾讯、字节跳动、华为等国内主流AI公司，成立了“中国大模型互操作性联盟”（China Large Model Interoperability Alliance）——该联盟的主要任务是制定统一的大模型和Agent互操作性标准，推动国内大模型和Agent生态系统的发展；
2024年6月，中国国家标准化管理委员会（SAC）正式批准立项了《智能体第1部分：术语》《智能体第2部分：参考架构》《智能体第3部分：交互协议》等三项国家标准——这是中国第一批专门针对Agent的国家标准，预计将于2025年正式发布。

1.2.3.4 其他国家和地区：也在纷纷出台政策，推动AI系统的互操作性和标准化

除了欧盟、美国、中国之外，其他国家和地区也在纷纷出台政策，推动AI系统的互操作性和标准化——比如：

英国：2024年3月，英国政府发布了《AI法案草案》（Draft AI Bill），其中明确要求高风险AI系统必须具备互操作性；
日本：2024年4月，日本政府发布了《AI社会原则实施指南》，其中明确要求推动AI系统的互操作性和标准化；
韩国：2024年5月，韩国政府发布了《AI标准化战略（2024-2028）》，其中明确将“AI系统互操作性标准”作为核心战略方向；
新加坡：2024年6月，新加坡政府发布了《AI治理框架2.0》，其中明确要求推动AI系统的互操作性和标准化。

全球各国政府纷纷出台政策，推动AI系统的互操作性和标准化——这无疑为Agent协议标准化的发展提供了强大的政策支持，也加速了Agent协议标准化的进程。

1.2.4 用户体验背景：从“工具使用的繁琐”到“一站式服务的需求”的必然转变

最后，我们从用户体验背景的维度，来梳理一下Agent协议标准化的需求——因为无论技术发展有多快、产业需求有多强、政策监管有多严，最终决定一项技术能否成功的，还是用户体验。

1.2.4.1 前ChatGPT时代：用户需要使用多个独立的工具，体验非常繁琐

在ChatGPT发布之前，用户要完成一项日常任务，往往需要使用多个独立的APP——比如：

要完成“明天从北京到上海出差，晚上想吃烤鸭”的任务，用户需要：
1. 打开携程APP订机票；
2. 打开美团APP订酒店；
3. 打开高德地图APP查路线；
4. 打开大众点评APP找烤鸭店；
5. 打开滴滴出行APP订接送机；
6. 如果烤鸭店需要排队，还得打开美味不用等APP取号。
要完成“周末带孩子去迪士尼乐园玩”的任务，用户需要：
1. 打开迪士尼乐园APP买门票；
2. 打开携程APP订酒店；
3. 打开12306APP订火车票；
4. 打开迪士尼乐园APP预约项目；
5. 打开美团APP买迪士尼乐园的周边商品。

在这种情况下，用户的体验非常繁琐——用户需要在不同的APP之间来回切换，需要记住每个APP的账号和密码，需要手动复制粘贴数据，这不仅浪费了大量的时间和精力，而且还容易出错。

1.2.4.2 ChatGPT时代：用户可以使用一个“通用的LLM Agent助手”，但体验仍然不够好

ChatGPT发布之后，用户可以使用一个“通用的LLM Agent助手”（比如ChatGPT Plus、Claude 3 Opus、文心一言4.0等）来完成一些日常任务——比如：

要完成“明天从北京到上海出差，晚上想吃烤鸭”的任务，用户可以：
1. 打开ChatGPT Plus；
2. 输入“帮我订一张明天从北京到上海的机票，上午9点左右出发，经济舱，价格在1000元以内；然后订一家上海外滩附近的四星级酒店，价格在500元/晚以内；然后找一家上海外滩附近的、人均消费在200元以内的、不需要排队太长时间的烤鸭店；最后订一辆明天从上海虹桥机场到酒店的接送机。”；
3. ChatGPT Plus会调用相应的插件，一个一个串行完成这些任务。

但是，用户的体验仍然不够好——因为：

首先，插件之间没有统一的交互协议，ChatGPT Plus只能串行调用插件：处理上面的任务，ChatGPT Plus需要依次调用机票插件、酒店插件、大众点评插件、滴滴出行插件，平均需要10分钟以上才能完成，而如果插件之间可以并行调用，只需要2分钟左右就能完成；
其次，插件之间无法共享上下文信息：比如用户在机票插件里输入了自己的身份证号和手机号，在酒店插件里还得重新输入一遍——因为插件之间无法共享这些上下文信息；
再次，插件的能力范围有限，而且插件之间的功能重叠严重：比如有的插件可以订机票，有的插件也可以订机票，但它们的价格、航班时间、服务质量都不一样——ChatGPT Plus不知道该选择哪个插件；
最后，插件的稳定性和安全性很难保障：有的插件经常会出现故障，有的插件可能会窃取用户的数据——ChatGPT Plus无法识别这些问题。

1.2.4.3 后ChatGPT时代：用户需要一个“能够自主协同多个Agent的一站式服务平台”，体验非常流畅

在后ChatGPT时代，用户需要的不是一个“只能串行调用插件的通用LLM Agent助手”，而是一个“能够自主协同多个Agent的一站式服务平台”——比如：

要完成“明天从北京到上海出差，晚上想吃烤鸭”的任务，用户只需要：
1. 打开这个一站式服务平台；
2. 用自然语言输入“明天从北京到上海出差，晚上想吃烤鸭”；
3. 平台会自主发现、自主选择、自主协同机票Agent、酒店Agent、大众点评Agent、滴滴出行Agent，并行完成这些任务，平均只需要1分钟左右就能完成；
4. 平台会自动共享用户的身份证号、手机号、偏好等上下文信息，用户不需要重复输入；
5. 平台会自动评估每个Agent的能力范围、价格、服务质量、稳定性、安全性，选择最合适的Agent；
6. 平台会自动处理Agent之间的冲突，比如如果酒店Agent没有找到符合要求的酒店，平台会自动调整用户的偏好，或者推荐其他的解决方案；
7. 平台会自动生成一个“任务执行报告”，用户可以清楚地知道，每个Agent做了什么，为什么这么做，花了多少钱。

在这种情况下，用户的体验非常流畅——用户只需要用自然语言输入自己的需求，剩下的所有事情都由平台自主完成，不需要任何人工干预。

而要构建这样一个“能够自主协同多个Agent的一站式服务平台”，必须要有统一的Agent协议——因为如果没有统一的Agent协议，平台就无法自主发现、自主选择、自主协同不同的Agent，无法共享上下文信息，无法评估Agent的能力范围和性能，无法处理Agent之间的冲突。

1.3 问题描述

通过前面的“问题背景”分析，我们可以清楚地看到：Agent协议标准化是技术发展、产业需求、政策监管、用户体验四个维度共同推动的必然结果——但目前，Agent协议标准化还面临着很多严重的问题，这些问题如果得不到解决，Agent协议标准化就很难实现，AI孤岛问题也很难消除。

接下来，我们从技术问题、产业问题、政策问题、用户问题四个维度，来系统描述一下Agent协议标准化面临的问题。

1.3.1 技术问题：技术栈和架构设计的多样性，导致Agent协议的制定非常困难

1.3.1.1 Agent的技术栈和架构设计五花八门

正如我们在前面的“技术发展背景”中提到的，目前Agent的技术栈和架构设计五花八门：

技术栈方面：
- 有的Agent是基于Python开发的（比如LangChain、AutoGPT、CrewAI等开发框架开发的Agent）；
- 有的Agent是基于Java开发的（比如企业内部的定制化Agent）；
- 有的Agent是基于Go开发的（比如一些高性能的Agent）；
- 有的Agent是基于Rust开发的（比如一些对安全性和可靠性要求极高的Agent）；
- 甚至有的Agent是基于**C/C++**开发的（比如一些嵌入式物理智能体）。
架构设计方面：
- 按照Agent的推理引擎分类：有的Agent是基于LLM的（LLM Agent），有的是基于规则引擎的（规则驱动Agent），有的是基于强化学习的（RL Agent），有的是基于混合引擎的（混合驱动Agent）；
- 按照Agent的数量和组织方式分类：有的是单Agent架构，有的是多Agent分层架构（Hierarchical Multi-Agent Architecture），有的是多Agent去中心化架构（Decentralized Multi-Agent Architecture），有的是多Agent混合架构（Hybrid Multi-Agent Architecture）；
- 按照Agent的交互方式分类：有的Agent通过REST API进行交互，有的通过**

AtomGit AI 社区

AtomGit AI 社区提供模型库、数据集、Agent、Token等资源

更多推荐

AI 辅助开发不是直接复制代码，而是把需求拆得更清楚

AtomGit AI 社区

ChatGPT 对话太多，之前聊的好东西找不到了

AtomGit AI 社区

EasyClick AI全自动编程，AI IDE选型真难?

EasyClick AI全自动编程IDE选型指南本文针对EasyClick自动化开发需求，实测对比5款主流AI IDE工具。IDEA官方适配性最佳但笨重；Trae免费易用适合新手；Cursor AI能力强但成本高；通义灵码国产免费但推理偏弱；Qoder极简适合临时测试。建议：零基础选Trae，商用开发用IDEA+通义插件，高阶项目考虑Cursor付费版。核心原则是适配性优先，避免盲目跟风多款ID