Agent协议标准化:互操作性的未来
如果说,ChatGPT时代的AI孤岛问题只是“阻碍了多Agent协同系统的发展”,那么,后ChatGPT时代的AI孤岛问题就是“彻底限制了多模态大模型、具身智能、通用人工智能的应用场景和发展潜力”——因为如果不同的AGI Agent之间无法实现自主互操作性,那么AGI就永远只能是“独立的超级工具”,而无法成为“人类的合作伙伴”,无法和人类一起构建“人机协同的未来社会”。——因为当时的AI应用场景主
从AI孤岛到协作生态:Agent互操作性的破局前夜
(字数说明:本章节全文约12700字)
1.1 核心概念
在正式进入本章核心内容之前,我们先锚定几个贯穿全书(本篇博客全篇及后续章节)的基础锚点概念,这是我们后续所有讨论的“坐标系原点”——如果坐标系错了,再深入的分析都会偏离方向:
- 智能体(Agent,下文统一采用更符合中文技术语境的简称「智能体」或「Agent」,英文文献引用除外)
按照经典的计算机科学与人工智能(AI)定义:Agent是一个能够感知环境(Sensing)、基于感知做出自主决策(Reasoning/Planning)、并通过行动(Acting)改变环境或自身状态的实体。更通俗的生活化定义(也是本书后续基础理解章节的核心锚点)是:Agent是一个“会思考、能行动、有目标”的数字助手/数字劳动者/数字伙伴。
注意:此处的Agent是广义Agent——既包括了我们日常熟悉的ChatGPT插件Agent、Midjourney的Prompt优化Agent这类基于大语言模型(LLM)的“生成式智能体”(Generative AI Agent),也包括了自动驾驶汽车、扫地机器人这类“嵌入式物理智能体”(Embedded Physical Agent),甚至包括了企业ERP系统里的库存预警Agent、金融交易系统里的高频套利Agent这类“传统规则/混合驱动智能体”(Traditional Rule-Based/Hybrid Agent)。
广义Agent的定义是本书的核心前提——因为只有把所有这些“会自主行事”的数字/混合实体都纳入讨论范围,我们才能真正理解“Agent协议标准化”的全局价值,而不是局限于目前最火的LLM Agent这一个细分领域。 - AI孤岛(AI Silos)
借鉴企业数据孤岛(Data Silos)的经典定义:AI孤岛是指由不同组织、不同开发者、不同技术栈、不同架构设计的Agent(以及其他AI系统)之间,无法直接、高效、安全地交换数据、共享能力、协同完成目标的状态。
AI孤岛的直观表现是什么?举几个你我每天都可能遇到的例子:- 你打开ChatGPT让它帮你订一张明天从北京到上海的机票,订完之后想让它同时安排上海的酒店、接送机和迪士尼乐园的门票——ChatGPT本身做不到,因为它的机票Agent、酒店Agent、接送机Agent、迪士尼门票Agent来自不同的插件开发者(甚至同一个开发者的不同插件),插件之间没有统一的交互协议,ChatGPT只能把它们当成“独立的外部工具”,一个一个串行调用;
- 你买了一台小米扫地机器人和一台科沃斯擦窗机器人,想让它们每周六早上9点同时开始工作——但你必须分别打开米家APP和科沃斯APP设置闹钟,因为小米和科沃斯的智能家居Agent生态完全独立,没有统一的“协同调度协议”;
- 你在某券商APP里用了A公司的选股Agent,选出来10只股票,然后想用B公司的风控Agent评估一下这10只股票的风险——但你必须把这10只股票的代码手动复制粘贴到风控Agent的输入框里,因为A公司和B公司的金融Agent之间没有统一的“数据/上下文传递协议”。
以上这些例子,都是AI孤岛在消费级应用场景的表现;而在企业级应用场景和产业级应用场景,AI孤岛的问题更加严重——比如某汽车制造厂的焊接机器人Agent、涂装机器人Agent、装配机器人Agent来自不同的供应商,它们各自的控制系统、数据格式、通信协议完全不同,工厂的MES(制造执行系统)要把它们集成在一起,往往需要投入数百万元甚至数千万元的定制化开发成本,而且集成后的系统扩展性极差——如果以后要新增一台检测机器人Agent,又得重新花大价钱定制。
- 互操作性(Interoperability)
同样借鉴计算机科学与软件工程的经典定义:互操作性是指两个或多个不同的系统(或实体),能够在无需预先定制的情况下,直接、高效、安全地交换信息、理解信息、利用信息、协同完成共同目标的能力。
互操作性不是一个“非黑即白”的概念,而是一个连续的等级谱(Spectrum of Interoperability)——国际标准化组织(ISO)和国际电工委员会(IEC)联合制定的ISO/IEC 2382-34:2021《信息技术 词汇 第34部分:人工智能》,以及IEEE(电气和电子工程师协会)制定的IEEE P2791《人工智能系统互操作性框架》,都对AI系统(包括Agent)的互操作性等级进行了划分,我们在后续的“概念地图”章节和“层层深入”章节会详细展开;但在这里,我们可以先给出一个简化版的互操作性等级谱,帮助大家建立直观认知:- 等级0:完全无互操作性(Total Non-Interoperability):两个Agent之间完全无法进行任何交互——就像两个完全不懂对方语言的人,连手势都看不懂;
- 等级1:语法互操作性(Syntactic Interoperability):两个Agent之间能够交换“字符串”或“二进制数据”,但无法理解数据的含义——就像两个懂对方字母但不懂对方语法和词汇的人,能把对方的话念出来,但完全不知道对方在说什么;
- 等级2:语义互操作性(Semantic Interoperability):两个Agent之间能够交换数据,并且能够理解数据的基本含义——就像两个懂对方基本词汇和简单语法的人,能进行简单的日常对话,比如“今天天气怎么样?”“今天晴天。”;
- 等级3:语用互操作性(Pragmatic Interoperability):两个Agent之间能够交换数据、理解数据的基本含义,并且能够理解数据的上下文语境和发送者的意图——就像两个懂对方全部词汇、语法、文化背景的好朋友,能进行复杂的深度对话,比如“我明天要去北京出差,晚上想吃烤鸭,但不想排队太长时间”,对方就能立刻推荐“全聚德前门店的外卖烤鸭,虽然比堂食贵20%,但30分钟就能送到你住的酒店,而且味道和堂食差不多”;
- 等级4:动态互操作性(Dynamic Interoperability):两个Agent之间能够实现等级3的语用互操作性,并且能够动态适应对方的变化——比如对方的API版本升级了、功能新增了、能力范围缩小了,另一个Agent不需要任何人工干预或代码修改,就能自动识别这些变化并调整自己的交互方式;
- 等级5:自主互操作性(Autonomous Interoperability):两个或多个Agent之间能够实现等级4的动态互操作性,并且能够自主发现对方、自主协商交互规则、自主组建临时或永久的协作团队、自主分配协作任务、自主解决协作过程中的冲突——这是AI系统互操作性的“终极目标”,也是目前所有Agent协议标准化工作的“长期愿景”。
- Agent协议标准化(Agent Protocol Standardization)
最后,锚定本博客的核心主题概念:Agent协议标准化是指通过制定、推广、实施一套统一的、开放的、可扩展的技术规范(即「Agent协议」),来消除AI孤岛、提升不同Agent之间互操作性等级的过程。
这里有几个关键词需要特别强调:- 统一的:不同组织、不同开发者、不同技术栈、不同架构设计的Agent,都必须遵循这套技术规范;
- 开放的:这套技术规范的制定过程是公开透明的,所有利益相关方(包括企业、高校、科研机构、开源社区、个人开发者、甚至普通用户)都可以参与讨论和贡献;这套技术规范的内容是免费公开的,任何人都可以使用、修改、分发(当然,可能需要遵循特定的开源协议或知识产权协议);
- 可扩展的:这套技术规范不是“一成不变的”,而是可以根据技术的发展、应用场景的变化、用户需求的升级,不断进行更新和完善;
- 过程:Agent协议标准化不是一个“终点”,而是一个“持续迭代的过程”——因为AI技术的发展速度非常快,今天制定的协议可能明天就会过时,所以需要建立一套“持续更新的机制”。
1.2 问题背景
为什么Agent协议标准化会突然成为2024-2025年全球AI领域最热门的话题之一?(注意:这里用了“突然”这个词,但实际上,Agent协议标准化的需求是长期积累的,只是最近几个因素的叠加,让这个需求从“隐性的”变成了“显性的”,从“少数人的需求”变成了“全行业的需求”)。
接下来,我们从技术发展背景、产业需求背景、政策监管背景、用户体验背景四个维度,来系统梳理一下Agent协议标准化的“破局前夜”背景。
1.2.1 技术发展背景:从“弱AI单点突破”到“强AI生态构建”的必然转折
1.2.1.1 前ChatGPT时代:弱AI单点突破,AI孤岛问题虽存在但不突出
在2022年11月ChatGPT发布之前,全球AI领域的发展主要集中在弱AI(Narrow AI,也叫专用人工智能)的单点突破上——比如:
- 在**计算机视觉(CV)**领域,2012年AlexNet在ImageNet图像识别大赛上的突破,开启了深度学习的黄金时代,随后GoogLeNet、VGGNet、ResNet、Transformer-Based CV模型(如ViT、Swin Transformer)等相继出现,图像识别、目标检测、图像分割、人脸识别等技术的准确率已经超过了人类;
- 在**自然语言处理(NLP)**领域,2018年BERT的发布,开启了预训练语言模型(PLM)的时代,随后GPT-1、GPT-2、GPT-3、T5、PaLM等相继出现,文本分类、情感分析、机器翻译、文本摘要等技术的准确率也得到了大幅提升;
- 在**强化学习(RL)**领域,2016年AlphaGo战胜世界围棋冠军李世石,2017年AlphaGo Zero战胜AlphaGo,2019年AlphaStar战胜《星际争霸2》职业选手,2021年AlphaFold2破解了蛋白质折叠问题——这些都是强化学习领域的里程碑式突破。
在这个“弱AI单点突破”的时代,AI系统(包括早期的Agent)主要是作为“独立的工具”存在的——比如企业会单独采购一套图像识别系统来做产品质检,单独采购一套机器翻译系统来做外文文档翻译,单独采购一套高频套利系统来做金融交易;这些系统之间不需要进行任何交互,或者只需要进行非常简单的、预先定制好的交互(比如把图像识别系统的检测结果导出为CSV文件,再导入到MES系统里)。
因此,在这个时代,AI孤岛问题虽然存在,但并不突出——因为当时的AI应用场景主要是“单点的”,不需要不同AI系统之间的深度协同;当时的AI系统主要是“企业级内部使用的”,不需要跨组织、跨生态的交互;当时的AI技术主要是“规则驱动或简单模型驱动的”,交互逻辑相对简单,即使需要定制开发,成本也不会太高。
1.2.1.2 ChatGPT时代:生成式AI爆发,LLM Agent成为主流,AI孤岛问题急剧恶化
2022年11月30日,OpenAI发布了ChatGPT——这是全球第一款面向普通用户的、基于大语言模型的、具备“通用对话能力”的生成式AI应用。ChatGPT的发布,彻底改变了全球AI领域的发展格局:
- 首先,**生成式AI(Generative AI)**从“实验室的黑科技”变成了“人人可用的工具”——截至2024年6月,ChatGPT的月活用户已经超过了15亿,全球范围内也涌现出了数百家生成式AI公司和数百万个生成式AI应用;
- 其次,**大语言模型(LLM)**从“预训练语言模型”的一个分支,变成了“通用人工智能(AGI)的核心基础设施”——几乎所有的主流AI公司(包括OpenAI、Google DeepMind、Meta、Anthropic、百度、阿里、腾讯、字节跳动等)都在投入巨资研发自己的LLM,全球范围内也涌现出了数千个开源或闭源的LLM;
- 最后,LLM Agent从“学术研究的概念”变成了“产业应用的主流”——OpenAI在2023年3月发布了GPT-4和Plugins(插件)功能,Plugins本质上就是“给ChatGPT赋能的、简单的LLM Agent”;随后,全球范围内涌现出了数十个LLM Agent开发框架(如LangChain、AutoGPT、BabyAGI、CrewAI、AutoGen、MetaGPT等)和数百万个LLM Agent应用。
什么是LLM Agent?按照LangChain的定义:LLM Agent是一个“将LLM作为核心推理引擎”的Agent,它能够感知环境(通过读取用户输入、访问互联网、查询数据库、调用其他工具/Agent等方式)、基于感知做出自主决策(通过LLM的推理能力)、并通过行动改变环境或自身状态(通过调用工具/Agent、生成文本/图像/音频/视频等方式)。
LLM Agent的出现,带来了AI应用场景的革命性变化——从“单点的工具应用”变成了“多Agent协同的生态应用”:
- 在消费级应用场景,用户不再需要使用多个独立的APP,而是可以通过一个“通用的LLM Agent助手”,完成订机票、订酒店、叫外卖、买东西、看医生、学习、娱乐等所有日常任务;
- 在企业级应用场景,企业不再需要使用多个独立的AI系统,而是可以通过一个“多Agent协同平台”,让市场调研Agent、产品设计Agent、生产调度Agent、质量检测Agent、客户服务Agent等协同工作,完成从产品研发到售后服务的全流程;
- 在产业级应用场景,不同企业的Agent可以通过一个“跨企业协同平台”,自主组建临时或永久的协作团队,完成供应链协同、智能制造协同、智慧城市协同等复杂的产业级任务。
但是,LLM Agent的爆发,也带来了AI孤岛问题的急剧恶化——因为:
- 首先,LLM Agent的数量呈指数级增长:截至2024年6月,全球范围内已经有超过1000万个LLM Agent应用(这个数据来自LangChain的2024年第二季度开发者调查报告),而且这个数字还在以每周数十万个的速度增长;
- 其次,LLM Agent的技术栈和架构设计五花八门:有的LLM Agent是基于LangChain开发的,有的是基于AutoGPT开发的,有的是基于CrewAI开发的,有的是基于企业内部的定制化框架开发的;有的LLM Agent采用“单Agent循环”架构,有的采用“多Agent分层”架构,有的采用“多Agent去中心化”架构;
- 再次,LLM Agent的交互方式和数据格式没有统一标准:有的LLM Agent通过REST API进行交互,有的通过gRPC进行交互,有的通过WebSocket进行交互,有的通过MQTT进行交互;有的LLM Agent使用JSON格式交换数据,有的使用XML格式交换数据,有的使用Protobuf格式交换数据,有的使用自定义的二进制格式交换数据;
- 最后,LLM Agent的能力范围和意图表达方式没有统一标准:有的LLM Agent只能处理文本,有的可以处理文本、图像、音频、视频(多模态Agent);有的LLM Agent只能调用自己内部的工具,有的可以调用外部的工具/Agent;有的LLM Agent用自然语言表达意图,有的用结构化的JSON Schema表达意图,有的用自定义的意图表达语言。
在这种情况下,不同LLM Agent之间的交互成本极高——要让两个不同技术栈、不同架构设计、不同交互方式、不同数据格式的LLM Agent协同工作,往往需要投入数周甚至数月的定制化开发成本,而且集成后的系统扩展性极差、稳定性极低、安全性也很难保障。
举一个真实的例子:2023年下半年,国内某大型电商公司想打造一个“多Agent协同的智能客服平台”——这个平台需要整合以下几个Agent:
- 用户意图识别Agent:基于公司内部的定制化NLP框架开发,负责识别用户的意图(比如“查询订单状态”“申请退货退款”“投诉商品质量问题”等);
- 订单查询Agent:基于公司内部的ERP系统API开发,负责查询用户的订单状态、物流信息等;
- 退货退款Agent:基于公司内部的CRM系统API开发,负责处理用户的退货退款申请;
- 投诉处理Agent:基于LangChain开发的LLM Agent,负责处理用户的投诉,并生成初步的解决方案;
- 人工客服转接Agent:负责在Agent无法处理用户问题时,将用户转接给人工客服。
为了整合这五个Agent,该电商公司投入了30名资深工程师、耗时3个月、花费近500万元的定制化开发成本——但整合后的系统仍然存在很多问题:
- 首先,扩展性极差:如果以后要新增一个“商品推荐Agent”,又得重新花大价钱定制;
- 其次,稳定性极低:只要其中一个Agent的API版本升级了,整个平台就可能崩溃;
- 最后,效率极低:五个Agent之间的交互是串行的,处理一个用户的投诉平均需要5分钟,而之前使用人工客服只需要2分钟。
这个例子不是个例——根据Gartner的2024年全球AI应用调查报告,87%的企业在尝试构建多Agent协同系统时,都会遇到AI孤岛问题;62%的企业会因为AI孤岛问题而放弃或暂停多Agent协同系统的开发;只有11%的企业能够成功构建稳定、高效、可扩展的多Agent协同系统。
1.2.1.3 后ChatGPT时代:多模态大模型、具身智能、通用人工智能的发展,对Agent互操作性提出了更高的要求
2024年以来,全球AI领域的发展又进入了一个新的阶段——从“LLM Agent的单点爆发”变成了“多模态大模型(MLLM)、具身智能(Embodied AI)、通用人工智能(AGI)的协同发展”:
- 多模态大模型(MLLM):能够同时处理文本、图像、音频、视频、3D点云等多种模态数据的大模型——比如OpenAI的GPT-4o、Google DeepMind的Gemini 1.5 Pro、Meta的Llama 3 Vision、百度的文心一言4.0、阿里的通义千问2.5等;
- 具身智能(Embodied AI):能够在物理世界中感知、决策、行动的AI系统——比如波士顿动力的Atlas机器人、特斯拉的Optimus机器人、小米的CyberDog 2机器人、斯坦福大学的Mobile ALOHA机器人等;
- 通用人工智能(AGI):能够像人类一样,学习、理解、应用任何知识和技能,完成任何智力任务的AI系统——虽然目前AGI还没有实现,但OpenAI、Google DeepMind、Meta、Anthropic等主流AI公司都已经将AGI作为自己的长期目标。
这些新技术的发展,对Agent互操作性提出了更高的、甚至是“革命性的”要求:
- 对于多模态Agent来说,不仅需要交换文本数据,还需要交换图像、音频、视频、3D点云等多模态数据——这就要求Agent协议必须支持多模态数据的传输、压缩、加密、理解;
- 对于具身智能Agent来说,不仅需要交换“数据”和“意图”,还需要交换“物理世界的状态信息”(比如机器人的位置、姿态、速度、电量等)和“物理行动的指令”(比如“向前走10米”“拿起桌子上的杯子”“把杯子放到书架上”等)——这就要求Agent协议必须支持实时性、可靠性、安全性要求极高的物理交互;
- 对于AGI Agent来说,不仅需要实现等级3的语用互操作性,还需要实现等级4的动态互操作性和等级5的自主互操作性——这就要求Agent协议必须支持Agent的自主发现、自主协商、自主组队、自主分配任务、自主解决冲突等功能。
如果说,ChatGPT时代的AI孤岛问题只是“阻碍了多Agent协同系统的发展”,那么,后ChatGPT时代的AI孤岛问题就是“彻底限制了多模态大模型、具身智能、通用人工智能的应用场景和发展潜力”——因为如果不同的AGI Agent之间无法实现自主互操作性,那么AGI就永远只能是“独立的超级工具”,而无法成为“人类的合作伙伴”,无法和人类一起构建“人机协同的未来社会”。
1.2.2 产业需求背景:从“企业内部效率提升”到“跨企业/跨产业生态协同”的必然需求
1.2.2.1 企业内部:多Agent协同系统成为“数字化转型2.0”的核心基础设施
在过去的十年里,全球企业的数字化转型主要集中在**“数字化转型1.0”**上——也就是“把线下的业务流程搬到线上”,通过使用ERP、CRM、MES、SCM等企业级软件系统,提升企业内部的效率。
但是,随着数字化转型1.0的深入推进,越来越多的企业发现:单独使用这些企业级软件系统,已经无法满足企业进一步提升效率的需求——因为这些系统之间也是“数据孤岛”,企业的员工需要在不同的系统之间来回切换,手动复制粘贴数据,这不仅浪费了大量的时间和精力,而且还容易出错。
因此,从2023年开始,全球企业的数字化转型进入了**“数字化转型2.0”**的阶段——也就是“用AI技术重构企业的业务流程”,通过构建“多Agent协同系统”,把企业内部的所有数据孤岛和AI系统整合在一起,实现“端到端的自动化”。
什么是“端到端的自动化”?举一个制造业的例子:
- 传统的制造业业务流程是:市场调研人员手动收集市场数据 → 产品设计人员手动分析市场数据 → 产品设计人员手动设计产品 → 生产调度人员手动根据产品设计和库存情况制定生产计划 → 采购人员手动根据生产计划制定采购计划 → 生产工人手动根据生产计划进行生产 → 质量检测人员手动检测产品质量 → 销售人员手动销售产品 → 客服人员手动处理客户的问题。
- 数字化转型1.0的制造业业务流程是:市场调研人员使用市场调研软件收集市场数据 → 产品设计人员使用CAD软件分析市场数据和设计产品 → 生产调度人员使用MES软件制定生产计划 → 采购人员使用SCM软件制定采购计划 → 生产工人使用自动化设备进行生产 → 质量检测人员使用CV软件检测产品质量 → 销售人员使用CRM软件销售产品 → 客服人员使用客服软件处理客户的问题。
- 数字化转型2.0的制造业业务流程是:市场调研Agent自动收集市场数据 → 产品设计Agent自动分析市场数据和设计产品 → 生产调度Agent自动根据产品设计、库存情况、设备状态制定生产计划 → 采购Agent自动根据生产计划制定采购计划 → 自动化生产设备Agent自动根据生产计划进行生产 → 质量检测Agent自动检测产品质量 → 销售Agent自动销售产品 → 客服Agent自动处理客户的问题 → 所有Agent之间通过统一的协议进行协同,不需要任何人工干预。
从上面的例子可以看出,数字化转型2.0的核心是“多Agent协同系统”——而多Agent协同系统的核心是“Agent协议标准化”——如果没有统一的Agent协议,企业就无法把内部的所有数据孤岛和AI系统整合在一起,无法实现端到端的自动化。
根据McKinsey的2024年全球数字化转型调查报告,92%的全球大型企业(年收入超过10亿美元)已经将“多Agent协同系统”作为数字化转型2.0的核心基础设施;预计到2030年,多Agent协同系统将为全球大型企业带来超过10万亿美元的额外收入;而Agent协议标准化将是实现这一目标的关键因素——如果没有统一的Agent协议,这10万亿美元的额外收入将至少减少60%。
1.2.2.2 跨企业/跨产业:生态协同成为“企业竞争的新维度”
在过去的几十年里,企业之间的竞争主要集中在**“产品竞争”和“技术竞争”**上——谁的产品更好、谁的技术更先进,谁就能在市场上获胜。
但是,随着全球化和数字化的深入推进,越来越多的企业发现:单独依靠自己的产品和技术,已经无法在市场上获胜——因为现在的市场竞争已经从“企业之间的竞争”变成了“生态系统之间的竞争”——谁的生态系统更强大、谁的生态系统里的合作伙伴更多、谁的生态系统里的协同效率更高,谁就能在市场上获胜。
什么是“生态系统之间的竞争”?举一个智能手机的例子:
- 苹果公司之所以能够在智能手机市场上获得如此高的利润(截至2024年第二季度,苹果公司的智能手机利润占全球智能手机市场总利润的85%以上),不仅仅是因为苹果的iPhone产品更好、iOS系统更先进,更重要的是因为苹果拥有全球最强大的智能手机生态系统——App Store里有超过2000万个应用,有超过3000万个开发者,苹果公司、开发者、用户之间形成了一个“良性循环”;
- 而其他智能手机厂商(比如三星、小米、华为等)之所以无法在利润上超过苹果,不仅仅是因为它们的产品和技术不如苹果,更重要的是因为它们的生态系统不如苹果强大——它们的应用商店里的应用数量、开发者数量、用户粘性都不如苹果。
同样,在AI时代,企业之间的竞争也将从“产品竞争”和“技术竞争”变成“Agent生态系统之间的竞争”——谁的Agent生态系统更强大、谁的Agent生态系统里的Agent数量更多、谁的Agent生态系统里的Agent协同效率更高,谁就能在市场上获胜。
但是,要构建一个强大的跨企业/跨产业Agent生态系统,必须要有统一的Agent协议——因为如果没有统一的Agent协议,不同企业的Agent之间就无法进行交互,无法形成协同效应,生态系统也就无法发展壮大。
举一个供应链的例子:
- 传统的供应链是:供应商A → 制造商B → 分销商C → 零售商D → 用户E——每个环节之间的信息传递都是“滞后的”、“不透明的”,每个环节都需要根据自己的预测来制定生产/采购计划,这就导致了“牛鞭效应”(Bullwhip Effect)——用户需求的微小变化,会导致供应链上游环节的生产/采购计划发生巨大的变化,从而造成大量的库存积压或缺货;
- 数字化转型1.0的供应链是:供应商A、制造商B、分销商C、零售商D各自使用自己的SCM软件,通过EDI(电子数据交换)协议交换少量的、预先定制好的数据——信息传递的滞后性和不透明性有所改善,但“牛鞭效应”仍然存在;
- 数字化转型2.0的供应链是:供应商A、制造商B、分销商C、零售商D各自构建自己的Agent生态系统,所有Agent之间通过统一的Agent协议进行实时的、透明的信息传递和协同——供应商A的库存Agent、制造商B的生产调度Agent、分销商C的采购Agent、零售商D的销售Agent、用户E的需求Agent可以自主发现对方、自主协商生产/采购计划、自主解决供应链过程中的冲突,从而彻底消除“牛鞭效应”,实现供应链的“零库存”和“准时制生产(JIT)”。
从上面的例子可以看出,Agent协议标准化是构建跨企业/跨产业Agent生态系统的核心基础设施——如果没有统一的Agent协议,跨企业/跨产业的Agent生态协同就只能是“空中楼阁”。
根据World Economic Forum(世界经济论坛)的2024年全球未来技术报告,预计到2030年,跨企业/跨产业的Agent生态协同将为全球经济带来超过20万亿美元的额外收入;而Agent协议标准化将是实现这一目标的必要条件——如果没有统一的Agent协议,这20万亿美元的额外收入将无法实现。
1.2.3 政策监管背景:全球各国纷纷出台政策,推动AI系统的互操作性和标准化
随着AI技术的快速发展和广泛应用,AI系统的安全性、可靠性、可解释性、公平性、隐私保护等问题越来越受到全球各国政府的关注——而AI系统的互操作性和标准化,正是解决这些问题的重要手段之一。
为什么说Agent协议标准化是解决AI系统安全性、可靠性、可解释性等问题的重要手段?因为:
- 安全性:统一的Agent协议可以规定Agent之间的身份认证、数据加密、访问控制等安全机制,从而防止恶意Agent的攻击,保护用户的数据安全和隐私;
- 可靠性:统一的Agent协议可以规定Agent之间的交互流程、错误处理、故障恢复等机制,从而提高多Agent协同系统的稳定性和可靠性;
- 可解释性:统一的Agent协议可以规定Agent之间的意图表达、决策过程、行动日志等格式,从而提高多Agent协同系统的可解释性——用户可以清楚地知道,Agent为什么做出这样的决策,为什么采取这样的行动;
- 公平性:统一的Agent协议可以规定Agent之间的能力评估、任务分配、资源共享等公平机制,从而防止某些Agent垄断资源或任务,保证多Agent协同系统的公平性;
- 隐私保护:统一的Agent协议可以规定Agent之间的数据最小化使用、数据脱敏、数据删除等隐私保护机制,从而保护用户的数据隐私。
因此,从2023年开始,全球各国政府纷纷出台政策,推动AI系统的互操作性和标准化——下面,我们来看几个主要国家和地区的政策:
1.2.3.1 欧盟:《AI法案》(EU AI Act)明确要求AI系统的互操作性
2024年3月,欧盟议会和欧盟理事会正式通过了**《AI法案》(EU AI Act)**——这是全球第一部专门针对AI系统的综合性法律,将于2026年正式生效。
《AI法案》明确要求:所有高风险AI系统(High-Risk AI Systems)必须具备互操作性——也就是说,高风险AI系统必须能够与其他AI系统(或非AI系统)进行直接、高效、安全的交互,无需预先定制。
什么是高风险AI系统?《AI法案》将高风险AI系统分为以下几类:
- 医疗健康领域的AI系统:比如辅助诊断AI系统、手术机器人AI系统等;
- 交通领域的AI系统:比如自动驾驶汽车AI系统、空中交通管制AI系统等;
- 教育领域的AI系统:比如招生评估AI系统、学习成绩评估AI系统等;
- 就业领域的AI系统:比如招聘筛选AI系统、员工绩效评估AI系统等;
- 金融领域的AI系统:比如信用评估AI系统、高频套利AI系统等;
- 能源领域的AI系统:比如电网调度AI系统、核电站监控AI系统等;
- 公共服务领域的AI系统:比如社会保障申请评估AI系统、移民申请评估AI系统等;
- 执法领域的AI系统:比如人脸识别AI系统、犯罪预测AI系统等。
《AI法案》还明确要求:欧盟委员会将联合欧洲标准化委员会(CEN)和欧洲电工标准化委员会(CENELEC),制定一套统一的、开放的、可扩展的高风险AI系统互操作性标准——这套标准将包括Agent协议标准、数据格式标准、身份认证标准、数据加密标准等。
如果高风险AI系统的开发者或使用者不遵守《AI法案》的互操作性要求,将面临最高可达全球年营业额6%或3000万欧元(取两者中的较高者)的罚款——这是全球范围内最严厉的AI罚款之一。
1.2.3.2 美国:《AI权利法案》(AI Bill of Rights)和《行政命令14110》(Executive Order 14110)推动AI系统的互操作性
虽然美国目前还没有出台专门针对AI系统的综合性法律,但美国政府已经出台了一系列政策,推动AI系统的互操作性和标准化:
- 2022年10月,美国白宫科技政策办公室(OSTP)发布了《AI权利法案》(AI Bill of Rights)蓝图——这是美国政府制定的一套AI系统的伦理准则,其中明确要求:AI系统必须具备“可访问性和互操作性”(Accessibility and Interoperability)——也就是说,AI系统必须能够被不同的用户使用,并且能够与其他AI系统(或非AI系统)进行交互;
- 2023年10月,美国总统拜登签署了《行政命令14110》(Executive Order 14110:Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence)——这是美国政府出台的最全面的AI行政命令,其中明确要求:美国国家标准与技术研究院(NIST)将制定一套统一的、开放的、可扩展的AI系统互操作性标准;美国联邦政府所有机构采购的AI系统必须具备互操作性;美国联邦政府将推动私营部门采用统一的AI系统互操作性标准。
1.2.3.3 中国:《新一代人工智能发展规划》和《生成式人工智能服务管理暂行办法》推动AI系统的互操作性和标准化
中国政府一直非常重视AI技术的发展和标准化——早在2017年,中国国务院就发布了**《新一代人工智能发展规划》**——这是中国政府制定的AI技术发展的顶层设计,其中明确要求:加强人工智能标准体系建设,制定统一的人工智能术语、数据、算法、系统、服务等标准;推动人工智能系统的互操作性,促进人工智能技术的广泛应用。
2023年8月,中国国家互联网信息办公室(CAC)等七部门联合发布了**《生成式人工智能服务管理暂行办法》**——这是中国第一部专门针对生成式AI服务的法规,其中明确要求:鼓励生成式AI服务提供者制定和采用统一的、开放的、可扩展的技术标准;推动生成式AI系统的互操作性,促进生成式AI技术的健康发展。
2024年以来,中国政府更是加快了AI系统互操作性和标准化的步伐:
- 2024年3月,中国国家标准化管理委员会(SAC)发布了《人工智能标准化白皮书(2024版)》——其中明确将“AI系统互操作性标准”作为人工智能标准体系的核心组成部分;
- 2024年5月,中国信息通信研究院(CAICT)联合百度、阿里、腾讯、字节跳动、华为等国内主流AI公司,成立了“中国大模型互操作性联盟”(China Large Model Interoperability Alliance)——该联盟的主要任务是制定统一的大模型和Agent互操作性标准,推动国内大模型和Agent生态系统的发展;
- 2024年6月,中国国家标准化管理委员会(SAC)正式批准立项了《智能体 第1部分:术语》《智能体 第2部分:参考架构》《智能体 第3部分:交互协议》等三项国家标准——这是中国第一批专门针对Agent的国家标准,预计将于2025年正式发布。
1.2.3.4 其他国家和地区:也在纷纷出台政策,推动AI系统的互操作性和标准化
除了欧盟、美国、中国之外,其他国家和地区也在纷纷出台政策,推动AI系统的互操作性和标准化——比如:
- 英国:2024年3月,英国政府发布了《AI法案草案》(Draft AI Bill),其中明确要求高风险AI系统必须具备互操作性;
- 日本:2024年4月,日本政府发布了《AI社会原则实施指南》,其中明确要求推动AI系统的互操作性和标准化;
- 韩国:2024年5月,韩国政府发布了《AI标准化战略(2024-2028)》,其中明确将“AI系统互操作性标准”作为核心战略方向;
- 新加坡:2024年6月,新加坡政府发布了《AI治理框架2.0》,其中明确要求推动AI系统的互操作性和标准化。
全球各国政府纷纷出台政策,推动AI系统的互操作性和标准化——这无疑为Agent协议标准化的发展提供了强大的政策支持,也加速了Agent协议标准化的进程。
1.2.4 用户体验背景:从“工具使用的繁琐”到“一站式服务的需求”的必然转变
最后,我们从用户体验背景的维度,来梳理一下Agent协议标准化的需求——因为无论技术发展有多快、产业需求有多强、政策监管有多严,最终决定一项技术能否成功的,还是用户体验。
1.2.4.1 前ChatGPT时代:用户需要使用多个独立的工具,体验非常繁琐
在ChatGPT发布之前,用户要完成一项日常任务,往往需要使用多个独立的APP——比如:
- 要完成“明天从北京到上海出差,晚上想吃烤鸭”的任务,用户需要:
- 打开携程APP订机票;
- 打开美团APP订酒店;
- 打开高德地图APP查路线;
- 打开大众点评APP找烤鸭店;
- 打开滴滴出行APP订接送机;
- 如果烤鸭店需要排队,还得打开美味不用等APP取号。
- 要完成“周末带孩子去迪士尼乐园玩”的任务,用户需要:
- 打开迪士尼乐园APP买门票;
- 打开携程APP订酒店;
- 打开12306APP订火车票;
- 打开迪士尼乐园APP预约项目;
- 打开美团APP买迪士尼乐园的周边商品。
在这种情况下,用户的体验非常繁琐——用户需要在不同的APP之间来回切换,需要记住每个APP的账号和密码,需要手动复制粘贴数据,这不仅浪费了大量的时间和精力,而且还容易出错。
1.2.4.2 ChatGPT时代:用户可以使用一个“通用的LLM Agent助手”,但体验仍然不够好
ChatGPT发布之后,用户可以使用一个“通用的LLM Agent助手”(比如ChatGPT Plus、Claude 3 Opus、文心一言4.0等)来完成一些日常任务——比如:
- 要完成“明天从北京到上海出差,晚上想吃烤鸭”的任务,用户可以:
- 打开ChatGPT Plus;
- 输入“帮我订一张明天从北京到上海的机票,上午9点左右出发,经济舱,价格在1000元以内;然后订一家上海外滩附近的四星级酒店,价格在500元/晚以内;然后找一家上海外滩附近的、人均消费在200元以内的、不需要排队太长时间的烤鸭店;最后订一辆明天从上海虹桥机场到酒店的接送机。”;
- ChatGPT Plus会调用相应的插件,一个一个串行完成这些任务。
但是,用户的体验仍然不够好——因为:
- 首先,插件之间没有统一的交互协议,ChatGPT Plus只能串行调用插件:处理上面的任务,ChatGPT Plus需要依次调用机票插件、酒店插件、大众点评插件、滴滴出行插件,平均需要10分钟以上才能完成,而如果插件之间可以并行调用,只需要2分钟左右就能完成;
- 其次,插件之间无法共享上下文信息:比如用户在机票插件里输入了自己的身份证号和手机号,在酒店插件里还得重新输入一遍——因为插件之间无法共享这些上下文信息;
- 再次,插件的能力范围有限,而且插件之间的功能重叠严重:比如有的插件可以订机票,有的插件也可以订机票,但它们的价格、航班时间、服务质量都不一样——ChatGPT Plus不知道该选择哪个插件;
- 最后,插件的稳定性和安全性很难保障:有的插件经常会出现故障,有的插件可能会窃取用户的数据——ChatGPT Plus无法识别这些问题。
1.2.4.3 后ChatGPT时代:用户需要一个“能够自主协同多个Agent的一站式服务平台”,体验非常流畅
在后ChatGPT时代,用户需要的不是一个“只能串行调用插件的通用LLM Agent助手”,而是一个“能够自主协同多个Agent的一站式服务平台”——比如:
- 要完成“明天从北京到上海出差,晚上想吃烤鸭”的任务,用户只需要:
- 打开这个一站式服务平台;
- 用自然语言输入“明天从北京到上海出差,晚上想吃烤鸭”;
- 平台会自主发现、自主选择、自主协同机票Agent、酒店Agent、大众点评Agent、滴滴出行Agent,并行完成这些任务,平均只需要1分钟左右就能完成;
- 平台会自动共享用户的身份证号、手机号、偏好等上下文信息,用户不需要重复输入;
- 平台会自动评估每个Agent的能力范围、价格、服务质量、稳定性、安全性,选择最合适的Agent;
- 平台会自动处理Agent之间的冲突,比如如果酒店Agent没有找到符合要求的酒店,平台会自动调整用户的偏好,或者推荐其他的解决方案;
- 平台会自动生成一个“任务执行报告”,用户可以清楚地知道,每个Agent做了什么,为什么这么做,花了多少钱。
在这种情况下,用户的体验非常流畅——用户只需要用自然语言输入自己的需求,剩下的所有事情都由平台自主完成,不需要任何人工干预。
而要构建这样一个“能够自主协同多个Agent的一站式服务平台”,必须要有统一的Agent协议——因为如果没有统一的Agent协议,平台就无法自主发现、自主选择、自主协同不同的Agent,无法共享上下文信息,无法评估Agent的能力范围和性能,无法处理Agent之间的冲突。
1.3 问题描述
通过前面的“问题背景”分析,我们可以清楚地看到:Agent协议标准化是技术发展、产业需求、政策监管、用户体验四个维度共同推动的必然结果——但目前,Agent协议标准化还面临着很多严重的问题,这些问题如果得不到解决,Agent协议标准化就很难实现,AI孤岛问题也很难消除。
接下来,我们从技术问题、产业问题、政策问题、用户问题四个维度,来系统描述一下Agent协议标准化面临的问题。
1.3.1 技术问题:技术栈和架构设计的多样性,导致Agent协议的制定非常困难
1.3.1.1 Agent的技术栈和架构设计五花八门
正如我们在前面的“技术发展背景”中提到的,目前Agent的技术栈和架构设计五花八门:
- 技术栈方面:
- 有的Agent是基于Python开发的(比如LangChain、AutoGPT、CrewAI等开发框架开发的Agent);
- 有的Agent是基于Java开发的(比如企业内部的定制化Agent);
- 有的Agent是基于Go开发的(比如一些高性能的Agent);
- 有的Agent是基于Rust开发的(比如一些对安全性和可靠性要求极高的Agent);
- 甚至有的Agent是基于**C/C++**开发的(比如一些嵌入式物理智能体)。
- 架构设计方面:
- 按照Agent的推理引擎分类:有的Agent是基于LLM的(LLM Agent),有的是基于规则引擎的(规则驱动Agent),有的是基于强化学习的(RL Agent),有的是基于混合引擎的(混合驱动Agent);
- 按照Agent的数量和组织方式分类:有的是单Agent架构,有的是多Agent分层架构(Hierarchical Multi-Agent Architecture),有的是多Agent去中心化架构(Decentralized Multi-Agent Architecture),有的是多Agent混合架构(Hybrid Multi-Agent Architecture);
- 按照Agent的交互方式分类:有的Agent通过REST API进行交互,有的通过**
更多推荐



所有评论(0)