1 简介

在广泛采用AI智能体和具有智能体能力的AI之前,自主智能智能体的发展深深扎根于人工智能的基础范式,特别是多主体系统(MAS)和专家系统,强调社会行动和分布式智能。

Castelfranchi的工作[3] 是对社会行为、结构和心智引入本体论类别的重要基础,他认为社会性是个体行为和认知过程在共享环境中的产物,而目标委托和采纳等概念则构成了合作和组织行为的基础。同样,Ferber [4] 提供了一个关于多智能体系统(MAS)的全面框架,将智能体定义为具有自主性、感知和通信能力的实体,并强调它们在分布式问题解决、集体机器人技术和合成世界模拟中的应用。这些早期的研究奠定了个体社会行为和认知结构对于建模集体现象的基础,为现代人工智能智能体铺平了道路。本文基于这些观点,探讨了社会行为建模如何指导设计能够在动态环境中进行复杂、社会智能互动的人工智能智能体。

这些系统旨在执行具体任务,具有预定义规则,有限的自主性,并对动态环境的适应能力较低。类似智能体的系统主要是反应式或深思熟虑的,依赖符号推理、基于规则的逻辑或脚本行为,而不是现代人工智能智能体的学习驱动、具有上下文感知能力[5],[6]。例如,专家系统使用知识库和推理引擎在医学诊断领域模拟人类决策过程(例如,MYCIN [7])。反应式智能体,如机器人中的智能体,根据硬编码规则执行感知-行动循环,就像早期自动驾驶车辆中的斯坦福小车一样[8]。多智能体系统促进了分布式实体之间的协调,例如供应链管理中基于拍卖的资源分配[9],[10]。视频游戏中的脚本化人工智能,如早期角色扮演游戏中的NPC行为,使用预定义的决策树[11]。此外,BDI(信念-欲望-意图)架构使得软件智能体可以进行目标导向性行为,例如在航空交通管制模拟中的应用[12],[13]。这些早期系统缺乏现代人工智能的生成能力、自学习能力和环境适应能力,现代智能人工智能利用深度学习、强化学习和大规模数据[14]。

最近,公众和学术界对AI智能体和具有智能体性的AI的兴趣反映了系统能力的更广泛过渡。如图1所示,Google Trends数据显示,2022年底出现大规模生成模型后,全球对这两个术语的搜索兴趣显著上升。这种转变与智能体设计的演变密切相关,从2022年前的时代,在那个时期,AI智能体在受限、基于规则的环境中运行,到后ChatGPT时期,以学习驱动、灵活的架构为特征[15]-[17]。这些更新的系统使智能体能够随着时间不断改进他们的性能,并自主地与非结构化、动态输入进行交互[18]-[20]。例如,尽管早期的专家系统需要手动更新静态知识库,但现代智能体利用新兴的神经行为来跨任务进行概括[17]。趋势活动上升反映了对这些差异的日益认识。此外,应用已不再局限于模拟或后勤等狭窄领域,而是扩展到需要实时推理和自适应控制的开放世界环境。如图1所示的动力,突显了最近在扩展自主智能体以进行实际部署方面取得的架构进展的重要性。

在2022年11月发布的ChatGPT标志着人工智能的发展和公众认知的一个关键转折点,引发了全球对采纳、投资和研究活动的激增【21】。在这一突破之后,人工智能领域经历了一次快速转变,从使用独立的LLMs转向更自主、以任务为导向的框架【22】。这种演变经历了两个主要的生成后阶段:AI Agents和Agentic AI。起初,ChatGPT的广泛成功推广了生成型Agents,这些基于LLMs的系统旨在根据用户提示生成文本、图像和代码等新颖输出【23】【24】。这些智能体快速被广泛采用,涵盖了从会话助手(例如GitHub Copilot【25】)和内容生成平台(例如Jasper【26】)到创意工具(例如Midjourney【27】)等各种应用,彻底改变了数字设计、市场营销和软件原型设计等领域在2023年的格局。

**基于这一生成的基础,出现了一类名为AI Agents的新系统。这些智能体通过增强LLMs的功能,包括外部工具使用、函数调用和顺序推理,使它们能够自主检索实时信息并执行多步工作流程。**诸如AutoGPT和BabyAGI(https://github.com/yoheinakajima/babyagi)的框架展示了这一转变,展示了LLMs如何嵌入在反馈循环中,以动态规划、行动和在目标驱动环境中适应。到2023年末,该领域已进一步发展到Agentic AI复杂的多Agent系统领域,其中专门的智能体共同分解目标、沟通和协调朝着共同目标努力。像CrewAI这样的架构展示了这些智能体性框架如何在分布式角色中协调决策,促进高风险应用中的智能行为,包括自主机器人技术、物流管理和自适应决策支持。

随着领域从生成式智能逐渐发展为越来越自主的系统,界定人工智能智能体与智能体式人工智能之间的技术和概念边界变得至关重要。虽然这两种范式都建立在大型LLM模型的基础上,并扩展了生成系统的能力,但它们体现了根本不同的架构、交互模型和自主级别。人工智能智能体通常设计为执行目标导向任务的单一实体系统,通过调用外部工具、应用顺序推理和整合实时信息来完成明确定义的功能。相比之下,**智能体式人工智能系统由多个专门的智能体构成,协调、通信并在更广泛的工作流程中动态分配子任务。**这种架构上的区别构成了在可伸缩性、适应性和应用范围方面的深刻差异。

**理解和形式化这两种范式之间的分类(AI智能体和智能体式AI)在科学上具有重要意义。**首先,通过将计算框架与问题复杂性对齐,可以更精确地设计系统,确保AI智能体用于模块化、工具辅助任务,而智能体式AI则用于编排多智能体操作。此外,这种分类还允许进行适当的基准测试和评估:性能指标、安全协议和资源需求在单个任务智能体和分布式智能体系统之间有明显差异。此外,清晰的分类可通过防止在为单个智能体执行而构建的系统中误应用设计原则(如假设智能体之间的协作)来减少开发低效率。缺乏这种明确性,从业者面临着既可能在需要智能体协调的复杂情景中设计不足,也可能在简单应用中进行过度工程化的风险,而这些应用本可以通过单个AI智能体解决。

**人工智能领域取得了显著进展,特别是在AI智能体和主动型AI的发展方面。**这些术语虽然相关,但指代不同的概念,具有不同的能力和应用。本文旨在澄清AI智能体和主动型AI之间的区别,为研究人员提供这些技术的基础理解。这项研究的目标是规范这些区别,建立共享词汇,并提供AI智能体和主动型AI之间的结构化分类,以指导学术和工业领域下一代智能智能体设计,如图2所示。

**这篇评论提供了对传统人工智能智能体到新兴智能体人工智能系统演变的全面概念和架构分析。**我们不是围绕正式研究问题组织研究,而是采用了一个顺序、分层的结构,这个结构反映了这些范式的历史和技术演变。我们首先通过详细描述我们的搜索策略和选择标准,建立起对人工智能智能体的基本理解,分析它们的定义属性,比如自治性、反应性和基于工具的执行方式。接着,我们探讨了基础模型,特别是LLMs和大型图像模型(LIMs)的关键作用,它们作为驱动智能体行为的核心推理和感知基础。随后。

在这里插入图片描述

图2:与人工智能智能体和自主人工智能相关的研究问题思维导图。每个颜色编码的分支代表比较的关键维度:架构、机制、范围**/**复杂性、互动和自治性。

这些部分探讨了生成式人工智能系统如何作为更具动态、互动性的智能体的前身,为Agent AI的出现奠定了基础。通过这个视角,我们追溯了从孤立、单一智能体系统到协调多智能体体系的概念性飞跃,突出它们的结构差异、协调策略和协作机制。我们进一步通过剖析AI智能体和Agent AI的核心系统组件来描绘架构演变,提供了关于规划、记忆、协调和执行层面的比较洞见。基于这一基础,我们审查了跨客户支持、医疗保健、研究自动化和机器人技术的应用领域,通过系统能力和协调复杂性对实际部署进行分类。然后我们评估了两种范式面临的关键挑战,包括幻觉、有限推理深度、因果关系缺陷、可扩展性问题和治理风险。为了解决这些限制,我们概述了一些新兴解决方案,比如检索增强生成、基于工具的推理、记忆架构和基于仿真的规划。该审查总结了一个前瞻性路线图,展望了模块化AI智能体和协调的Agent AI在关键任务领域的融合。总的来说,本文旨在为研究人员提供一个结构化的分类法和可操作的见解,以指导下一代Agent系统的设计、部署和评估。

2 方法论概述

本综述采用了一种结构化的、多阶段的方法论,旨在捕捉从人类反馈中微调和强化学习(RLHF)中演变、架构、应用,实现自然语言交互、规划和有限决策能力。我们还指出了它们的局限性,如幻觉、静态知识和缺乏因果推理。

基于这些基础,审查继续进行到自主人工智能的出现,这代表了一个重大的概念性飞跃。在这里,我们强调了从工具增强的单一智能体系统到协作的、分布式的相互作用智能体生态系统的转变。这种转变是由对能够分解目标、分配子任务、协调输出和动态适应不断变化的背景的系统的需求驱动,这些能力超过了孤立的AI智能体所能提供的。

下一部分探讨了从AI Agent到主动型AI系统的架构演变,对比了简单的模块化智能体设计与复杂的编排框架。我们描述了诸如**持久记忆、元智能体协调、多智能体规划循环(例如ReActChain-of-Thought提示)以及语义通信协议等的增强功能。**比较架构分析支持来自平台如AutoGPT、CrewAI和LangGraph的例子。

在进行架构探索之后,审查提供了对****AI 智能体和智能体****AI 部署的应用领域进行深入分析。 这包括每种范式的六个关键应用领域,从知识检索、电子邮件自动化和报告摘要化的AI 智能体,到研究助理、机器人群和战略业务规划的智能体AI。 在系统复杂性、实时决策和协同任务执行的背景下讨论使用案例。

在这里插入图片描述

Fig. 3:从基本的AI 智能体到主体AI 系统,应用,局限性和解决方案的方法论流程

随后,我们探讨了AI 智能体和自主AI 两种范式固有的挑战和局限性。对于AI 智能体,我们关注问题如幻觉、提示脆弱性、有限规划能力和缺乏因果理解。对于自主AI,我们确定了策略。

高阶挑战,如智能体间不一致、错误传播、新兴行为的不可预测性、解释性不足和对抗性脆弱性。这些问题通过引用最近的实验研究和技术报告进行了批判性检查。

最后,这篇评论概述了克服这些挑战的潜在解决方案,借鉴了因果建模、检索增强生成(RAG)、多智能体记忆框架和稳健评估流程等最新进展。这些战略被讨论,不仅作为技术修复,而且作为将智能体系统扩展至医疗保健、金融和自主机器人等高风险领域的基础要求。

综合考虑,这种方法论框架可实现对AI智能体和智能体性人工智能状态的全面系统评估。通过在基础理解、模型集成、架构增长、应用和局限性等方面对分析进行排序,本研究旨在为研究者和从业者提供理论上的清晰性和实践指导,以应对这一快速发展的领域。

**1)****搜索策略:**为了构建这篇综述,我们实施了一种混合搜索方法,结合了传统的学术知识库和AI增强的文献发现工具。具体而言,对十二个平台进行了查询:包括Google Scholar、IEEE Xplore、ACM Digital Library、Scopus、Web of Science、ScienceDirect 和arXiv 等学术数据库;以及包括ChatGPT、Perplexity.ai、DeepSeek、Hugging Face Search 和Grok 在内的AI驱动界面。搜索查询包含了诸如“AI Agents”、“Agentic AI”、“LLM Agents”、“Tool-augmented LLMs” 和“Multi-Agent AI Systems”等术语的布尔组合。

针对“自主AI+协调+规划”和“AI智能体+工具使用+推理”等针对性查询被用来检索处理既涉及概念基础又涉及系统级实现的论文。文献的纳入是基于新颖性、实证评估、架构贡献和引用影响等标准。通过使用Google趋势数据在图1中展示的对这些技术日益增长的全球兴趣强调了合成这一新兴知识领域的紧迫性。

3 AI****智能体的基础理解

AI智能体是一种在受限数字环境内进行目标导向任务执行的自主软件实体[14],[39]。这些智能体通过其感知结构化或非结构化输入的能力[40],对上下文信息进行推理[41],[42],并采取行动以实现特定目标,通常作为人类用户或子系统的替代者[43]。与遵循确定性工作流程的传统自动化脚本不同,AI智能体展现出反应智能和有限的适应性,使它们能够解释动态输入并相应地重新配置输出[44]。据报道,它们已被广泛应用于各种应用领域,包括客户服务自动化[45],[46],个人生产力辅助[47],内部信息检索[48],[49]和决策支持系统[50],[51]。

  1. AI智能体的核心特征概述:AI智能体广泛被概念化为人工智能的实例化操作化身,旨在与用户、软件生态系统或数字基础设施进行接口交互,追求目标导向行为[52]–[54]。这些智能体通过展示结构化初始化、有限自治和持续的任务取向,与通用的LLMs区分开来。虽然LLMs主要作为反应性的提示跟随者[55],AI智能体在明确定义的范围内运行,动态地与输入进行交互,并在实时环境中产生可操作的输出[56]。

图4:AI智能体的核心特征,**自主性、任务特异性和反应性,**通过智能体设计和操作行为的符号表示加以说明。

在这里插入图片描述

图4展示了跨架构分类和AI智能体的实证部署中经常出现的三个基本特征。这些特征包括自治性、任务特定性和具有适应性的响应。首先,自治性表示智能体在部署后能够独立行动,最大程度减少对人的依赖,并实现大规模、无人值守的运作。其次,任务特定性包含了设计理念,即AI智能体专门针对狭窄范围的任务进行优化,如调度、查询或筛选等。第三,响应性指的是智能体对其环境变化做出响应的能力,包括用户命令、软件状态或API响应;当与适应性相结合时,这还包括反馈循环和基本学习启发式。

这三种特征共同为我们提供了理解和评估不同部署场景下的人工智能智能体的基础概况。本节的其余部分详细阐述了每个特征,提供了理论基础和示例。

**自主性:**AI智能体的一个核心特点是它们在部署后可以在最小或没有人类干预的情况下运作。一旦初始化,这些智能体可以感知环境输入,推理上下文数据,并在实时执行预定义或自适应动作。自主性使得在不需要持续监督的应用中实现可扩展的部署成为可能,比如客户支持机器人或日程助手。

**任务特定性:**AI智能体人是专为狭窄、明确定义的任务而设计的[58],[59]。它们被优化以在固定领域内执行可重复操作,例如电子邮件过滤[62],[63],数据库查询[64]或日历协调[38],[65]。这种任务专业化可以实现高效、易解释和高精度。

在不需要或效率低下的自动化任务中的通用推理。

**1.**反应性和适应性:AI智能体通常包括与动态输入进行交互的基本机制,使它们能够响应实时刺激,如用户请求、外部API调用或软件环境中的状态变化。一些系统通过反馈循环、启发式或更新的上下文缓冲区来集成基础学习,以随着时间的推移调整行为,特别是在个性化推荐或对话流管理等环境中。这些核心特征共同使得AI智能体能够作为预训练AI模型和特定领域实用管道之间的模块化、轻量级接口。它们的架构简单性和运行效率使其成为企业、消费者和工业环境中可扩展自动化的关键推动者。虽然与更通用的AI系统相比,其推理深度有限,但在受限任务范围内的高可用性和性能使其成为当代智能系统设计中的基础组件。

**2)**基础模型:LLMs和LIMs的作用:AI智能体程序的基础进展得到了LLMs和LIMs的发展和部署的显著加速,它们在当代智能体系统中作为核心推理和感知引擎。这些模型使得AI智能体程序能够智能地与其环境交互,理解多模态输入,并执行超出硬编码自动化的复杂推理任务。

LLM(Large Language Models)如GPT-4 [73]和PaLM [74]是在大量来自书籍、网络内容和对话语料库的文本数据集上进行训练的。这些模型展现出自然语言理解、问答、摘要、对话连贯性,甚至符号推理等新兴能力。在AI智能体架构中,LLMs充当主要的决策引擎,使智能体能够解析用户查询、规划多步解决方案,并生成自然的回应。例如,由GPT-4驱动的AI客服智能体可以解释客户投诉,通过工具集成查询后端系统,并以情境适当和具有情感意识的方式做出回应。

大型图像模型(LIMs)如CLIP [78]和BLIP2 [79]将智能体人的能力扩展到视觉领域。通过对图像-文本对进行训练,LIMs使感知为基础的任务包括图像分类、目标检测和视觉语言对齐成为可能。这些能力对于在领域中运行的智能体人日益重要,例如机器人技术[80]、自动驾驶车辆[81]、[82]和视觉内容审核[83]、[84]。

**例如,在自主飞行的无人机智能体商负责检查果园的情况,通过解释实时航空影像并触发预定义的干预协议,生产线管理系统可以识别患病的水果或受损的树枝。**一旦发现,系统将自主触发预定义的干预协议,例如通知园艺专家。

在这里插入图片描述

图5:AI智能无人机自主检查果园,利用视觉模型识别病果和受损树枝,并触发针对性园艺干预的实时警报。

工作人员或在不需要人为干预的情况下标记目标治疗位置[17],[57]。这种工作流展示了农业环境中人工智能智能体的自主性和反应性,近期文献强调了这种基于无人机的人工智能智能体日益复杂的发展趋势。Chitra等人[85]提供了对嵌入式智能体基础算法的综合概述,重点介绍了计算机视觉、SLAM、强化学习和传感器融合的整合。这些组件共同支持动态环境中的实时感知和自适应导航。Kourav等人[86]进一步强调了自然语言处理和大型语言模型在从人类提出的查询中生成无人机行动计划方面的作用,展示了LLM如何支持自然交互和任务规划。类似地,Natarajan等人[87]探讨了深度学习和强化学习在空中机器人领域的场景理解、空间映射和多智能体协调中的应用。这些研究集中在人工智能驱动的自主性、感知和决策在推动基于无人机的智能体方面的关键重要性。

重要的是,LLMs和LIMs通常通过由云平台提供的推理API进行访问,例如OpenAI https://openai.com/、HuggingFace https://huggingface.co/以及Google Gemini https://gemini.google.com/app。这些服务将模型训练和微调的复杂性抽象化,使开发人员能够快速构建和部署配备最先进推理和感知能力的智能体。这种可组合性加速了原型设计,并允许智能体框架如LangChain [88]和AutoGen [89]在任务工作流中编排LLM和LIM的输出。简而言之,基础模型赋予现代AI智能体对语言和视觉的基本理解。语言模型帮助它们用文字推理,图像模型帮助它们理解图片─它们一起共同努力,让AI在复杂情况下做出明智决策。

**3)****生成式人工智能作为前置条件:**文献中一贯的主题是将生成式人工智能定位为具有智能体智能基础的先驱。这些系统主要运行在预训练的LLM和LIM上,这些模型经过优化,能够基于输入提示合成新颖内容的文本、图像、音频或代码。生成模型基本上表现出反应性行为:只有在明确提示时才会产生输出,并且不会自主追求目标或进行自发推理。生成式人工智能的关键特征:

1.响应性: 作为非自主系统,生成模型完全由输入驱动。它们的操作由用户指定的提示触发,缺乏内部状态、持久性记忆或目标跟随机制。

2.多模能力:现代生成系统能够产生多样化的输出,包括连贯的叙述、可执行的代码、逼真的图像,甚至是语音转录。例如,像GPT-4 [73]、PaLM-E [97]和BLIP-2 [79]这样的模型展示了这一能力,实现了语言到图像、图像到文本以及跨模态综合任务。

触发依赖和无状态性:生成系统是无状态的,除非明确提供,它们在互动中不保留上下文[98],[99]。它们的设计缺乏内在的反馈回路[100],状态管理[101],[102],或多步规划,这是自主决策和迭代目标细化的要求[103],[104]。

尽管这些系统具有显著的生成准确性,但它们受限于无法独立作用于环境或操纵数字工具。例如,它们无法在没有人类设计的包装器或支架层的情况下搜索互联网,解析实时数据,或与API进行交互。因此,它们不能被分类为真正的AI智能体,其架构在封闭反馈循环内集成了感知、决策和外部工具使用。

生成式人工智能在处理动态任务、保持状态连续性或执行多步计划方面的局限性导致了工具增强系统的发展,通常称为AI智能体[105]。这些系统建立在LLM的语言处理基础之上,但引入了额外的基础设施,如内存缓冲区、工具调用API、推理链和计划例程,以弥合passiv回应生成和主动任务完成之间的差距。这种架构演变标志着AI系统设计的关键转变: 从内容创作到自主效用[106],[107]。从生成式系统到AI智能体的轨迹凸显了功能的渐进分层,最终支持智能体行为的出现。

4 语言模型作为AI智能体进步的引擎

人工智能智能体的出现作为人工智能中变革性范式,与大规模语言模型如GPT-3 [108]、Llama [109]、T5 [110]、Baichuan 2 [111]和GPT3mix [112]的演化和重塑密切相关。大量不断增长的研究证实,从反应式生成模型转向自主、目标驱动的智能体的飞跃,是由于LLMs作为核心推理引擎整合到动态智能体系统中所驱动。这些最初用于自然语言处理任务的模型,正被越来越多地嵌入到需要适应性规划[113]、实时决策制定[115]、[116]和环境感知行为[117]的框架中。

**1.LLM作为核心推理组件:**LLM,如GPT-4 [73],PaLM [74],Claude和LLaMA [109]等,通过使用自监督目标预训练在大规模文本语料库上,并利用监督微调(SFT)和来自人类反馈的强化学习(RLHF)等技术进行精调。这些模型编码丰富的统计和语义知识,使它们能够执行推理、摘要、代码生成和对话管理等任务。然而,在主体性上下文中,它们的能力被重新用于不仅仅生成响应,还用作解释用户目标、生成行动计划、选择工具和管理多轮工作流程的认知基底。最近的研究将这些模型确定为当代主动系统架构的核心。例如,AutoGPT [30] 和BabyAGI https://github.com/yoheinakajima/babyagi 使用GPT-4 作为规划者和执行者:该模型分析高层目标,将其分解为可行的子任务,根据需要调用外部API,并监控进展以确定后续行动。在这种系统中,LLM 在提示处理、状态更新和基于反馈的纠正循环中运作,密切模拟自主决策过程。

2.工具增强的AI****智能体:增强功能:为了克服仅生成的系统固有的局限,比如幻觉、静态知识截止和受限交互范围,研究人员提出了工具增强的LLM智能体的概念[120],如Easytool [121],Gentopia [122]和ToolFive [123]。这些系统将外部工具、API和计算平台集成到智能体的推理管道中,允许实时信息访问、代码执行以及与动态数据环境的互动。工具调用。当智能体识别到无法通过其内部知识解决的需求,比如查询当前股价、获取最新的天气信息或执行脚本时,它会生成一个结构化的函数调用或API请求[124],[125]。这些调用通常以JSON、SQL或Python格式进行格式化,取决于目标服务,并通过一个执行任务的编排层进行路由。结果集成。一旦从工具中收到响应,输出将被解析并重新整合到LLM的上下文窗口中。这使得智能体能够合成新的推理路径,更新其任务状态,并决定下一步的操作。ReAct框架[126]通过将推理(思维链提示)和行动(工具使用)相结合的方式,示例了这种架构,LLM在内部认知和外部环境交互之间交替。

3.工具增强型LLM智能体已经在各种应用领域展示了其能力。在AutoGPT中,智能体可以通过顺序查询网络、整理竞争对手数据、总结见解并生成报告来规划产品市场分析。在编码环境中,像GPTEngineer这样的工具结合了LLM驱动的设计和本地代码执行环境,以迭代方式开发软件工件。在研究领域,像Paper-QA这样的系统利用LLMs来查询向量化的学术数据库,将答案基于检索的科学文献,以确保事实的完整性。

这些能力为AI智能体的行为开辟了更加强大的路径,例如长期规划、跨工具协调和自适应学习循环。然而,工具的引入也带来了编排复杂性、错误传播和上下文窗口限制等新挑战,这些都是当前研究的活跃领域。朝向AI智能体的进展与LLMs作为推理引擎的战略集成以及它们通过结构化工具使用的增强密不可分。这种协同作用将静态语言模型转变为动态认知实体,能够感知、规划、行动和适应,从而为多智能体协作、持久记忆和可扩展自治性奠定基础。

图6展示了一个典型案例:一个执行实时网络搜索、总结检索文档并生成连贯、具有上下文意识的答案的新闻查询智能体。这样的工作流程已经通过使用LangChain、AutoGPT和OpenAI函数调用范式进行实现展示。

在这里插入图片描述

图6:人工智能智能体执行实时新闻搜索、摘要生成和答案生成的工作流程,如文献中通常描述的(例如,作者,年份)。

从AI智能体基础到具有主动性的AI的出现。

虽然AI智能体代表了人工智能能力的重大飞跃,特别是在通过工具增强推理来自动化狭窄任务方面,最近的文献确定了一些显着限制,限制了它们在复杂、多步骤或合作场景中的可扩展性[130]–[132]。这些限制促进了更先进范式的发展:Agent型AI。这一新兴类别的系统通过结构化通信[133]–[135]、共享内存[136], [137]和动态角色分配[14],扩展了传统智能体的能力,使多个智能实体能够协作追求目标。

**概念性飞跃:**从孤立任务到协调系统:AI智能体,正如之前部分所探讨的,将LLM与外部工具和API集成,执行范围狭窄的操作,比如回复客户查询、执行文件检索或管理日程安排。然而,随着使用案例对上下文保留、任务相互依存和在动态环境下的适应性的需求逐渐增加,单一智能体模型显然不足够。

主动型人工智能系统代表了一类新兴的智能架构,其中多个专门化智能体协作以实现复杂的高层目标。根据最近的框架定义,这些系统由模块化智能体组成,每个智能体负责广泛目标的一个独特子组件,并通过集中式编排器或分散式协议进行协调。这种结构标志着从单一智能体架构中通常观察到的原子、反应式行为的概念性偏离,转向一种以动态智能体协作为特征的系统级智能形式。

这一范式的关键支持者是目标分解,即用户指定的目标会被规划智能体自动解析并划分为更小、可管理的任务[38]。然后,这些子任务会分布在智能体网络中。多步推理和规划机制促进这些子任务的动态排序,使系统能够实时适应环境变化或部分任务失败。这确保了即使在不确定性下,任务执行也很稳健[14]。

**智能体之间的通信是通过分布式通信渠道进行中介的,例如异步消息队列、共享内存缓冲区或中间输出交换,使协调成为可能,而无需持续的中央监督。**反思性推理和记忆系统允许智能体在多次交互中存储上下文,并评估过去的决策,并迭代地完善其策略。总的来说,这些能力使得智能体AI系统能够展现出超越个体智能体操作极限的灵活、适应和协作的智能。

文献中普遍接受的概念插图描绘了AI智能体和智能体AI之间的区别,通过智能家居系统的类比。如图7所示,左侧代表着传统的AI智能体,采用智能恒温器的形式。这种独立的智能体接收用户定义的温度设定,并自主控制加热或制冷系统以保持目标温度。虽然它表现出有限的自主性,比如学习用户的时间表或在用户不在家时减少能源使用,但它是孤立操作的,执行一个单一、明确定义的任务,而不参与更广泛的环境协调或目标推断。[17],[57]。

相比之下,**图7右侧展示了嵌入到综合智能家居生态系统中的Agency AI系统。**在这里,多个专门的智能体相互协同作用,以管理诸如天气预报、日程安排、能源定价优化、安全监控和备用电源激活等多方面。这些智能体不仅仅是被动模块;它们动态通信,共享内存状态,并协作地将行动对准高级系统目标(例如,实时优化舒适度、安全性和能源效率)。例如,一个天气预报智能体可能会提示即将到来的热浪,促使通过太阳能提前制冷,避开高峰定价时间,由能源管理智能体协调。同时,系统可能会延迟高能耗任务或在居民离开时激活监控系统,整合跨领域的决策。这一图表体现了从特定任务自动化到自适应、协同智能的架构和功能性飞跃。AI智能体充当有限范围的确定性组件,而Agency AI体现了分布式智能,其特征包括目标分解、智能体间通信和情境适应,这是现代智能智能体AI框架的标志特征。

  1. AI智能体和智能体型AI之间的关键区别:为了系统地捕捉从生成式AI到AI智能体再到智能体型AI的演变,我们围绕一个基础分类法来构建我们的比较分析,其中生成式AI作为基线。虽然AI智能体和智能体型AI代表着越来越自主和互动的系统,但这两种范式基本上是基于生成式架构,尤其是LLMs和LIMs。因此,在本小节中的每个比较表中都包括生成式AI作为一个参考列,以凸显智能体行为如何不同并建立在生成式基础之上。

AI智能体和具有智能体能力的人工智能之间一系列基本区别,特别涉及范围、自主性、架构构成、协调策略和操作复杂性,总结在表I中,通过对AutoGen [89]和ChatDev [142]等著名框架进行深入分析得出。这些比较提供了单一智能体系统如何转变为协调的多智能体生态系统的多维视角。通过生成能力的视角,我们追踪了规划、通信和适应性的增长复杂性,这些特点标志着向具有智能体能力的人工智能的转变。

在这里插入图片描述

图7:AI智能体与智能体性AI的比较图示,综合文献中发现的概念区别(例如,作者,年份)。左:单任务AI智能体。右:多智能体,协作的智能体性AI系统。

**Table I详细说明了AI智能体和智能体AI****之间的基本和操作上的区别,但需要更精细的分类来理解这些范式是如何从更广泛的生成框架中产生并相关联的。**具体来说,从静态生成AI系统到工具增强的AI智能体,再到协作的智能体AI生态系统的概念和认知进展,需要一个综合的比较框架。这种过渡不仅仅是结构上的,还包括启动机制、记忆使用、学习能力和编排策略在智能体光谱上如何发展。此外,最近的研究表明出现了混合范式,如“生成智能体”,将生成建模与模块化任务专业化相结合,进一步复杂了智能体的格局。为了捕捉这些微妙的关系,Table II综合了四种原型跨越关键概念和认知维度:生成AI、AI智能体、智能体AI和推断生成智能体。通过将生成AI定位为基准技术,这种分类突出了从被动内容生成到交互式任务执行,最终到自治的、多智能体编排的科学连续体。这种多层次的视角对于理解应用和理论领域中智能体智能的当前能力和未来轨迹至关重要。

为了进一步操作化表格I中概述的区别,表格IIIII将比较的视角扩展到包括AI智能体、主动AI和新兴生成智能体在内的更广泛的智能体范式。表格III呈现了关键的架构和行为属性,突出了每种范式在主要功能、规划范围、交互风格、学习动态和评估标准方面的差异。AI智能体针对离散任务执行进行了优化,其规划范围有限,并依赖监督或基于规则的学习机制。相反,主动AI系统通过多步规划、元学习和智能体间通信扩展了这一能力,使其适用于需要自主设定目标和协调的复杂环境。生成智能体作为一个较新的构建,继承了LLM中心的预训练能力,在创造性地生成多模态内容方面表现出色,但缺乏主动编排和主动行为的能力,这些能力在主动AI系统中有所体现。

第二张表(表III)提供了三种智能体类别的过程驱动比较:生成式人工智能、AI智能体和主体化人工智能。这种框架强调了功能管道是如何从生成式人工智能中的提示驱动单一模型推断逐渐演变为AI智能体中的工具增强执行,最终到主体化人工智能中的协同智能体网络。结构列强调了这种进展:从单个LLM到集成工具链,最终到分布式多智能体系统。对外部数据的访问,对于实际应用的重要操作要求,也随之增加。表格I:AI智能体与主体化人工智能的关键差异。

在这里插入图片描述

在这里插入图片描述

**深度学习领域的发展从生成式人工智能中的缺失或可选性到主动式人工智能中的模块化和协调有所提升。**总的来说,这些比较观点强调了从生成式到主动式范式的演变不仅表现为系统复杂度的增加,同时也涉及了跨多个抽象层次的自主性、记忆和决策能力的深度整合。

此外,为了提供对不断演变的主动地景观更深入的多维理解,表格五至表格九将比较性分类法延伸,以解剖五个关键维度:核心功能和目标对齐、架构组成、操作机制、范围和复杂性以及互动自治动态。这些维度不仅有助于强调生成型人工智能、AI智能体和主动型人工智能之间的结构差异,还引入了一个新的类别——生成型智能体,代表了专为嵌入更广泛工作流程中的子任务级生成而设计的模块化智能体。表格五将这三种范式置于其总体目标和功能意图的背景下。生成型人工智能专注于通过提示驱动的内容生成,AI智能体强调基于工具的任务执行,而主动型人工智能系统则编排完整的工作流程。这种功能扩展在表格六的体系结构上得到体现,其中系统设计从单一模型依赖(在生成型人工智能中)过渡到主动型人工智能中的多智能体编排和共享内存利用。表格七随后概述了这些范式在其工作流执行路径上的区别,突出了互智能体协调和分层沟通的崛起作为主动行为的关键驱动因素。

此外,表VIII探讨了这些系统处理的范围日益扩大和操作复杂度,范围从孤立内容生成到动态环境中的自适应、多智能体协作。最后,表IX综合了在不同范式中的自主性、交互风格和决策粒度的变化程度。这些表共同建立了一个严格的框架,用于分类和分析基于智能体的人工智能系统,为该等系统在规模上进行原则性评估和未来设计的打下基础。

从表V到表IX呈现的每个比较表都提供了分层分析的视角,以隔离生成式人工智能、AI智能体和智能体式人工智能的区别属性,从而将概念分类系统基于具体操作和架构特征。例如,表V涉及区分的最基本层面:核心功能和系统目标。生成式人工智能专注于根据用户提示产生反应式内容,而AI智能体则以使用外部工具执行有目标的任务为特征。相比之下,智能体式人工智能通过协调多个处理更广泛工作流程各部分的子智能体的能力来定义其追求高级目标的能力。从输出生成功能向工作流执行转变标志着自主系统演进的重要转折点。

在表VI中,尤其是在系统构成和控制逻辑方面,明确了架构上的区别。生成式人工智能依赖单一模型,没有内置的工具使用或委派能力,而智能体结合语言模型与辅助API和接口机制,以增强功能性。主动型人工智能进一步引入多智能体系统,其中协作、记忆持久性和编排协议是系统运作的核心。这种扩展对于实现智能委派、上下文保存和动态角色分配能力至关重要,这些能力在生成式和单一智能体系统中均不存在。同样,在表VII中更深入地探讨了这些系统的运行方式,强调了执行逻辑和信息流的差异。与生成式人工智能的线性流程(提示→输出)不同,智能体实施程序化机制,以在执行过程中包含工具响应。主动型人工智能引入了递归任务重新分配和跨智能体消息传递,从而促进了无法仅通过静态LLM输出捕捉到的新兴决策制定。表VIII进一步加强了这些区别,映射了每个系统处理任务多样性、时间尺度和运行稳健性的能力。在这里,主动型人工智能展现出独特的能力,支持需要适应性、多阶段推理和执行策略的高复杂性目标。

此外,表IX清楚地展示了生成式人工智能(Generative AI)、AI智能体(AI Agents)和Agent AI在操作和行为上的区别,特别关注自主级别、交互风格和agent之间的协调。生成式人工智能系统,如GPT-3和DALL·E,仅仅是在响应提示时生成内容,而不保持持久状态或从事迭代推理。相比之下,像LangChain或MetaGPT构建的AI智能体表现出更高程度的自主性,能够启动外部工具调用并在有界任务内调整行为。然而,

表II: AI Agent范例的分类总结:概念和认知维度

在这里插入图片描述

表格III:AI智能体的关键属性、智能体性AI和生成式智能体。

在这里插入图片描述

TABLE IV: Generative AI、AI Agents和Agentic AI的比较。

他们的自主性通常仅限于孤立的任务执行,缺乏长期状态的连续性或协作交互。

机动型人工智能系统通过引入内部编排机制和多智能体协作框架,与这些范例有明显不同。例如,像AutoGen [89]和ChatDev [142]这样的平台通过任务分解、角色分配和递归反馈循环展示机动型协调。在AutoGen中,一个智能体可能充当规划者,另一个检索信息,第三个合成报告,它们通过共享内存缓冲区进行通信,由一个编排智能体监控依赖关系和整体任务进展。这种结构化的协调允许在动态环境中进行更复杂的目标追求和灵活行为。这种架构从根本上将智能的焦点从单一模型输出转变为新兴的系统级行为,在这种行为中,智能体根据不断演变的任务状态进行学习、协商和更新决策。因此,比较分类不仅突出了运行独立性水平的增加,还说明了机动型人工智能如何引入了通信、内存整合和分散控制的新范式,为具有可扩展、自适应智能的下一代自主系统铺平道路。

*架构演变:从AI智能体到智能体性AI系统*

尽管AI智能体和有为AI系统都基于模块化设计原则,但有为AI显着扩展了基础架构,以支持更复杂、分布式和自适应行为。如图8所示,这种过渡始于定义传统AI智能体的核心子系统感知、推理和行动。有为AI通过集成高级组件,如专门智能体、高级推理与规划、持久内存和编排,增强了这一基础。该图进一步强调出现的能力,包括多智能体协作、系统协调、共享上下文和任务分解,所有这些都封装在表示向反思、去中心化和目标驱动系统架构转变的虚线边界内。这一进展标志着智能智能体设计的根本转折点。本节综合了LangChain、AutoGPT和TaskMatrix等实证框架的研究结果,突出了架构复杂性的这种进展。

核心AI智能体的基本架构组件:基础AI智能体通常由四个主要子系统组成:感知、推理、行动和学习。

表V: 核心功能和目标比较

在这里插入图片描述

在这里插入图片描述

**图8:展示了从传统人工智能智能体到现代智能体人工智能系统的架构演变。它始于核心模块感知、推理和行动,并扩展到包括专门智能体、高级推理与规划、持久记忆和编排等先进组件。**该图进一步捕捉到诸如多智能体协作、系统协调、共享上下文和任务分解等新兴属性,这些属性都包含在点线边界内,表示分层模块化和过渡到分布式、适应性智能体人工智能智能。

子系统形成一个闭环运营循环,从用户界面的角度通常被称为“理解、思考、行动”,而在系统设计文献中则称为“输入、处理、行动、学习”。

**1.****感知模块:**这个子系统摄取用户(例如自然语言提示)或外部系统(例如API、文件上传、传感器流)的输入信号。它负责将数据预处理成智能体推理模块可以解释的格式。例如,在基于LangChain的智能体中,感知层处理提示模板、上下文包装,并通过文档分块和嵌入搜索的检索增强。

**2.**知识表示与推理(KRR)模块:在智能体程序的智能核心是知识表示与推理模块,它将符号、统计或混合逻辑应用于输入数据。技术包括基于规则的逻辑(例如,if-then决策树)、确定性工作流引擎和简单的规划图。像AutoGPT [30]这样的智能体程序中的推理是通过函数调用和提示链接来增强的,以模拟思维过程(例如,“逐步”提示或中间工具调用)。

**3.****行动选择和执行模块:**该模块使用操作库将推断的决策转换为外部操作。 这些操作可能包括发送消息、更新数据库、查询API或生成结构化输出。执行通常由中间件管理,例如LangChain的“智能体执行器”,它将LLM的输出链接到工具调用,并观察后续步骤的响应。

**基本学习和适应:**传统人工智能智能体具有有限的学习机制,如启发式参数调整或基于历史的上下文保留。例如,智能体程序可能使用简单的存储缓冲区来回顾先前用户的输入,或者应用评分机制来改善将来迭代中的工具选择。

这些智能体的定制通常涉及特定领域的提示工程、规则注入或工作流模板,这使它们不同于硬编码的自动化脚本,因为它们能够做出具有上下文感知能力的决策。像ReAct [126]这样的系统就是这种架构的典范,它将推理和行动结合在一个迭代框架中,智能体在选择外部行动之前会模拟内部对话。

2)在Agent AI中的建筑增强:Agent AI系统继承了AI Agent的模块化特性,但扩展了它们的架构以支持分布式智能、Agent间通信和递归规划。文献记录了一些关键的建筑增强,这些增强区别于Agent AI的前身[149],[150]。

**1.**专门化智能体组合:机构化人工智能系统不是作为一个整体单元运行,而是由多个智能体组成,每个智能体被分配一个专门的功能,例如,一个摘要生成器,一个检索器,一个规划者。这些智能体通过通信通道进行交互(例如消息队列、黑板或共享内存)。例如,MetaGPT [143]通过将智能体建模成公司部门(例如CEO,CTO,工程师)来示范这种方法,其中角色是模块化的、可重用的,并且与角色绑定。

**2.****高级推理和规划:**Agent系统利用ReAct [126]、Chain-of-Thought (CoT)提示 [151]和Tree of Thoughts [152]等框架嵌入了递归推理能力。这些机制允许Agent将复杂任务分解为多个推理阶段,评估中间结果,并动态重新规划动作。这使系统能够对不确定性或部分失败做出自适应性响应。

**3.**持久记忆体系结构:与传统智能体不同,具有智能体性的人工智能整合了内存子系统,用于在任务周期或智能体会话之间保存知识[153],[154]。内存类型包括情景记忆(任务特定历史)[155],[156],语义记忆(长期事实或结构化数据)[157],[158],以及用于检索增强生成(RAG)的基于向量的记忆[159],[160]。例如,AutoGen [89] 智能体维护用于中间计算的草稿本,实现逐步任务进展。

**4.编排层/**元智能体Agent AI **中的一个关键创新是引入编排器元智能体,它们协调下级智能体的生命周期,管理依赖关系,分配角色并解决冲突。**编排器通常包括任务管理器、评估者或调解员。例如,在ChatDev [142] 中,一个虚拟CEO 元智能体将子任务分配给部门智能体,并将它们的产出整合为统一的战略回应。

**这些增强功能共同使得Agent AI能够支持需要持续背景、分布式劳动、多模态协调和战略调整的场景。**使用案例范围从在共同进行检索、总结和起草文件的研究助手(例如AutoGen pipelines [89])到智能供应链智能体,同时监控物流、供应商绩效和动态定价模型。

从孤立的感知-推理-行动循环转变为协作和反思的多智能体工作流程,标志着智能系统架构设计的关键转折点。这种进展将Agentic AI定位为能够不仅执行预定义工作流程,还能在最少人类监督下构建、修订和管理跨智能体的复杂目标的AI基础设施的下一个阶段。

应用人工智能(AI)智能体和智能体性人工智能(Agentic AI)

为了说明人工智能智能体和主动智能系统之间的实际效用和运行差异,这项研究综合了最近文献中提出的一系列应用,如图9所示。我们系统地对两个平行轨道上的应用领域进行分类和分析:传统人工智能智能体系统及其更高级的主动智能AI对应物。对于人工智能智能体,审查了四种主要用例:(1)客户支持自动化和内部企业搜索,在这里单一智能体模型处理结构化查询和响应生成;(2)电子邮件过滤和优先级,智能体通过分类启发式帮助用户管理大量通信;(3)个性化内容推荐和基本数据报告,分析用户行为以进行自动化分析;(4)自主排程助手,解释日历并以最少的用户输入预定任务。相比之下,主动智能应用涵盖更广泛且更动态的能力,通过四个附加类别进行审查:(1)多智能体研究助手协作地检索、综合和起草科学内容;(2)智能机器人协调,包括在农业和物流等领域中使用的无人机和多机器人系统;(3)协作式医疗决策支持,涉及诊断、治疗和监控子系统;(4)多智能体游戏AI和自适应工作流自动化,其中分散的智能体以战略方式互动或处理复杂任务流水线。

应用AI智能体技术:

1.客户支持自动化和内部企业搜索:AI智能体在企业环境中被广泛采用,用于自动化客户支持和促进内部知识检索。在客户服务中,这些智能体利用检索增强的LLMs与API和组织知识库进行接口化,以回答用户查询,对票证进行分类,并执行订单跟踪或退货启动等操作。对于内部企业搜索,基于向量存储构建的智能体(例如Pinecone、Elasticsearch)以自然语言查询的形式检索语义相关文档。Salesforce Einstein、Intercom Fin和Notion AI等工具展示了结构化输入处理和摘要能力如何减少工作量并提高企业决策制定能力。

在这里插入图片描述

图9:AI智能体和智能体人工智能在八个核心功能领域中的分类应用。

**一个实际的例子(图10a)展示了这种双重功能的运用,即一家跨国电子商务公司部署了基于AI智能体的客户支持和内部搜索助手。**对于客户支持,AI智能体与公司的CRM(例如Salesforce)和履行API集成,以解决诸如“我的订单在哪里?”或“我如何退货?”等问题。智能体器在毫秒内从发货数据库和政策存储库获取上下文数据,然后使用检索增强生成个性化响应。对于内部企业搜索,员工使用同一系统来查询过去的会议笔记、销售演示或法律文件。当人力资源经理输入“总结去年关键福利政策变化时”,智能体查询嵌入了企业文档的Pinecone向量存储库,按语义相似性对结果进行排名,并返回简明摘要以及源链接。这些功能不仅减少了工单量和支持开销,还减少了在搜寻机构知识上花费的时间。结果是一个统一、响应迅速的系统,利用模块化的AI智能体架构增强了外部服务交付和内部运营效率。

**电子邮件过滤和优先级处理:**在生产工具中,AI智能体通过内容分类和优先级处理自动化电子邮件分类。这些智能体与诸如Microsoft Outlook和Superhuman等系统集成,通过分析元数据和消息语义来检测紧急情况,提取任务并推荐回复。它们应用用户调整的过滤规则,行为信号和意图分类以减少认知负担。自主行动,例如自动标记或总结线程,提高效率,而嵌入式反馈循环通过增量学习实现个性化。图10b说明了AI智能体在电子邮件过滤和优先级处理领域的实际实现。在现代工作环境中,用户被大量电子邮件淹没,导致认知负荷过重和关键通信被忽略。嵌入在Microsoft Outlook或Superhuman等平台中的AI智能体充当智能中介,对传入信息进行分类,分组和整理。这些智能体评估元数据(例如发件人,主题行)和语义内容以检测紧急情况,提取可操作项目,并建议智能回复。如所示,AI智能体自主将电子邮件分类为“紧急”,“后续”和“低优先级”等标记,同时还提供上下文感知摘要和回复草稿。通过持续的反馈循环和使用模式,系统适应用户偏好,逐渐调整分类阈值并提高优先级确定性。这种自动化减轻了决策疲劳,使用户能够专注于高价值任务,同时在节奏快,信息密集的环境中保持有效的沟通管理。

个性化内容推荐和基本数据报告:AI智能体通过分析用户行为模式来支持自适应个性化。

在这里插入图片描述

(a)

在这里插入图片描述

(b)

在这里插入图片描述

©

在这里插入图片描述

(d

图10:AI智能体在企业环境中的应用:(a)客户支持和内部企业搜索;(b)电子邮件过滤和优先级设置;(c)个性化内容推荐和基本数据报告;以及(d)自主调度助手。每个示例突出了模块化的AI智能体集成,用于自动化、意图理解和跨业务工作流程和用户界面系统的自适应推理。

**一些平台,比如亚马逊、YouTubeSpotify,利用这些智能体实施协同过滤、意图检测和内容排名来推断用户的偏好。**与此同时,分析系统中的人工智能智能体(如Tableau Pulse、Power BI Copilot)通过将提示转换为结构化数据库查询和视觉摘要,实现自然语言数据查询和自动报告生成,实现商业智能访问的民主化。

在电子商务和企业分析系统中,可以找到AI智能体在个性化内容推荐和基本数据报告方面的实际示例(图10c)。考虑一个部署在零售平台如亚马逊上的AI智能体:当用户浏览、点击和购买商品时,该智能体不断监视互动模式,比如停留时间、搜索查询和购买顺序。利用协同过滤和基于内容的排序,智能体推断用户意图并动态生成随着时间推移而演化的个性化产品建议。例如,购买园艺工具后,用户可能会被推荐兼容的土壤传感器或相关书籍。这种个性化水平增强了客户参与度,提高了转化率,并支持长期用户留存。同时,在企业环境中,集成到Power BI Copilot中的AI智能体允许非技术人员使用自然语言请求洞见,例如,“比较东北地区Q3和Q4的销售情况”。智能体将提示转化为结构化的SQL查询,从数据库中提取模式,并输出简洁的视觉摘要或叙述性报告。这种应用降低了对数据分析师的依赖,并通过直观、语言驱动的界面促进了更广泛的业务决策能力。

**4)****自主调度助手:**集成了日历系统的AI智能体自主管理会议协调、重新安排和冲突解决。像x.ai和Reclaim AI这样的工具解释模糊的调度命令,访问日历API,并利用学习到的用户偏好识别最佳时间段。它们最大限度地减少人类输入,同时适应动态的可用性约束。它们能够与企业系统交互并对模糊指令做出响应,突显了当代调度智能体的模块化自主性。

一个实际应用自主调度智能体的例子可以在公司环境中看到,如图10d所示,员工在全球时区之间管理多个重叠的职责。考虑一个与Google日历和Slack集成的执行助手AI智能体,可以解释类似于“找一个45分钟的时间窗口,与产品团队下周进行跟进”的命令。智能体解析请求,检查所有参与者的可用性,考虑时区差异,并避免会议冲突或工作时间违规。如果发现与先前安排的任务冲突,可能会自主提出替代时间窗口,并通过Slack集成通知受影响的与会者。此外,该智能体会根据历史用户偏好进行学习,比如避免提前星期五的会议,并随着时间的推移完善其建议。Reclaim AI和Clockwise等工具展示了这种能力,提供了适应不断变化的工作量的日历感知自动化。这样的助手可以减少协调开销,提高调度效率,并通过主动解决模糊性和优化日历利用来实现更顺畅的团队工作流程。

在这里插入图片描述

TABLE X:代表性人工智能智能体(2023-2025年):应用和运行特征

2)智能体AI(Agentic AI)的应用:

**1.**多智能体研究助手:智能体性人工智能系统越来越多地应用于学术和工业研究管道,以自动化多阶段知识工作。像AutoGen和CrewAI这样的平台为多个智能体分配专业角色,包括检索者、总结者、合成者和引文格式化者,它们由一个中央协调器统一。协调器分发任务,管理角色之间的依赖关系,并将输出集成到连贯的草稿或审阅摘要中。持久性记忆允许在智能体之间共享上下文,并随着时间进行改进。这些系统正在用于文献综述、申请准备和专利搜索管道,通过实现并行子任务执行和长上下文管理,胜过像ChatGPT这样的单一智能体系统。

例如,图11a中所示的智能体型AI的真实应用是在自动起草拨款提案中。考虑一个大学研究小组正在准备提交给国家科学基金会(NSF)的提案。利用基于AutoGen的架构,不同的智能体被分配了任务:一个智能体检索先前资助的提案并提取结构模式;另一个智能体扫描最近的文献以总结相关工作;第三个智能体将提案目标与NSF征求语言对齐;而格式化智能体按照合规指南对文档进行结构化。指挥者协调这些智能体,解决依赖关系(例如,将方法论与目标对齐)并确保各部分风格一致。持久性记忆模块存储不断演变的草稿、合作者的反馈和资助机构的模板,实现在多个会话中的迭代改进。与传统手工流程相比,这种多智能体系统显著加速了起草时间,提高了叙事连贯性,并确保了合规性,为学术界和研发密集型行业中的协作科学写作提供了可扩展的、适应性强的方法。

**智能机器人协调:**在机器人和自动化领域,主动型人工智能支持多机器人系统中的协作行为。每个机器人作为一个任务专用智能体,如挑选机、运输机或制图机,而一个编排者监督和调整工作流程。这些架构依赖于共享的空间记忆、实时传感器融合和机器人之间的同步,以协调物理行动。使用案例包括仓库自动化、基于无人机的果园检查和机器化收获。例如,农业无人机群可能共同绘制树排、识别患病水果并启动机械干预。这种动态分配实现了面对不确定或不断变化环境的机器人之间的实时重新配置和自治。

在这里插入图片描述

图11: 智能体式人工智能在各领域的应用示例:图11展示了四个真实世界中应用智能体式人工智能系统的案例。(a) 使用多智能体编排进行结构化文献分析、合规性对齐和文档格式化的自动拨款编写。(b) 在苹果园中使用共享空间记忆和任务特定智能体协调多机器人进行收割,包括绘图、采摘和运输。© 通过协调智能体进行临床决策协助,包括诊断、治疗计划和电子健康记录分析,增强安全性和工作流效率。(d) 在企业环境中通过智能体处理威胁分类、合规性分析和减轻计划来应对网络安全事件。在所有的情况下,中央编排器管理智能体间的通信,共享记忆确保上下文保留,反馈机制推动持续学习。这些用例突显了智能体式人工智能在科学、农业、医疗保健和信息安全等复杂、动态环境中可扩展、自主地协调任务的能力。

例如,在商业苹果园(图11b中),智能体人智能使得一个协调的多机器人系统能够优化收获季节。在这里,任务专门化的机器人如自主采摘机、水果分类器、运输机器人和无人机制图员作为智能体单位在一个中央协调器下运行。制图无人机首先测量果园并使用视觉语言模型(VLMs)生成高分辨率产量地图并识别成熟的簇。这些空间数据通过一个中央化的内存层共享,所有机器人都可以访问。采摘机器人被分配到高密度区域,由路径规划智能体指导,优化路线避开障碍物和劳动区域。同时,运输智能体动态地在采摘机器人和存储之间穿梭箱子,根据采摘机器人的负载水平和地形变化调整任务。所有智能体通过一个共享协议异步通信,协调器根据天气预报或机械故障持续调整任务优先级。如果一个采摘机器人失败,附近的单位会自主重新分配工作量。这种自适应的、记忆驱动的协调展示了智能体人智能在减少劳动成本、提高收获效率以及应对复杂农业环境中的不确定性方面的潜力,远远超出了传统农业机器人的严格编程。

2.协作医疗决策支持:在高风险的临床环境中,主体AI通过将诊断、生命体征监测和治疗计划等任务分配给专门的智能体,实现分布式医疗推理。例如,一个智能体可能检索患者病史,另一个根据诊断指南验证发现,第三个提出治疗选择。这些智能体通过共享记忆和推理链进行同步,确保一致、安全的建议。应用领域包括ICU管理、放射学分诊和疫情应对。实际应用展示出与孤立的专家系统相比,提高了效率和决策准确性[87]。

例如,在医院的重症监护室(图11c),一种智能体式人工智能系统支持临床医生处理复杂病例。一种诊断智能体不断分析生命体征和实验室数据,旨在早期发现脓毒症风险。同时,一种历史检索智能体访问电子健康记录(EHRs),总结合并症和最近的手术。一个治疗规划智能体将当前症状与临床指南(例如存活性脓毒症防治运动)交叉参考,提出抗生素方案或液体方案。协调员整合这些见解,确保一致性,并为人类审核提出冲突。医生的反馈存储在持久记忆模块中,允许智能体根据先前的干预和结果优化推理。这种协调系统通过减少认知负荷、缩短决策时间和减少监督风险增强了临床工作流程。在重症护理和肿瘤学单位的早期部署已经证明增加了诊断精度和更好地遵循基于证据的protocols,为更安全的、实时的协作医疗支持提供了可扩展的解决方案。

3.多智能体游戏AI****和自适应工作流自动化:在模拟环境和企业系统中,智能体式AI促进了分散任务执行和紧急协调。像AI地牢这样的游戏平台部署独立的NPC智能体,具有目标、记忆和动态互动,以创建紧急叙事和社会行为。在企业工作流中,诸如MultiOn和Cognosys的系统使用智能体来管理诸如法律审查或事件升级之类的流程,其中每个步骤都由专门模块监督。这些架构展现出远远超出基于规则流水线的弹性、异常处理和反馈驱动的适应性。

例如, 在现代企业IT环境中(如图11d所示),自主AI系统越来越多地被部署来自主管理网络安全事件响应工作流程。当检测到潜在威胁,例如异常访问模式或未经授权的数据外泄时,专门的智能体会并行激活。一个智能体使用历史数据泄露和异常检测模型进行实时威胁分类。第二个智能体查询网络节点的相关日志数据,并跨系统关联模式。第三个智能体解释符合性框架(例如,GDPR或HIPAA)以评估事件的法规严重性。第四个智能体模拟缓解策略并预测运营风险。这些智能体在一个中央编排器的协调下工作,评估集体输出,整合时间推理,并向人类分析师发出建议的行动。通过共享内存结构和迭代反馈,系统从先前的事件中学习,从而在未来案例中实现更快速和更准确的响应。与传统基于规则的安全系统相比,这种智能体模型增强了决策延迟,减少了错误报警,并支持大型组织基础设施中的主动威胁遏制。【89】。

5 AI 智能体中的挑战和限制智能体****AI

挑战和限制在人工智能智能智能体和智能体性人工智能中。

为了系统地了解当前智能系统的运作和理论限制,我们在图12中提供了一种比较性的视觉综合,对AI智能体和智能体性AI范式的挑战和潜在补救措施进行分类。图12a概述了AI智能体面临的四个最紧迫的限制,即缺乏因果推理、继承的LLM约束(例如,幻觉、浅层推理)、不完整的智能体性质(例如,自主性、主动性)以及长期规划和恢复失败。这些挑战常常是由于它们依赖于无状态LLM提示、有限的内存和启发式推理循环所引起的。

在这里插入图片描述

相比之下,图12b确定了Agentic AI系统独特的八个关键瓶颈,例如agent间错误级联、协调破裂、新兴不稳定、可扩展性限制和可解释性问题。这些挑战源于在没有标准化架构、强大通信协议或因果对齐框架的情况下,协调多个智能体在分布式任务中的复杂性。

图13通过综合十种前瞻性设计策略来补充这一诊断框架,旨在减轻这些限制。其中包括检索增强生成(RAG)、基于工具的推理、自主反馈循环(ReAct)、基于角色的多智能体编排、记忆架构、因果建模和治理感知设计。总体而言,这三个面板为解决当前的缺陷问题并加快安全、可扩展和上下文感知型自主系统的发展提供了一个整合的路线图。

**挑战和限制:**虽然AI智能体人因其利用LLMs和工具使用界面自动化结构化任务的能力而受到广泛关注,但文献强调了显著的理论和实际限制,这些限制阻碍了它们的可靠性、泛化能力和长期自主性。这些挑战既来自对静态、预训练模型的架构依赖,也来自于灌输像因果推理、规划和稳健适应等智能体特质的困难。AI智能体人的关键挑战和限制如下总结为以下五点:

1.因缺乏因果理解而存在的挑战之一在于智能体无法进行因果推理。当前大多数人工智能智能体的认知核心——即目前流行的LLM在训练数据中优于识别统计相关性。然而,正如DeepMind最近的研究和TrueTheta的概念分析所指出的,它们在因果建模方面基本上缺乏能力,无法区分单纯关联和因果关系。例如,虽然由LLM驱动的智能体可能学到去医院经常与疾病同时发生,但它无法推断疾病是否导致就医或反之亦然,也无法模拟干预或假设性变化。

这种赤字在分布变化时变得特别棘手,实际条件与训练过程不同[169],[170]。如果没有这种基础,智能体系统将变得脆弱,在新颖或高风险的情况下可能失败。例如,一个擅长城市驾驶的导航系统,如果缺乏对道路牵引力或空间遮挡的内部因果模型,可能会在雪地或施工区域表现不佳。

2.LLM****继承的限制:AI智能体,特别是由LLM驱动的智能体,继承了一些固有的限制,影响它们在实际部署中的可靠性、适应性和整体可信度[171]–[173]。其中最突出的问题之一是产生幻觉,产生看似合理但事实不正确的输出的倾向。在高风险领域,如法律咨询或科学研究中,这些幻觉可能导致严重判断错误,破坏用户信任[174],[175]。加剧这一问题的是LLM的已记录的提示敏感性,即使是措辞上的细微变化也可能导致不同的行为。这种脆弱性阻碍了可重现性,需要谨慎的手动提示工程,通常需要领域特定的调整以保持互动的一致性[176]。

此外,虽然最近的智能体框架采用像Chain-of-Thought (CoT) [151],[177]和ReAct [126]这样的推理启发式方法来模拟审慎过程,但这些方法在语义理解方面仍然表现较浅。尽管表现出结构化推理的外观,智能体可能仍然在多步推理时失败,任务目标不一致,或者在逻辑上得出不一致的结论[126]。这些缺点突显了真正理解和可推广规划能力的缺失。

另一个关键限制在于计算成本和延迟。每个智能体决策的周期,特别是在规划或调用工具方面,可能需要进行几次LLM调用。这不仅增加了运行时延迟,还增加了资源消耗,造成实际部署和基于云的推断系统中的实际瓶颈。此外,LLM具有静态知识截止日期,除非通过检索或工具插件显式增强,否则无法动态整合新信息。它们还会复制其训练数据集的偏见,这可能表现为文化不敏感或扭曲的响应。没有严格的审计和缓解策略。

在这里插入图片描述

这些问题给予了严重的伦理和操作风险,特别是当智能体被部署在敏感或用户接触的情境中时。

3.AI智能体机制的不完全属性:当前人工智能智能体的主要局限性在于它们无法完全满足基础文献中定义的典型智能体属性,比如自主性、主动性、反应性和社交能力。尽管许多被宣传为“智能体”的系统利用LLM执行有用的任务,但在实践中它们经常无法达到这些基本标准。例如,自主性通常只是部分的。尽管智能体机制一旦初始化就能以最少的监督执行任务,但它们仍然严重依赖于外部支撑,比如人为定义的提示、规划启发式或反馈循环才能有效运作。自主生成任务、自我监测或自主纠错很少或完全不存在,限制了它们实现真正独立的能力。主动性同样不够发展。大多数AI智能体需要明确的用户指令才能行动,并且缺乏根据环境变化或不断演进的目标动态制定或重新排列目标的能力。因此,它们行为反应性而非战略性,受限于其初始化的静态特性。反应性本身受架构性瓶颈所限。智能体会对环境或用户输入做出响应,但由于重复的LLM推理调用造成的响应延迟,再加上狭窄的上下文记忆窗口,抑制了实时的适应性。也许最未开发的能力是社交能力。真正的智能体系统应该能与人类或其他智能体进行长时间互动,消除歧义,协商任务,并适应社交规范。

然而,现有的实现表现出脆弱的、基于模板的对话,缺乏长期记忆整合或微妙的对话上下文。智能体与智能体之间的互动往往是硬编码的或限于脚本交换,阻碍了协作执行和新兴行为。这些不足共同揭示了虽然AI智能体表现出功能性智能,但它们远未达到智能、互动和自适应智能体的正式标准。弥合这一差距对于向更具自主性、社交能力的AI系统迈进是至关重要的。

4.限制性长期规划和恢复:当前人工智能智能体的一个持续限制在于它们无法进行稳健的长期规划,特别是在复杂的多阶段任务中。这一限制源于它们基本依赖于无状态提示-响应范式,其中每个决定都是在没有内在记忆之前推理步骤的情况下做出的,除非外部管理。尽管增强措施,例如ReAct框架[126]或Thoughts of Tree[152]引入了伪递归推理,它们仍然基本上是启发式的,并缺乏时间、因果关系或状态演变的真实内部模型。因此,智能体通常在需要延续时间一致性或应变规划的任务中失误。例如,在临床分诊或金融投资组合管理等领域,决策取决于先前情境和动态展开的结果时,智能体可能会展现出重复行为,例如无休止地查询工具或在子任务失败或返回模糊结果时无法适应。缺乏系统化的恢复机制或错误检测导致脆弱的工作流程和错误传播。这种不足严重限制了智能体在对可靠性、容错性和顺序连贯性至关重要的关键任务环境中的部署。

5.可靠性和安全性问题:AI智能体目前尚不够安全或可验证,无法部署在关键基础设施中。缺乏因果推理导致在分布偏移下表现出不可预测的行为。此外,评估智能体计划的正确性,特别是当智能体人制造中间步骤或理由时,仍然是可解释性方面的一个未解决问题。安全性保证,如形式验证,尚不适用于开放式、由LLM驱动的智能体。虽然AI智能体代表了超越静态生成模型的重要进展,但它们在因果推理、适应性、稳健性和规划方面的限制阻碍了它们在高风险或动态环境中的部署。大多数当前系统依赖启发式包装和脆弱的提示工程,而不是立足于智能体认知。弥合这一差距将需要未来系统整合因果模型、动态记忆和可验证推理机制。这些限制也为智能体型AI系统的出现奠定了基础,该系统通过多智能体协作、编排层和持久的系统级上下文试图解决这些瓶颈。

挑战和限制的Agent AI: Agent AI系统代表了从孤立的AI智能体到具有分解和执行复杂目标能力的协作多智能体生态系统的范式转变[14]。这些系统通常由经过编排或通信的智能体组成,它们通过工具、API和共享环境进行交互[18],[38]。虽然这种架构演变实现了更雄心勃勃的自动化,但也引入了一系列加剧和新颖的挑战,这些挑战叠加了个体基于LLM的智能体的现有限制。Agent AI目前面临的挑战和限制如下:

1.增强因果关系挑战:机构智能系统中最关键的限制之一是放大了单一智能体结构中已经观察到的因果性缺陷。与在相对孤立环境中运行的传统人工智能智能体不同,机构智能系统涉及复杂的智能体之间动态关系,其中每个智能体的行动都可能影响其他智能体的决策空间。缺乏对因果关系建模的强大能力,这些系统难以有效协调并适应未预见的环境变化。这一挑战的一个关键表现形式是智能体之间的分布式变化,其中一个智能体的行为改变了其他智能体的操作语境。在没有因果推理的情况下,智能体无法预见其输出的下游影响,导致协调中断或冗余计算。此外,这些系统特别容易受到错误级联的影响:一个智能体出现故障或产生幻觉输出会传播整个系统,增加不准确性并破坏后续决策。例如,如果一个验证智能体错误地验证错误信息,下游智能体如总结者或决策制定者可能在其基础上建立错误信息,损害整个系统的完整性。这种脆弱性凸显了在设计多智能体工作流程时急需整合因果推理和干预建模,特别是在高风险或动态环境中,系统鲁棒性至关重要。

2.通信和协调瓶颈:在智能体人人工智能中面临的一个基本挑战在于实现跨多个自治智能体的有效通信和协调。与单一智能体系统不同,智能体人人工智能涉及分布式智能体,它们必须共同追求一个共享目标,需要精确的对齐、同步执行和强大的通信协议。然而,目前的实现在这些方面存在短板。一个主要问题是目标对齐和共享上下文,智能体往往缺乏对整体目标的统一语义理解。这影响了子任务分解、依赖管理和进展监控,尤其在需要因果意识和时间连贯性的动态环境中。

此外,协议限制显著阻碍了智能体间的沟通。大多数系统依赖于在定义不明确的接口上进行自然语言交流,这容易产生歧义、一致性格式问题和上下文漂移。这些沟通障碍导致了策略碎片化、协调延迟和系统性能下降。此外,当智能体同时访问共享的计算、内存或API资源时,资源争用会成为系统性瓶颈。如果没有集中的编排或智能调度机制,这些冲突可能导致竞争条件、执行延迟或系统完全失败。总的来说,这些瓶颈表明了智能AI当前协调框架的不成熟之处,并突出了标准化通信协议、语义任务规划器和全局资源管理器的迫切需求,以确保可扩展、连贯的多智能体协作。

3.Emergent Behavior and Predictability: Agentic AI的一个最关键的局限性在于管理新兴行为复杂系统级现象,这些现象源自自治体的相互作用。虽然这种新兴行为有可能产生适应性和创新性解决方案,但也会引入显著的不可预测性和安全风险。关键问题是未预期结果的生成,即智能体之间的互动导致系统设计师没有明确编程或预见到的行为。这些行为可能偏离任务目标,产生误导性输出,甚至在高风险领域如医疗保健、金融领域中实施有害行为。

重要基础设施。

随着智能体数和它们相互作用的复杂性增长,系统不稳定的可能性也随之增加。这包括无限规划循环、行动僵局以及异步或不协调的智能体决策导致的矛盾行为等现象。在没有集中仲裁机制、冲突解决协议或备用策略的情况下,这些不稳定性会随着时间的推移而累积,使系统变得脆弱和不可靠。基于大型语言模型的智能体的随机性和不透明性进一步加剧了这一问题,因为它们的内部决策逻辑不易解释或验证。因此,确保新行为的可预测性和可控性仍然是设计安全和可扩展的智能智能体系统的核心挑战。

4.可伸缩性和调试复杂性:随着Agentic AI系统中智能体数量和专业角色多样性的扩展,系统的可靠性和可解释性的维护变得越来越复杂[191], [192]。一个核心限制源自于LLM-based智能体的黑匣子推理链条特征。每个智能体可能通过不透明的内部逻辑处理输入,调用外部工具,并与其他智能体进行通信,所有这些都通过多层提示工程、推理启发和动态上下文处理完成。因此,追踪故障的根本原因需要解开嵌套的智能体交互序列、工具调用和内存更新,使得调试变得非常困难且耗时。

系统的另一个重要限制是系统的非组合性。与传统的模块化系统不同,向智能体型AI架构中引入额外的智能体通常会增加认知负荷、噪声和协调开销。协调不当的智能体网络可能导致冗余计算、矛盾的决策或任务绩效下降。如果没有强大的智能体角色定义、通信标准和分层规划框架,智能体型AI的可扩展性未必会转化为更高的智能或稳健性。这些限制凸显了需要系统性的架构控制和可追溯工具来支持可靠的大规模智能体生态系统的发展。

5.信任、可解释性和验证:智能体式人工智能系统由于其分布式、多智能体的架构,对解释性和可验证性提出了更高的挑战。虽然解释单个由LLM驱动的智能体的行为已经不容易,但当多个智能体通过松散定义的通信协议异步交互时,这种复杂性就会增加。每个智能体可能拥有自己的记忆、任务目标和推理路径,导致复合的不透明性,追踪最终决策或失败的因果链变得极为困难。缺乏跨智能体共享、透明的日志或可解释的推理路径,几乎不可能确定特定行动序列发生的原因,或者哪个智能体发起了错误。

混淆不透明性的是缺乏专为主动型人工智能定制的形式验证工具。与传统软件系统不同,传统软件系统可以通过模型检查和形式证明提供有界保证,但目前没有广泛采用的方法来验证多智能体LLM系统在所有输入分布或操作环境中可靠运行。这种缺乏可验证性是在安全关键领域如自动驾驶汽车、金融和医疗保健中采用的一个重要障碍,这些领域要求可解释性和保证不可妥协。为了安全推进主动型人工智能,未来的研究必须解决因果可追溯性、智能体责任和形式安全保证方面的基础差距。

6.安全与对抗风险:智能体人智能架构与单一智能体系统相比,引入了一个明显扩大的攻击面,使其面临复杂的对抗威胁。其中最关键的漏洞之一在于存在单一妥协点。由于智能体人智能系统由相互依赖的智能体组成,它们通过共享内存或消息传递协议进行通信,即使通过及时注入、模型毒化或对抗工具操纵来妥协一个智能体,也可能在整个系统中传播恶意输出或损坏状态。例如,一个受到篡改数据输入的事实核查智能体可能无意中证实虚假声明,然后被摘要或决策智能体整合到下游推理中。

此外,智能体间动态本身也容易受到攻击。攻击者可以通过操纵智能体之间的协调逻辑来引发竞态条件、死锁或资源耗尽。缺乏严格的身份验证、访问控制和沙盒机制,恶意智能体或被污染的工具响应可能会使多智能体工作流程偏离轨道或导致任务流程中错误的升级。由于缺乏基于LLM的多智能体系统的标准化安全框架,大多数当前的实现对复杂的多阶段攻击毫无抵抗力。随着智能体式AI在特别是高风险环境中更广泛地应用,嵌入安全设计原则和对抗性鲁棒性变得紧迫成为一项重要的研究任务。

7.Agentic AI系统的分布式和自主特性引入了深刻的道德和治理挑战,特别是在责任、公平和价值对齐方面。在多智能体的环境中,当多个智能体互动以产生结果时,会出现责任漏洞,使责任分配变得困难。

对错误或意外后果的阐释存在歧义,给法律责任、监管合规和用户信任带来了复杂性,尤其是在医疗保健、金融或国防等领域。此外,偏见的传播和放大提出了一个独特的挑战:基于偏见数据单独训练的智能体可能通过互动加强彼此扭曲的决策,导致系统性不公平比孤立模型更为明显。这种出现的偏见可能是微妙的,没有长期监控或审计机制很难检测到。

此外,在长期或动态环境中,不一致和价值-drift构成了严重风险。在没有统一的共享价值编码框架的情况下,个体智能体可能会以不同方式解释整体目标,或优化与人类意图背道而驰的本地目标。随着时间的推移,这种不一致可能导致行为不符合道德规范或用户期望。目前的对齐方法,大多设计用于单一智能体系统,无法有效管理跨异质智能体集合之间的价值同步。这些挑战突显了在自主多智能体系统中确保道德完整性的迫切需要,这种系统应包括诸如基于角色的隔离、可追踪决策记录和参与式监督机制等原则。

8.不成熟的基础和研究空白:尽管人工智能已经取得了快速进展和高调示范,但智能体型人工智能仍处于萌芽阶段,存在着未解决的基础性问题,限制了其可扩展性、可靠性和理论基础。一个核心问题是缺乏标准架构。目前还没有被广泛接受的设计、监控或评估基于LLMs的多智能体系统的蓝图。这种架构上的碎片化使得比较实现、复制实验或在各个领域推广研究结果变得困难。关键方面,如智能体编排、记忆结构和通信协议通常是临时实现的,导致脆弱的系统缺乏互操作性和正式保证。

同样关键的是缺乏可扩展的因果基础,因果发现和推理仍然是未解决的挑战。没有能力表示和推理因果关系,主动AI系统在安全地实现窄训练范式之外的泛化能力方面存在固有的局限性。这种缺陷影响了它们在分布转移下的稳健性,积极干预的能力,以及模拟因果关系或假设计划的能力,这是智能协调和决策的核心要求。

功能演示和基本设计之间的差距突显出在多Agent系统理论、因果推理整合和基准开发领域有迫切需要进行基础研究。只有通过解决这些不足,该领域才能从原型流程推进到值得信赖的、适用于高风险环境部署的通用Agent框架。

6 潜在解决方案和未来规划路线

AI智能体和智能AI所面临的挑战和限制的潜在解决方案(如图13所示)总结如下:

1.检索增强生成(RAG):对于人工智能智能体,检索增强生成通过将输出基于实时数据(195)降低了幻觉并扩展了静态LLM知识。通过嵌入用户查询并从向量数据库(如FAISS Faiss或Pinecone Pinecone)中检索语义相关文档,智能体可以生成根植于外部事实的语境有效的响应。在企业搜索和客户支持等领域,这特别有效,其中准确性和最新知识至关重要。

在主动型AI系统中,RAG作为各个智能体之间的共享基石机制。例如,一个总结智能体可能依赖于检索智能体来访问最新的科学论文,然后生成综合资料。可持久、可查询的记忆使分布式智能体能够在统一的语义层上操作,从而减轻因不同的上下文视角而产生的不一致性。当应用于多智能体系统时,RAG有助于维护共享真相,增强目标对齐,并减少智能体之间的错误信息传播。

工具增强推理(函数调用):AI智能体受益于函数调用,这扩展了它们与现实世界系统互动的能力。智能体可以查询API、运行本地脚本或访问结构化数据库,从而将LLMs从静态预测器转变为互动问题解决者。这使它们能够动态地获取天气预报、安排会议或执行基于Python的计算,这些都超出了纯语言建模的能力。

对于主动型AI来说,函数调用支持机器人级别的自主性和角色区分。团队内的智能体可以使用API调用特定于领域的操作,如查询临床数据库或根据分配的角色生成可视化图表。函数调用成为协调管道的一部分,实现智能体之间的流畅委托。这种结构化互动减少了任务交接中的歧义,并促进了更清晰的行为边界,特别是当与验证协议或观察机制整合时。

2.智能体循环:推理,行动,观察:AI智能体通常受到单次推理限制的困扰。ReAct模式引入了一个迭代循环,智能体推理任务,通过调用工具或API执行动作,然后观察结果后继续。

在这里插入图片描述

图13:十种新兴的架构和算法解决方案,如RAG、工具使用、记忆、编排和反射机制,解决可靠性、可扩展性和可解释性跨两种范式

这种反馈循环可实现更加审慎、上下文敏感的行为。例如,一个智能体程序在起草摘要之前可能会验证检索到的数据,从而减少幻觉和逻辑错误。在主体AI中,这种模式对于协作的连贯性至关重要。ReAct使智能体程序能够动态评估依赖关系,推理中间状态,如有需要重新调用工具,并随着环境的演变调整决策。在多智能体设置中,这种循环变得更加复杂,因为每个智能体的观察必须与其他人的输出相协调。共享内存和一致的日志记录在这里至关重要,确保系统的反思能力不会在各个智能体之间分裂。

记忆架构(情景、语义、向量):AI智能体面临着长期规划和会话连续性方面的限制。记忆架构通过在任务之间持久保存信息来解决这一问题。情景记忆使智能体能够回想起先前的行动和反馈,语义记忆编码了结构化领域知识,而向量记忆则实现了基于相似性的检索。这些元素对于在重复互动中的个性化和自适应决策至关重要。由于分布式状态管理,AI系统需要更复杂的记忆模型。每个智能体可能维护本地记忆,同时访问共享全局记忆以促进协调。例如,一个规划智能体可以使用基于向量的记忆来回想先前的工作流程,而QA智能体则参考语义记忆进行事实验证。跨智能体同步记忆访问和更新增强了一致性,实现了上下文感知通信,并支持长期规划。

3.多智能体协同配合与角色特化:在AI智能体中,任务复杂性通常通过模块化提示模板或条件逻辑来处理。然而,随着任务多样性的增加,单个智能体可能会变得过载[200],[201]。角色特化将任务分解为子组件(例如,规划者,总结者),即使在单一智能体系统中也可以通过模拟隔离推理来实现轻量级协同配合。在主动式AI中,协同配合是核心的。一个元智能体或协调者将任务分配给专门的具有不同能力的智能体。像MetaGPT和ChatDev这样的系统是这方面的典范:智能体模拟CEO、工程师或审阅者等角色,并通过结构化消息进行交互。这种模块化方法增强了可解释性、可扩展性和故障隔离,确保一个智能体的故障不会在没有协调者的遏制机制的情况下发生级联。

4.自我反思和批判机制:AI智能体通常会在失败时保持沉默或传播错误。自我反思机制引入了自我评价的能力。完成任务后,智能体可以使用第二次推理来批评自己的输出,增加了鲁棒性并降低错误率。例如,一个法律助理智能体可能在提交前验证其起草的条款是否符合先前的案例法。对于主动AI,反思不仅限于自我批评,还包括对其他智能体的评估。智能体可以审查彼此的输出,例如,一个验证智能体正在审计总结者的工作。类似反思的机制确保协作质量控制并增强可信度。这样的模式还支持迭代改进和自适应重新规划,特别是当与内存日志或反馈队列整合时。

程序化提示工程管道:手动提示调整会导致人工智能智能体的脆弱性增加,并降低可重现性。采用任务模板、上下文填充器以及检索增强变量[207],[208]的程序化管道自动化这一过程。这些动态提示根据任务类型、智能体角色或用户查询进行结构化,提高泛化能力,减少与提示变化相关的故障模式。在主体化人工智能中,提示管道实现了可扩展的、与角色一致的沟通。每种智能体类型(例如,规划者、检索器、总结者)都可以生成或使用针对其功能定制的结构化提示。通过自动化消息格式、依赖跟踪和语义对齐,程序化提示防止协调漂移,并确保不同智能体之间实时一致的推理[14],[159]。

因果建模与基于仿真的规划:AI智能体通常基于统计相关性而不是因果模型操作,从而导致在分布转移下推广能力较差。嵌入因果推断使智能体能够区分相关性和因果关系,模拟干预,并更加稳健地规划。例如,在供应链场景中,具有因果意识的智能体可以模拟运输延迟对下游影响。在主体AI中,因果推理对安全协调和错误恢复至关重要。智能体必须预测他们的行动如何影响他人,需要因果图、仿真环境或贝叶斯推断层。例如,规划智能体可以模拟不同策略,并向他人传达可能的结果,促进战略一致性并避免意外的新兴行为。

5.监控、审计和可解释性管道:AI智能体缺乏透明度,使调试和信任变得复杂。记录系统记录提示、工具调用、内存更新和输出,以便进行事后分析和性能调整。这些记录帮助开发人员跟踪故障,优化行为,并确保符合使用准则,尤其在企业或法律领域尤为重要。对于主动AI,记录和可解释性变得更加重要。随着多个智能体异步交互,审计追踪对于识别哪个智能体引发错误及在什么条件下发生错误至关重要。跨智能体集成的可解释性管道(例如,时间线可视化或对话重播)是确保安全性的关键,特别是在监管或多利益相关者环境中。

6.治理感知架构(问责和角色隔离):AI智能体目前缺乏内置的道德合规或错误归因保障。治理感知设计引入基于角色的访问控制、沙盒化和身份解析,以确保智能体在范围内行事,其决策可进行审核或撤销。这些结构降低了在诸如医疗保健或金融等敏感应用中的风险。在主体AI中,治理必须跨角色、智能体和工作流进行扩展。角色隔离防止流氓智能体超越职权,而问责机制则分配对决策的责任,并跨智能体跟踪因果关系。合规协议、道德对齐检查和智能体身份验证确保在协作环境中的安全,为值得信赖的AI生态系统铺平道路。

AI智能体人将通过增强的模块化智能在五个关键领域上显著演变,如图14所示:积极推理、工具集成、因果推断、持续学习和以信任为中心的运算。首个转型里程碑涉及从反应式到积极智能的过渡,智能体人基于学习的模式、上下文线索或潜在目标启动任务,而不再等待明确提示。这一进步在很大程度上依赖于强大的工具整合,使智能体人能够动态地与外部系统(如数据库、API或仿真环境)交互,以完成复杂的用户任务。同样关键的是发展因果推理,使智能体人能够超越统计相关性,支持对涉及诊断、规划或预测等任务至关重要的因果关系推断。为了随时间保持相关性,智能体人必须采用持续学习框架,整合反馈循环和情节性记忆,以在会话和环境之间调整其行为。最后,为建立用户信心,智能体人必须通过可验证的输出记录、偏见检测和伦理保障等机制优先考虑信任与安全,尤其是随着其自主性的增加。通过这些途径,AI智能体人将从静态工具重新定义为自适应认知系统,能够在动态数字环境中进行自主但可控的操作。

在这里插入图片描述

图14:人工智能智能体和智能体人工智能未来路线图的思维导图可视化。

Agentic AI作为这些基础的自然延伸,强调通过多智能体协调、情境持久性和领域特定编排来实现协作智能。未来系统(见右侧第14图)将展示多智能体扩展,使专门智能体能够在分布式控制下并行工作,以解决复杂问题,模拟基于团队的人类工作流程。这需要统一编排层,其中元智能体或编排者动态分配角色,监视任务依赖性,并协调下属智能体之间的冲突。持续的性能取决于持久性记忆架构,它保留了语义、事件和共享知识,使智能体能够协调纵向任务并保持状态意识。模拟计划预计将成为一个核心功能,允许智能体集体测试假设战略,预测后果,并在实际执行之前优化结果。此外,道德治理框架将是必不可少的,以确保负责任的部署,明确自动智能体网络之间的责任、监督和价值对齐。最后,定制的领域特定系统将出现在法律、医学和供应链等领域,利用情境专业化来超越通用智能体。这一未来定位将Agentic AI定位为不仅仅是AI智能体之上的协调层,而是具有适应性规划、递归推理和协作认知的集体机器智能的新范式。

7结论

在这项研究中,我们提出了基于文献的对AI智能体和主动型AI演变景观的全面评估,提供了一种结构化分类,突出了基础概念、架构演变、应用领域和主要限制。从基础理解开始,我们将AI智能体描述为模块化、任务特定的实体,具有有限的自主性和反应性。它们的运作范围是基于LLMs和LIMs的整合,这些模块是感知、语言理解和决策的核心推理模块。我们确定了生成AI作为一个功能性的前体,强调了其在自主性和目标持久性方面的局限,并研究了LLMs如何通过工具增强驱动从被动生成到互动任务完成的进展。

这项研究探讨了Agent AI系统的概念出现,将其视为从孤立智能体到协调的多智能体生态系统的变革性演变。我们分析了分布式认知、持久记忆和协调规划等关键差异因素,这些因素区别了Agent AI与传统智能体模型。接着,我们详细分析了架构演化,重点介绍了从整体的基于规则的框架向由编排层和反思性记忆架构促成的模块化的、角色专业化网络的过渡。此外,我们调查了这些范式部署的应用领域。对于AI Agents,我们阐述了他们在自动化客户支持、内部企业搜索、电子邮件优先级设置以及日程安排中的作用。对于Agent AI,我们展示了在协作研究、机器人技术、医疗决策支持和自适应工作流自动化等用例中使用的实际示例和行业级系统。最后,本研究对影响这两种范式的挑战和局限进行了深入分析。对于AI Agents,我们讨论了幻觉、浅层推理和计划约束,而对于Agent AI,我们则解决了放大因果关系问题、协调瓶颈、新兴行为和治理问题。这些见解为未来可信、可扩展的Agent系统的开发和部署提供了路线图。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐