AI代理与Agentic AI:为未来制造导航众多概念
摘要: 随着生成式AI(GenAI)、大语言模型(LLMs)和多模态大语言模型(MLLMs)的发展,AI代理在语义理解、复杂推理和自主决策方面的能力显著提升。基于LLM和MLLM的AI代理(LLM-Agents、MLLM-Agents)以及新兴的Agentic AI范式,为智能制造提供了新的可能性,但其定义、应用边界及挑战仍需明确。本文系统回顾了AI与代理技术的发展历程,探讨了LLM-Agents
Yinwang Ren, Yangyang Liu, Tang Ji, Xun Xu*
a{ }^{a}a 奥克兰大学工程与设计学院机械与机电工程系,新西兰奥克兰Symonds街20号,邮编1010
摘要
AI代理是旨在感知、推理和在动态环境中行动的自主系统。随着生成式人工智能(GenAI)、大语言模型(LLMs)和多模态大语言模型(MLLMs)的迅速发展,显著提高了AI代理在语义理解、复杂推理和自主决策方面的能力。同时,Agentic AI的兴起突出了在动态和复杂环境中的适应性和目标导向的自主性。基于LLM的AI代理(LLM-Agents)、基于MLLM的AI代理(MLLM-Agents)以及Agentic AI有助于扩展AI在信息处理、环境感知和自主决策方面的能力,为智能制造开辟了新的途径。然而,这些新兴AI范式在智能制造中的定义、能力边界和实际应用仍不清楚。为了弥补这一空白,本研究系统回顾了AI和AI代理技术的发展历程,探讨了LLM-Agents、MLLM-Agents和Agentic AI的核心概念和技术进展,并探索了它们在制造领域的潜在应用及其可能面临的挑战。
关键词:
AI代理,Agentic AI,生成式AI,大语言模型(LLMs),多模态LLMs(MLLMs)
*通讯作者: Xun Xu (x.xu@auckland.ac.nz)
# 1. 引言
作为一个复杂且数据密集型的领域,制造业由于对定制化需求的增加、产品生命周期缩短和激烈的全球竞争而面临日益严峻的挑战 [1, 2]。传统的自动化系统依赖于固定规则,难以适应不断变化的客户需求。尽管先进的机器人技术和经典机器学习提高了生产率,但它们仍然受到预定义特征和有限数据集的限制 [3],这使得它们无法有效处理非结构化数据或新场景。此外,制造业需要实时响应、精确控制以及连续和离散决策的整合 [4]。这些挑战突显了对更灵活、更具适应性和智能的AI驱动解决方案的需求。
生成式人工智能(GenAI)的迅速崛起重塑了多个行业,从内容创作和软件开发到科学研究和业务自动化 [5, 6, 7]。像ChatGPT这样的大型语言模型(LLMs)在自然语言理解、自主推理和跨领域知识综合方面展现出前所未有的能力 [8,9][8,9][8,9]。同时,多模态大语言模型(MLLMs)通过整合视觉、传感器和结构化数据,将这些能力扩展到文本之外,从而实现更复杂的情境感知决策 [10,11][10,11][10,11]。
随着GenAI的进步,AI代理作为能够感知、推理和行动的系统重新获得了关注 [12]。最近的研究探讨了如何将LLMs和MLLMs集成到AI代理(LLMAgents, MLLM-Agents)中以扩展其适应性和决策潜力 [13, 14]。与此同时,新兴的Agentic AI范式代表了一种向自我导向、适应性和目标驱动智能的转变,使在动态环境中进行自主优化和战略决策成为可能 [15, 16],这是制造业过程的一个典型场景。
人们认为LLM-Agents、MLLM-Agents和Agentic AI以不同的方式扩展了AI能力,改进了信息处理、环境意识和自主决策。这些技术的进步推动了AI代理的演变,并为未来的制造系统开辟了新的可能性。然而,尽管它们具有变革性的潜力,但在制造业中,新兴AI范式的定义、能力边界、应用场景和相互联系仍需进一步澄清。
本文首先系统分析了AI和AI代理的技术演变,探讨了LLM-Agents、MLLM-Agents和Agentic AI的核心概念、技术进步和能力提升。接着讨论了这些进步如何深度集成到制造业中。最后,评估了潜在的挑战。
2. AI和代理的发展
由GenAI支持的AI代理有可能加速制造业的智能化转型。然而,为了更深入地了解这些技术在制造业中的实际应用,有必要基于人工智能的基本理论探索各种实施方法和理论范式。本节将回顾人工智能的历史发展和代理领域。通过概述这些基础理论和技术演变,我们希望为后续关于AI代理在制造业应用中的优势和挑战的讨论提供坚实的理论基础。
2.1. AI技术的进化路径
人工智能最初是由John McCarthy于1956年明确提出的,被定义为“制造智能机器的科学与工程” [17]。人工智能的目标是使计算机具备类人智能,包括感知、推理和决策,从而提高其在复杂环境中自主适应的能力 [18, 19]。有许多不同的实现方法或技术(它们的关系如图1所示)。
人工智能的研究主要分为三个范式:符号主义、连接主义和行动主义 [20]。近年来,连接主义已成为主流方法,主要依赖机器学习(ML)作为其核心方法论。机器学习自动从数据中学习模式和知识,主要分为浅层学习和深度学习(DL) [21]。浅层学习方法(例如逻辑回归、支持向量机)依赖手动设计的特征和简单的模型架构,适合基本任务。相比之下,深度学习使用多层神经网络(如卷积神经网络 [22]、Transformer [23] 和LSTM [24])来显著增强模型表示复杂非线性关系的能力。深度学习在高维空间中近似复杂、非线性函数的能力使其特别适用于建模现代制造系统中固有的异构、数据密集和多变量过程 [25]。特别是深度学习,机器学习方法已在制造业广泛采用,支持预测性维护 [26]、工艺优化 [27] 和人机协作 [28] 等任务。
图1:从AI到LLMs和MLLMs的关系
深度学习的大规模预训练模型时代始于2017年Transformer架构的引入,极大地提升了自然语言处理任务的性能。随着计算能力的进步和大数据的广泛应用,一系列基于Transformer的大规模语言模型相继出现,包括GPT系列 [9]、Llama [29] 和Qwen [30]。
LLMs在上下文理解、指令跟随和逐步推理方面表现出强大的能力 [31]。然而,它们的主要局限在于局限于单模态的语言处理,这在工业场景中严重阻碍了跨模态的认知能力。这一缺陷在制造系统中尤为突出,在那里多源异构的数据流(文本、图像、3D打印、公式等)需要协同解释。为此,开发了MLLMs以克服这一限制。代表性模型包括GPT-4V [32]、LLaVA [33] 和mPLUG-Owl2 [34]。
MLLMs展示了超越单一模态模型的强大泛化能力和复杂推理能力 [35]。它们通过对大规模多模态数据集的训练来学习跨模态语义表示,同时减少对任务特定标注的依赖。此外,只需少量微调,MLLMs就可以通过提示或少样本学习适应新任务,从而支持跨模态的动态推理。
2.2. 代理技术的进化路径
早在1950年代,Alan Turing就将“智能”的概念扩展到人工实体,并提出了著名的图灵测试。这些人造智能实体通常被称为代理 [36]。实际上,代理和人工智能在其概念、功能和应用上往往是密不可分的。早期的代理主要是为了解决特定任务而设计的,例如专家系统和基于规则的推理系统 [37]。这些系统通过“如果-那么”规则链模拟专家的决策过程,但缺乏学习能力和对复杂场景的适应性。
随着计算能力和知识工程的进步,代理技术演进为多代理系统(MAS),使得多个代理能够在完成复杂任务时进行协作,例如交通控制、机器人集群和金融交易 [37]。在21世纪,人工智能代理的决策能力得到了显著增强,使其能够在动态环境中自主学习和适应,例如AlphaGo [38]。
传统用于制造的代理研究主要集中在算法设计和训练策略上,常常忽视诸如知识保留、长期规划、泛化能力和高效交互等核心能力 [36]。加强这些基本能力对于智能代理的发展至关重要,尤其是在制造领域。LLMs和MLLMs独特的预训练架构和新兴能力不仅弥补了早期代理在知识保留、长期规划和动态适应方面的不足,还通过指令微调和多模态对齐技术促进了从基于规则的工具向具有自主认知、实时交互和多模态协作的伙伴式智能系统的转变。
3. 从GenAI支持的AI代理到Agentic AI
人工智能代理的演变是由GenAI的进步所推动的,使其具备越来越强的自主性、适应性和多模态能力。本节将探讨从GenAI支持的人工智能代理到Agentic AI的过渡,追踪大型语言模型LLMs、MLLMs和agentic架构如何促成这一进程。
3.1. LLM-Agents
近年来,GenAI显著推动了AI代理的发展,其中LLMs扮演了核心角色。它们强大的语言理解、推理和决策能力 [39],使得基于LLM的代理能够处理复杂的任务规划、问题解决和人机协作。
LLM-Agents的架构通常包括四个核心组件 [39](如图2所示)。Profilling模块定义代理的身份、角色和行为约束。Memory模块存储和检索过去的交互,提高决策的上下文感知能力。Planning模块将复杂任务分解为结构化的步骤,确保在各种应用中的适应性。最后,Action模块使用外部工具或内部知识合成来执行决策。这些组件共同使LLM-Agents能够在预定义约束内自主运行,利用静态知识和动态学习机制。
与传统AI模型相比,LLM-Agents具有显著优势。首先,它们拥有广泛的领域知识和强大的推理能力,能够高效处理复杂的文本输入。其次,它们的泛化能力使其可以在没有特定训练的情况下执行任务,利用零样本或少样本学习。此外,它们的自然语言理解能力促进了更加直观和情境感知的交互。然而,尽管它们在文本处理方面表现出色,LLM-Agents主要依赖语言输入,限制了其有效感知和处理非文本信息的能力。此外,它们的自主性仍然受限,因为它们通常需要预定义的任务或外部指令来指导决策和执行。
图2:LLM-Agents的不同组件及其功能 [39]
3.2. MLLM-Agents
为了克服LLM-Agents的局限性,研究人员引入了MLLM-Agents,可以处理文本、图像、音频、视频和结构化数据。通过整合多种数据类型,这些代理对其环境有了更深入的理解,实现了更精确的感知、推理和决策。这使得它们在机器人、自动驾驶系统和人机交互等领域特别有用。
与主要依赖文本输入的LLM-Agents不同,MLLM-Agents采用了更为复杂的架构。它们的多模态感知模块首先收集并整合各种数据类型。随后,融合与推理模块综合这些输入,形成全面的环境表征。然后,决策与规划模块利用这些信息制定策略,而动作与执行模块则在不同的数据格式下执行任务,实现与复杂环境的无缝交互。
MLLM-Agents的一个关键优势是其适应性,因为它们可以处理语言和感官数据,从而在动态环境中做出更明智的决策。它们在不确定和数据丰富的条件下也更具韧性。然而,这些好处伴随着挑战。处理多个数据流需要大量的计算能力,而整合不同类型的信息可能会引入不一致性,影响准确性。扩大这些系统以适应大规模应用仍然是另一个障碍。尽管存在这些障碍,MLLM-Agents代表了在语言智能与现实世界感知之间架起桥梁的重大进展。
3.3. Agentic AI
Agentic AI 正在成为人工智能中的一个关键范式,它指的是能够在动态和不确定环境中独立追求复杂目标,且几乎不需要人类监督的自主系统 [15]。认识到其变革潜力,Gartner 将 Agentic AI 确定为 2025 年最重要的战略技术趋势 [40]。
为了更好地理解 agentic AI,让我们谈谈 agenticness 的概念。Agenticness 被定义为一个系统在动态环境中,通过有限的直接监督,自适应地实现复杂目标的程度 [41]。它包含四个关键维度:
- 目标复杂性:系统能够完成的任务范围和难度,考虑到可靠性、速度和安全性。
-
- 环境复杂性:系统在多样化的、多方利益相关者或长视野情境中运作的能力。
-
- 适应性:系统应对新颖或意外情况的程度。
-
- 独立执行:系统在最小人类干预下自主实现目标的能力。
OpenAI 将具有高度 agenticness 的系统定义为“Agentic AI 系统”,强调 agentic 是一个渐进的光谱而非固定分类 [41]。因此,与其严格区分“agentic”和“nonagentic”,不如说 AI 系统在不同程度上展示出 agenticness,随着其在自主性、适应性和目标导向推理方面的能力不断提升。当这些能力达到足够高的阈值时,AI 代理自然会转变为 Agentic AI 系统。
- 独立执行:系统在最小人类干预下自主实现目标的能力。
图3 显示了代理技术的演变,经历了从早期基于规则的专家系统到 AI 驱动的决策,再到基于 LLM 的代理,现在则是基于 MLLM 的代理,这些代理具有更丰富的认知能力。下一阶段的发展,即 agentic AI,代表着一种范式转变,其中 AI 系统展现出高水平的自主性、适应性学习和主动决策。
图3:AI代理技术的进化路径
4. GenAI支持的AI代理在制造业中的应用
GenAI支持的AI代理在制造业中的集成标志着从传统的基于规则的自动化向能够进行知识检索、多模态推理、自我学习和自主决策的智能自优化系统的基本转变。与依赖结构化数据和预定义模型的传统AI方法不同,GenAI支持的AI代理为制造流程带来了语义理解和情境感知能力,以及适应性推理。本节将探讨GenAI支持的AI代理的逐步能力,包括语义检索、认知感知、自我学习优化和自主决策,以及它们对制造业的变革性影响。
4.1. 知识增强的语义检索和自动化文档
制造企业在一个高度复杂的环境中运营,关键知识分布在异构的IT和OT系统中,包括企业资源计划(ERP)、制造执行系统(MES)、产品生命周期管理(PLM)和监控与数据采集(SCADA)。除了结构化数据外,未结构化的来源如维护日志、操作手册、监管指南和生产报告也包含重要的决策信息,但仍然分散且难以整合。
GenAI支持的AI代理利用检索增强生成(RAG)[42]和知识图谱[43],弥合了这些差距,促进语义知识检索和自动化文档合成。与依赖关键词搜索和结构化查询的传统AI方法不同,这些代理采用情境感知的自然语言处理,动态提取和合成制造数据和知识。通过协调结构化和非结构化数据,工程师和操作人员可以通过自然语言交互访问精确且情境相关的洞察力,从而显著提高运营效率和知识可访问性。
最近的研究展示了这些系统在现实应用中的有效性。Lin等人[44]提出了面向半导体行业的智能制造虚拟助手(IMVA),利用LLM代理集成多种制造系统,实现自然语言交互、实时数据检索和自动化报告生成,提高效率和故障诊断。Jeon等人[45]介绍了ChatCNC,这是一个GenAI支持的AI代理框架,具有实时RAG,实现对CNC数据和IIoT传感器读数的自然语言查询,增强决策能力,同时减少对结构化查询的依赖。
通过超越僵硬的关键词查询并实现跨系统的语义集成,这些系统通过自然语言交互和自动化知识合成提高了检索精度,改善了解释性并优化了决策效率。
4.2. 多模态认知感知与情境推理
现代制造环境产生的多模态数据涵盖结构化系统输出(ERP、MES、SCADA、PLC)、非结构化文本(维护日志、技术手册、质量报告、操作员笔记)以及实时传感器和机器视觉输入(图像、视频、热扫描、振动、声音信号、温度、压力)。虽然一些传统AI模型包含多模态融合,但它们主要依赖于基于特征的学习和预定义模式,限制了它们执行复杂推理和动态整合领域特定知识的能力。因此,传统方法在检测相关性方面表现出色,但在因果推断、自适应诊断和实时问题解决方面表现不佳,而这些都是预测性维护、故障诊断和质量控制的关键要素。
GenAI支持的AI代理通过整合MLLM和知识检索克服了这些局限,实现情境感知的感知和推理。通过融合实时传感器数据、机器视觉洞察以及来自维护日志和技术手册的检索领域知识,它们提供了准确的诊断和前瞻性建议。与仅在孤立数据集上运行的传统AI不同,这些代理执行跨模态关联、知识检索和自动化决策支持,从异常检测推进到可解释的诊断和处方建议。Heredia Álvaro等人[46]开发了一个利用MLLM的RAG系统,用于诊断陶瓷瓷砖生产中的缺陷并提出解决方案。通过将文献资料与实时传感器数据和视觉缺陷分析相结合,该系统展示了GenAI支持的AI代理如何合成多模态领域知识并增强制造诊断。
除了质量控制,这些能力在制造业的其他关键领域也具有巨大潜力。在预测性维护中,AI代理可以分析工业设备中的振动和热异常,检索维护历史和制造商规格,并推断出故障的可能性,推荐主动干预措施。尽管这些能力在制造业中尚处于初期阶段,但在医疗诊断[47]和机器人[48]中使用的MLLM的进展表明它们在制造业应用中具有很强的潜力。
4.3. 自适应学习与进化优化
现代制造业在一个动态、不确定的环境中运行,需求波动、资源可用性、机器性能和供应链状况的变化都需要持续调整。
GenAI支持的AI代理将多模态认知感知与自适应学习和进化优化相结合,使系统不仅能解读和推理各种工业数据,还能根据实时反馈不断优化策略。与依赖固定规则优化的传统AI不同,这些代理动态地从传感器数据、机器视觉洞察和历史运营趋势中学习,使其能够根据不断变化的制造条件调整策略。
虽然实际应用仍处于早期阶段,但我们预计这种AI驱动的框架可以改变关键的制造流程:
- 生产调度:GenAI支持的AI代理通过关联实时IT-OT系统输出与历史生产模式及基于知识的建议,动态调整机器分配、订单优先级和优化劳动力分布。
-
- 工艺优化:通过整合传感器数据和质量报告以及来自技术手册和维护日志的领域知识,GenAI支持的AI代理通过自优化机制不断优化制造参数、能效策略和缺陷缓解过程。
-
- 供应链弹性:GenAI支持的AI代理通过分析供应商可靠性、运输延误和需求波动,同步采购、物流和库存管理,确保主动调整以最小化风险并优化成本效益。
通过整合多模态感知、情境推理和自适应学习,GenAI支持的AI代理超越了静态优化,培养出自演化、自主决策的框架,增强了制造业的敏捷性和弹性。
- 供应链弹性:GenAI支持的AI代理通过分析供应商可靠性、运输延误和需求波动,同步采购、物流和库存管理,确保主动调整以最小化风险并优化成本效益。
将GenAI支持的AI代理集成到制造业中,显著增强了知识检索、多模态感知和情境推理、自适应学习和优化。这些进步通过持续优化决策策略以应对不断变化的条件,增强了制造业的敏捷性和弹性。然而,这些代理仍然是任务导向的,优化预定义目标而不是自主塑造制造策略。
随着制造系统的复杂性增加,AI必须从自适应优化转向自主、目标驱动的决策。这一转变标志着Agentic AI的出现,在这里,AI系统承担起在动态环境中自主定义、管理和执行制造过程的更大责任。下一章将探讨这一转变及其对未来制造业的影响。
5. 未来制造业的Agentic AI
Agentic AI 对自主性、适应性和目标驱动决策的重视与当代制造业的战略要求高度一致。与优化预定义任务的现有AI系统不同,Agentic AI 引入了一种新范式,即制造系统可以在动态环境中自主定义、完善和执行目标,几乎无需人工干预。
尽管 Agentic AI 仍在发展中,但它标志着从反应性任务优化向主动系统级智能的转变,强调自主性、适应性、系统范围协调和持续学习。以下部分将探讨这些转变及其对未来制造业的影响。
5.1. 从任务执行到目标驱动优化
当前的AI优化明确定义的目标,如调度和质量检查,但缺乏根据外部变化自主重新定义优化优先级的能力。
Agentic AI引入了自我导向的目标制定,允许系统根据市场条件、供应链变化和实时操作数据动态调整生产目标。与优化固定时间表不同,Agentic AI可以自主决定如何在变化的约束下最大化吞吐量、平衡能源效率和优化资源配置。这一转变将制造业从被动自动化转变为积极智能,使其在波动的工业环境中更具适应性。
5.2. 从基于规则的控制到自适应规划
制造业中的传统AI遵循静态规则,当条件变化时需要人工干预来调整决策模型。这限制了其在不可预测和快速变化的环境中的有效运行。
由强化学习、多模态AI和实时分析驱动的Agentic AI,使生产策略具备自适应和自我优化的能力。例如,如果发生供应链中断,Agentic AI系统可以自主修改生产流程,识别替代材料,并在无人监督的情况下重新配置供应链物流。通过启用实时、数据驱动的适应能力,Agentic AI超越了确定性控制系统,迈向流畅、持续优化的决策框架。
5.3. 从局部优化到系统级协调
目前制造业中的大多数AI应用都是分割的,优化单独的组件,如仓库自动化、设备维护或生产线调度。然而,这些分散的解决方案需要人工协调各个子系统,限制了可扩展性和适应性。
Agentic AI 在生产、物流和企业管理中协调智能,确保在系统层面进行跨职能优化。它能够自主同步调度、库存管理和运输物流,减少因孤岛决策导致的低效率。这一能力对于高混合、低产量的制造环境尤为重要,因为在这种环境中,动态协调对于平衡成本、效率和响应性至关重要。
5.4. 从静态执行到持续学习和进化
制造业中的传统AI需要定期重新训练以保持相关性,限制了其动态适应变化条件的能力。这种静态方法阻止了AI系统自主进化。
Agentic AI 集成了自我监督学习和强化学习,使制造系统能够实时优化决策策略。不同于依赖定期更新的做法,Agentic AI 可以持续改进其模型,优化能源使用、减少浪费并在长时间运行周期内增强预测性维护。这种进化能力释放了长期工业智能的潜力,随着时间的推移,AI 系统在无需人为干预的情况下变得更为高效和强大。
Agentic AI 在制造业中推动了AI能力从固定任务执行向自我导向优化的转变,从静态控制向自适应决策的转变,以及从局部自动化向全系统自主性的转变。通过整合实时学习机制,Agentic AI 有潜力将制造生态系统转变为自我优化、持续进化的系统。虽然完全实现Agentic AI 仍然是一个持续的挑战,但其增强制造业弹性、效率和适应性的潜力使其成为未来研究的重要方向。
6. 挑战
6.1. 技术挑战
在制造业中整合AI代理和Agentic AI面临着重大挑战,这些挑战源于工业知识的异质性、多模态数据的复杂性以及AI驱动决策中解释性的必要性。
6.1.1. 制造业中的跨格式文档解析
制造业的知识主要存储在多源、非结构化的文档中,如技术手册和装配规范,这些文档通常是通过多种格式生成的,例如Word转PDF转换、LaTeX渲染和扫描图像识别。现有的PDF解析技术在文本碎片化、公式失真和矢量图形丢失方面存在问题,因此需要一个强大的跨格式文档重构框架,以确保语义的一致性和可靠性。
6.1.2. 制造业中的多模态知识提取和对齐
制造业知识本质上是多模态的,涵盖了文本、数学方程(LaTeX,MathML)、工程示意图和CAD。从大量非结构化数据集中有效地提取隐含的过程参数、设备约束和工程关系,需要结合知识图谱的上下文感知LLMs。一个关键挑战在于实现细粒度的跨模态语义对齐,确保文本描述、数学推导和视觉表示在一个统一的知识框架内准确关联并互相补充。
6.1.3. 制造业中的可解释性与可说明性
可解释性是AI在制造业部署中的一个关键前提,因为决策过程必须透明、可验证,并符合特定领域的约束条件。然而,目前的LLMs作为不透明的黑盒模型运作,缺乏结构化、可解释推理的能力,从而限制了其在高风险工业应用中的可靠性。克服这一限制需要整合因果推理、物理信息建模和可解释AI(XAI)框架,确保AI驱动的决策在复杂的制造业生态系统中是可追溯、可审计和可操作的。
6.2. 劳动力和组织上的阻力
实施下一代AI需要工程师、数据科学家和操作员之间的跨学科合作。然而,刚性的公司结构、传统的业务流程和有限的AI素养造成了对变革的抵制。许多员工缺乏必要的技术专长来解释AI生成的见解或与自治系统有效互动。此外,对变革的抵触情绪可能会减缓部署,特别是在历史上手动干预主导生产流程的环境中。解决这些挑战需要以AI为重点的员工培训计划、技能提升倡议和领导驱动的组织适应策略,以弥合人力专业知识与AI驱动决策之间的差距。
6.3. 责任和投资回报率(ROI)问题
随着AI代理在制造业决策中承担越来越多的自主权,确保问责制和治理变得至关重要。在质量控制、预测性维护和生产优化等安全关键操作中,制造商必须定义清晰的责任框架,以审核AI驱动的决策并确保合规性。
此外,尽管AI通常与效率提升和成本降低有关,但量化其投资回报率(ROI)仍然具有挑战性。在许多情况下,AI驱动系统的益处可能不会立即显现,使得企业难以证明大规模部署的合理性。
7. 结论
本文探讨了AI和基于代理的系统的演变,重点介绍了由大模型赋能的LLM-Agents和MLLM-Agents的关键研究趋势,以及新兴的Agentic AI范式。解释了它们的发展、概念基础和独特特征。它们朝着更自主、自适应和目标导向的AI系统的发展引起了人们的兴趣。
这些AI代理通过推动从基于规则的自动化向智能自主的转变,赋予智能制造力量。它们在知识整合、实时决策和多模态感知方面的能力可以提升制造业的效率、灵活性和适应性。
挑战依然存在,包括数据基础设施、员工适应和AI责任,这些问题需要解决才能实现更广泛的采用。
本文旨在澄清众多概念,并为其对未来制造业研究的意义提供结构性视角。通过概述其技术轨迹和挑战,我们旨在激发讨论,并鼓励进一步研究可扩展、可解释和工业可行的AI代理框架,以推动下一代智能制造系统。
利益冲突声明
作者声明他们在本论文报告的工作中没有任何已知的竞争性经济利益或个人关系可能会影响工作。
参考文献
[1] A. Kusiak, Smart manufacturing, International Journal of Production Research (2018). doi:10.1080/00207543.2017.1351644.
[2] P. Zheng, H. wang, Z. Sang, R. Y. Zhong, Y. Liu, C. Liu, K. Mubarok, S. Yu, X. Xu, Smart manufacturing systems for industry 4.0: Conceptual framework, scenarios, and future perspectives, Frontiers of Mechanical Engineering 13 (2) (2018) 137-150. doi:10.1007/s11465-018-0499-5.
[3] J. Wang, Y. Ma, L. Zhang, R. X. Gao, D. Wu, Deep learning for smart manufacturing: Methods and applications, Journal of Manufacturing Systems 48 (2018) 144-156. doi:10.1016/j.jmsy.2018.01.003.
[4] F. Tao, H. Zhang, A. Liu, A. Y. C. Nee, Digital twin in industry: State-of-the-art, IEEE Transactions on Industrial Informatics 15 (4) (2019) 2405-2415. doi:10.1109/tii.2018.2873186.
[5] J. Sauvola, S. Tarkoma, M. Klemettinen, J. Riekki, D. Doermann, Future of software development with generative ai, Automated Software Engineering 31 (1) (2024) 26. doi:10.1007/s10515-024-00426-z.
[6] C. Stokel-Walker, R. van Noorden, What chatgpt and generative ai mean for science, Nature 614 (2023) 214-216. doi:10.1038/d41586-023-003406 .
[7] Z. Epstein, A. Hertzmann, C. the Investigators of Human, M. Akten, H. Farid, J. Fjeld, M. R. Frank, M. Groh, L. Herman, N. Leach, R. Mahari, A. S. Pentland, O. Russakovsky, H. Schroeder, A. Smith, Art and the science of generative ai, Science 380 (6650) (2023) 1110-1111. doi:10.1126/science.adh4451.
[8] T. Wang, J. Fan, P. Zheng, An llm-based vision and language cobot navigation approach for human-centric smart manufacturing, Journal of Manufacturing Systems 75 (2024) 299-305. doi:10.1016/j.jmsy.2024.04.020.
[9] T. B. Brown, Language models are few-shot learners, in: In Proceedings of the 34th International Conference on Neural Information Processing System, 2020.
[10] S. Yin, C. Fu, S. Zhao, K. Li, X. Sun, T. Xu, E. Chen, A survey on multimodal large language models, National Science Review 11 (12) (2024) nwae403. doi:10.1093/nsr/nwae403.
[11] W. Yu, J. Lv, W. Zhuang, X. Pan, S. Wen, J. Bao, X. Li, Rescheduling human-robot collaboration tasks under dynamic disassembly scenarios: An mllm-kg collaboratively enabled approach, Journal of Manufacturing Systems 80 (2025) 20-37. doi:10.1016/j.jmsy.2025.02.015.
[12] M. Wooldridge, N. R. Jennings, Intelligent agents: theory and practice, The Knowledge Engineering Review 10 (1995) 115 - 152. doi:10.1017/S0269888900008122.
[13] J. Xie, Z. Chen, R. Zhang, X. Wan, G. Li, Large multimodal agents: A survey, ArXiv abs/2402.15116 (2024).
[14] J. Liao, Autoforma: A large language model-based multi-agent for computer-automated design, 2024 IEEE International Conference on Systems (2024).
[15] D. B. ACHARYA, Agentic ai: Autonomous intelligence for complex goals-a comprehensive survey, IEEE Access (2025). doi:10.1109/ACCESS.2025.3532853.
[16] V. Shankar, Managing the twin faces of ai: A commentary on “is ai changing the world for better or worse?”, Journal of Macromarketing 44 (4) (2024) 892-899. doi:10.1177/02761467241286483.
[17] J. McCarthy, From here to human-level ai, Artificial Intelligence 171 (18) (2007) 1174-1182. doi:10.1016/j.artint.2007.10.009.
[18] Y. LeCun, Y. Bengio, G. Hinton, Deep learning, Nature 521 (7553) (2015) 436-444. doi:10.1038/nature14539.
[19] S. Pouyanfar, S. Sadiq, Y. Yan, H. Tian, Y. Tao, M. P. Reyes, M.-L. Shyu, S.-C. Chen, S. S. Iyengar, A survey on deep learning: Algorithms, techniques, and applications, ACM Comput. Surv. 51 (5) (2018) Article 92. doi:10.1145/3234150.
[20] Q. Sun, L. Yang, From independence to interconnection - a review of ai technology applied in energy systems, CSEE Journal of Power and Energy Systems 5 (1) (2019) 21-34. doi:10.17775/CSEEJPES.2018.00830.
[21] S. Dong, P. Wang, K. Abbas, A survey on deep learning and its applications, Computer Science Review 40 (2021) 100379. doi:10.1016/j.cosrev.2021.100379.
[22] D. E. Rumelhart, G. E. Hinton, R. J. Williams, Learning representations by back-propagating errors, Nature 323 (6088) (1986) 533-536. doi:10.1038/323533a0.
[23] A. Vaswani, N. M. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, I. Polosukhin, Attention is all you need, in: Neural Information Processing Systems, 2017.
[24] S. Hochreiter, J. Schmidhuber, Long short-term memory, Neural Computation 9 (8) (1997) 1735-1780. doi:10.1162/neco.1997.9.8.1735.
[25] A. Diez-Olivan, J. Del Ser, D. Galar, B. Sierra, Data fusion and machine learning for industrial prognosis: Trends and perspectives towards industry 4.0, Information Fusion 50 (2019) 92-111. doi:10.1016/j.inffus.2018.10.005.
[26] O. Serradilla, E. Zugasti, J. Rodriguez, U. Zurutuza, Deep learning models for predictive maintenance: a survey, comparison, challenges and prospects, Applied Intelligence 52 (10) (2022) 10934-10964. doi:10.1007/s10489-021-03004-y.
[27] Y. Ren, J. Dong, J. He, D. Zhang, K. Wu, Z. Xiong, P. Zheng, Y. Sun, S. Liu, A novel six-dimensional digital twin model for data management and its application in roll forming, Advanced Engineering Informatics 61 (2024) 102555. doi:10.1016/j.aei.2024.102555.
[28] H. Liu, L. Wang, Remote human-robot collaboration: A cyber-physical system application for hazard manufacturing environment, Journal of Manufacturing Systems 54 (2020) 24-34. doi:10.1016/j.jmsy.2019.11.001.
[29] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, G. Lample, Llama: Open and efficient foundation language models, ArXiv abs/2302.13971 (2023).
[30] J. Bai, S. Bai, Y. Chu, Z. Cui, K. Dang, X. Deng, Y. Fan, W. Ge, Y. Han, F. Huang, Qwen technical report, arXiv preprint arXiv:2309.16609 (2023).
[31] C. Chen, K. Zhao, J. Leng, C. Liu, J. Fan, P. Zheng, Integrating large language model and digital twins in the context of industry 5.0: Framework, challenges and opportunities, Robotics and Computer-Integrated Manufacturing 94 (2025). doi:10.1016/j.rcim.2025.102982.
[32] Z. Yang, L. Li, K. Lin, J. Wang, C.-C. Lin, Z. Liu, L. Wang, The dawn of lmms: Preliminary explorations with gpt-4v (ision), arXiv preprint arXiv:2309.17421 9 (1) (2023) 1.
[33] H. Liu, C. Li, Y. Li, Y. J. Lee, Improved baselines with visual instruction tuning, 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023) 26286-26296.
[34] Q. Ye, H. Xu, J. Ye, M. Yan, A. Hu, H. Liu, Q. Qian, J. Zhang, F. Huang, J. Zhou, mplug-owi2: Revolutionizing multi-modal large language model with modality collaboration, 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023) 13040-13051.
[35] J. Wu, W. Gan, Z. Chen, S. Wan, P. S. Yu, Multimodal large language models: A survey, in: 2023 IEEE International Conference on Big Data, 2023, pp. 2247-2256. doi:10.1109/BigData59044.2023.10386743.
[36] Z. Xi, W. Chen, X. Guo, W. He, Y. Ding, B. Hong, M. Zhang, J. Wang, S. Jin, E. Zhou, R. Zheng, X. Fan, X. Wang, L. Xiong, Y. Zhou, W. Wang, C. Jiang, Y. Zou, X. Liu, Z. Yin, S. Dou, R. Weng, W. Qin, Y. Zheng, X. Qiu, X. Huang, Q. Zhang, T. Gui, The rise and potential of large language model based agents: a survey, Science China Information Sciences 68 (2) (2025) 121101. doi:10.1007/s11432-024-4222-0.
[37] A. Dorri, S. S. Kanhere, R. Jurdak, Multi-agent systems: A survey, IEEE Access 6 (2018) 28573-28593. doi:10.1109/ACCESS.2018.2831228.
[38] D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. van den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, D. Hassabis, Mastering the game of go with deep neural networks and tree search, Nature 529 (7587) (2016) 484-489. doi:10.1038/nature16961.
[39] L. WANG, A survey on large language model based autonomous agents, Front. Comput. Sci (2024). doi:10.1007/s11704-024-40231-1.
[40] Gartner, Inc., Top strategic technology trends for 2025, https://www.gartner.com/en/articles/top-technology-trends-2025 (Accessed: 2025-03-24) (2024).
[41] OpenAI, Practices for governing agentic ai systems, https://cdn.openai.com/papers/practices-for-governing-agentic-ai-systems.pdf (Accessed: 2025-03-24) (2024).
[42] Y. Wan, Empowering llms by hybrid retrieval-augmented generation for domain-centric q&a in smart manufacturing, Advanced Engineering Informatics (2025). doi:10.1016/j.aei.2025.103212.
[43] Q. Xu, F. Qiu, G. Zhou, C. Zhang, K. Ding, F. Chang, F. Lu, Y. Yu, D. Ma, J. Liu, A large language model-enabled machining process knowledge graph construction method for intelli-
gent process planning, Advanced Engineering Informatics 65 (2025). doi:10.1016/j.aei.2025.103244.
[44] C.-Y. Lin, Generative ai for intelligent manufacturing virtual assistants in the semiconductor industry, IEEE ROBOTICS AND AUTOMATION LETTERS. PREPRINT VERSION (2025). doi:10.1109/LRA.2025.3544506.
[45] J. Jeon, Y. Sim, H. Lee, C. Han, D. Yun, E. Kim, S. L. Nagendra, M. B. G. Jun, Y. Kim, S. W. Lee, J. Lee, Chatcnc: Conversational machine monitoring via large language model and real-time data retrieval augmented generation, Journal of Manufacturing Systems 79 (2025) 504-514. doi:10.1016/j.jmsy.2025.01.018.
[46] J. A. H. 'Alvaro, An advanced retrieval-augmented generation system for manufacturing quality control, Advanced Engineering Informatics (2025). doi:10.1016/j.aei.2024.103007.
[47] T. Tu, S. Azizi, D. Driess, M. Schaekermann, M. Amin, P.-C. Chang, A. Carroll, C. Lau, R. Tanno, I. Ktena, A. Palepu, B. Mustafa, A. Chowdhery, Y. Liu, S. Kornblith, D. Fleet, P. Mansfield, S. Prakash, R. Wong, S. Virmani, C. Semturs, S. S. Mahdavi, B. Green, E. Dominowska, y. Arcas Blaise Aguera, J. Barral, D. Webster, S. Corrado Greg, Y. Matias, K. Singhal, P. Florence, A. Karthikesalingam, V. Natarajan, Towards generalist biomedical ai, NEJM AI 1 (3) (2024) AIoa2300138, doi: 10.1056/AIoa2300138. doi:10.1056/AIoa2300138.
[48] D. Driess, F. Xia, M. S. M. Sajjadi, C. Lynch, A. Chowdhery, B. Ichter, A. Wahid, J. Tompson, Q. H. Vuong, T. Yu, W. Huang, Y. Chebotar, P. Sermanet, D. Duckworth, S. Levine, V. Vanhoucke, K. Hausman, M. Toussaint, K. Greff, A. Zeng, I. Mordatch, P. R. Florence, Palm-e: An embodied multimodal language model, in: International Conference on Machine Learning, 2023.
参考论文:https://arxiv.org/pdf/2507.01376

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)