【连载8】基础智能体的进展与挑战综述-感知
虽然越来越多的研究工作[543, 590]致力于构建统一的多模态模型以支持多种感知能力的输入与输出,智能体感知作为自主系统的基石,在有效解释和整合多模态数据方面仍面临重大挑战。当前的方法在表示学习、对齐和融合方面存在持续性问题,阻碍了鲁棒且可泛化的感知系统的发展。一个主要问题在于所采用的表示方法,这些方法通常无法捕捉多模态数据的复杂细节。这一缺陷在需要复杂抽象来保留关键语义信息的高维感知输入场景中
基础智能体的进展与挑战综述
从类脑智能到具备可进化性、协作性和安全性的系统
【翻译团队】刘军(liujun@bupt.edu.cn) 钱雨欣玥 冯梓哲 李正博 李冠谕 朱宇晗 张霄天 孙大壮 黄若溪
7. 感知
感知是人类和智能体获取信息、理解环境并最终做出明智决策的基础通道。对人类而言,感知是无缝且直观的,能轻松地将感官输入转化为有意义的解释。而在人工智能中,感知系统是经过精密设计以模拟——并在某些方面超越——人类感官处理能力的,这在很大程度上影响了智能体在复杂环境中的交互、学习与适应能力。
本章首先探讨了人类与AI智能体在感知的本质与效率上的关键差异。接着,我们根据感知输入的不同形式与表示方式对智能体感知进行了分类。随后,讨论了当前智能体感知系统面临的挑战,并指出在建模方法和系统架构层面上的有前景的改进方向。最后,我们展示了感知模块如何有效适应不同的智能体场景,为优化其使用提供实践指导,并提出未来研究的重要方向。
7.1 人类与AI的感知
感知是智能的基础,它作为人类与人工智能体与世界交互的接口。尽管人类通常将感知理解为五种经典感官——视觉、听觉、味觉、嗅觉和触觉——但现代神经科学揭示了更为丰富的感官体系。保守估计认为人类拥有约10种感官;更全面的观点则列出了大约21种感官,而一些研究人员提出人类可能具备多达33种不同的感知模态【546, 547】。除了熟知的感官外,人类还具备复杂的内部感知能力,例如前庭觉(平衡)、本体觉(身体位置意识)、温度觉(温度)和痛觉(疼痛),这些都使人类能够更加细致地与环境互动。
人类感官被精确地调谐以感知特定的物理信号:例如,人类视觉能感知波长约在380–780纳米之间的电磁波,而听觉则能感知频率大约在20赫兹到20千赫兹之间的声音【548】。这些感知模态使人类能够轻松地进行语言交流、物体识别、社会互动和空间导航等复杂任务。此外,人类能自然地感知时间上的连续变化,流畅整合运动感知和时间意识,这些能力对协调运动和决策至关重要【549】。在自然界中,动物展现出更为多样的感知能力。例如,鸟类和某些海洋生物利用磁感知通过地磁场导航,而鲨鱼和电鳗则利用电感知来探测其他生物发出的电信号——这些都是人类所不具备的能力【550】。
与生物感知不同,人工智能体依赖于人工设计的传感器,这些传感器将环境刺激转换为算法可处理的数字信号。AI智能体常用的感知模态包括视觉传感器(摄像头)、听觉传感器(麦克风)、触觉传感器和惯性测量单元。AI智能体通常在处理视觉、听觉和文本数据方面表现出色,得益于深度学习和信号处理技术的发展。然而,某些人类的感知能力——尤其是味觉和嗅觉——对机器而言仍极具挑战。例如,研究人员开发的先进仿生嗅觉芯片目前只能区分大约24种气味,而人类的嗅觉系统则能辨别超过4000种不同的气味【551, 552】。
另一个关键区别在于感知处理的效率。人类感知受限于生理条件,例如神经传导速度通常在毫秒级别。而AI系统则可以在微秒甚至纳秒级别处理感知输入,其处理速度主要受限于计算硬件性能而非生理机制。然而,人类感知天生就能将来自多种感官模态的信息——即多模态感知——轻松整合为统一的体验。相比之下,人工智能体要实现这种多模态整合,需要精心设计的融合算法,明确地将来自不同传感器的输入合并,以构建统一的环境表示【553】。
人类与人工智能体在处理时间和空间信息的方式上也存在差异。人类的感知具有天然的连续性和流动性,可以平滑地感受时间流逝和空间运动,而无需显式的时间离散化。而AI智能体则通常依赖于对传感器数据的离散采样,通过时间戳或顺序处理来模拟连续性。人类的空间感知能够自然地融合视觉、听觉和前庭信息,实现直观的空间定位。而对于人工智能体而言,空间感知通常涉及算法处理过程,如同时定位与建图(SLAM)或从视觉数据序列中重建3D场景【554】。
从外部环境传递到人类感官的物理或化学刺激将由感知系统(如眼睛、耳朵、皮肤等)接收,并转化为神经信号,最终由大脑处理形成对环境的感知。类似地,为了使智能体能够与环境连接,获取这些感知内容也至关重要。目前,主要依靠各种传感器将电信号转换为可处理的数字信号。
在本节中,我们根据输入所涉及的模态数量以及是否进行了统一融合建模操作,将感知模型划分为三类:单模态模型(Unimodal Models)、跨模态模型(Cross-modal Models)和多模态模型(Multimodal Models)。单模态模型专门处理和分析来自单一模态或类型的输入(如文本、图像或音频);跨模态模型通过专门的映射机制,在不同模态之间建立关系并实现模态转换;而多模态模型则在整体上同时整合和处理多种模态,以利用互补信息实现全面的理解与决策。
图7.1:感知系统的分类
7.2 感知表达的类型
7.2.1 单模态模型
当人类置身于环境中时,可以聆听美妙的音乐,欣赏日出日落,或在舞台上体验一场视听盛宴。这些感知内容可以是单一的图像或音频,也可以是多种感知内容的融合。就智能体的感知输入类型而言,我们从单模态和多模态输入出发,介绍其实现方式及差异。
-
文本
作为重要的交流方式,文本承载了丰富的信息、思想、情感与文化。人类通过视觉、听觉和触觉间接获取文本内容,这是人与环境互动最重要的方式之一。而对于智能体来说,文本可以直接作为连接环境的桥梁,以文本为直接输入,并输出响应内容。除了字面意义外,文本还包含丰富的语义信息与情绪色彩。早期使用词袋模型(bag-of-words)[555]对文本内容进行计数,广泛应用于文本分类场景,但无法获取语义表达。BERT[485]采用双向Transformer结构进行语言建模,通过大规模无监督预训练获取文本的深层语义信息。[486, 487]进一步优化了BERT的训练效率。以GPT3.5[556]为代表的自回归模型,开启了大语言模型(LLM)的序幕,进一步统一了文本理解与文本生成任务,而如LoRA[109]等技术大大降低了LLM的应用成本,提高了智能体在复杂现实任务中的感知能力。
-
图像
图像是人类与环境互动的另一重要方式,其本质上编码了空间信息,包含形态特征、空间位置、维度关系与运动属性等关键内容。计算机视觉架构的演进充分体现了处理这些空间属性的能力。ResNet架构[488]奠定了深度视觉特征提取的基础原则,后续的YOLO系列[557, 558]展示了同时进行目标定位与分类的高效能力。DETR[489]的出现带来了范式转变,其通过全局上下文推理实现并行预测,有效消除了传统目标检测中非极大值抑制和锚点生成带来的计算开销。最新的DINO 1.5[490]通过架构创新、增强的主干网络与扩展训练策略,将这些能力拓展到开放集场景,在非约束环境中大幅提升了智能体的感知泛化能力。
-
视频
视频是图像帧的连续表达,包含时间维度,并通过图像帧的连续变化展示随时间演化的动态信息。智能体以视频为输入,通过连续帧获得更丰富的感知内容。ViViT[491]从视频中提取时空标记,有效解耦了输入的空间与时间维度。VideoMAE[492]通过自监督预训练学习通用视频特征表示,在领域外数据上展现出强泛化能力,为智能体在新场景中获取感知能力打下坚实基础。
-
音频
除了文本与视觉,音频是人类与环境交互的另一重要方式。音频不仅包含直接的文本内容,还包含说话者的语调与情感[559]。Wav2Vec2[495]通过联合学习潜在表示的量化定义对比任务,在仅需1/100标注数据量的前提下实现语音识别效果。FastSpeech 2[493]直接引入音高、能量、时长等语音变化信息,并通过真实目标训练模型,实现更自然的文本转语音转换。Seamless[494]通过流式多头单调注意力机制实现低延迟的目标翻译,同时保持人声风格,可实现多源语言到目标语言的同步语音到语音/文本翻译。基于上述方式,智能体可具备“听”和“说”的能力。
-
其他
目前智能体研究主要集中于上述常见感知输入类型。但正如人类拥有超过20种感知类型,智能体在实现相应感知能力方面也取得了进展。香港科技大学开发的仿生嗅觉芯片[551]在纳米多孔基底上集成碳纳米管传感器阵列,每个芯片上最多包含10,000个独立寻址的气体传感器,其配置类似于人类与动物的嗅觉系统,可准确区分混合气体与24种气味。在味觉方面,同济大学[560]结合荧光与磷光信号,开发出具有多模式光响应的智能味觉传感器,可有效识别鲜味、酸味与苦味。为了实现类似人类的触觉与抓取能力,纽约大学[561]推出了一种低成本磁性感知器AnySkin,可快速组装与更换。在疼痛感知方面,中国科学院利用液态金属粒子膜在“受伤”(机械划伤)时的独特电学特性,模仿“伤口”感知与定位。一些其他工作,如 HuggingGPT[152]、LLaVA-Plus[500]和 ViperGPT[498],在框架中整合上述单模态感知能力,根据任务需求进行选择与应用,实现更复杂的任务目标。
图7.2:人类与智能体的常见感知类型比较
7.2.2 跨模态模型
-
文本-图像
近年来,集成文本与图像的跨模态模型取得了显著进展,提升了这两种模态之间的对齐、检索与生成能力。这类模型可根据其主要目标划分为三类:跨模态对齐与检索、文本生成图像、图像生成文本。跨模态研究的主要方向之一是文本与图像的对齐与检索。OpenAI 在 2021 年提出的CLIP[51]使用对比学习方法来对齐文本与视觉表示,实现了零样本的跨模态检索与分类。谷歌于同年提出的ALIGN[501]利用大规模噪声网页数据来优化文本图像嵌入对齐。2022 年,CyCLIP[562]引入循环一致性损失以增强对齐的稳健性,进一步提升了检索任务的可靠性。
另一个重要研究领域是文本到图像生成,目标是根据文本描述合成高质量图像。OpenAI 的 DALL·E系列[563, 564, 502](2021至2023)在该领域取得了重大突破,其中 DALL·E 3提供了对生成图像的细粒度语义控制。StabilityAI于2022年推出的Stable Diffusion[565]使用基于扩散的生成方法,支持开放域的文本到图像生成以及跨模态编辑。
第三个重要方向是图像到文本生成,其目标是根据图像输入生成高质量的文本描述。典型代表为Salesforce于2022至2023年提出的BLIP[566]和BLIP-2[567]模型,通过轻量桥接模块增强视觉与语言模型的整合能力,支持图像描述与问答等任务。
-
文本-视频
该领域的研究关键在于视频文本的对齐、生成与检索。VideoCLIP[504]使用视频编码器(通常基于时序卷积或Transformer结构)从视频帧中提取时序特征,并与语言编码器生成的文本表示对齐,实现稳健的视频-文本关联。在文本到视频生成方向上,Meta的 Make-A-Video模型[506]通过扩展时空维度及扩散技术,实现了高质量视频的文本生成。谷歌的 Phenaki[505]聚焦于生成长时间、时间连贯的视频序列,展现了跨模态学习在视频生成方面的重大进展。DeepMind的Frozen in Time[568]应用对比学习进行视频文本匹配,从而实现高效的跨模态检索能力,进一步提升了视频片段的文本查询效果。
-
文本-音频
将文本与音频连接的跨模态模型在模态表示、生成与转换等任务中取得了显著提升,同时也增强了智能体在单模态下的感知能力。2021年推出的AudioCLIP[509]将CLIP框架扩展到音频领域,使图像、文本与音频实现三模态检索。通过多任务学习,AudioCLIP 将三种模态表示统一到共享的嵌入空间中,增强了跨模态检索与交互的能力。类似地,VATT[508]采用统一的基于Transformer的架构来处理视频、音频与文本,并通过独立编码分支将其融合到共享多模态空间,支持跨模态检索与多任务学习,提升了多模态场景下的适应能力。在文本到音频生成方面,Meta于2023年推出的AudioGen[569]可根据文本描述合成音频,如环境声音与音乐片段,展示了AI在基于语言输入生成高保真音频方面的能力,拓展了其在媒体、娱乐与无障碍领域的应用。此外,在语音转文本与文本转语音转换领域,微软推出了 SpeechT5[570]模型。该模型统一了语音与文本的生成,支持语音合成与识别功能,通过共享架构实现了这两项功能,推动了自动转录、语音助手与辅助工具的发展。
-
其他
在某些特定场景与领域中,跨模态建模同样发挥了重要作用。CLIP-Forge[510]提出了一种基于自然语言描述生成3D形状的新方法,利用CLIP的对比学习能力,实现了文本到高质量3D对象的合成,弥合了语言与3D几何之间的差距。Point-E[511]扩展了此概念,通过文本描述生成3D点云,相较于传统3D重建技术,Point-E更注重点云表示,在保持文本提示高保真度的同时,实现了高效且可扩展的3D内容创作。在医学影像领域,MoCoCLIP[571]提出了一种增强零样本学习能力的方法。通过将CLIP与Momentum Contrast(MoCo)集成,该方法提升了深度学习模型在医学影像应用中的泛化能力,有效应对了标注数据稀缺与领域适应性问题。
7.2.3 多模态模型
上述跨模态模型主要通过对比学习等方式实现模态之间的对齐与映射,从而实现信息的互补与转换。而多模态模型的工作则进一步聚焦于如何融合多种数据(如视觉、文本、音频等)的特征,以提升整体模型性能。
-
视觉语言模型(VLM)
视觉语言模型被广义定义为能够同时从图像(或视频)和文本中学习的多模态模型。人类生活在一个充满多模态信息的世界中,视觉信息(如图像和视频)与语言信息(如文本)常常需要结合才能完整表达意义,智能体亦是如此。LLaVA[513]首次尝试使用 GPT-4 生成多模态语言图像指令数据集,通过端到端训练获得大规模多模态模型,并展示出优秀的多模态对话能力。LLaVA-NeXT[513]使用动态高分辨率和混合数据,即使在纯英文模态数据上也展现出惊人的零样本能力,且计算与训练成本仅为其他方法的 1/100 至 1/1000。Emu2[516]改变了传统使用图像tokenizer将图像转为离散token 的方式,直接使用图像编码器将图像转为连续嵌入向量供Transformer使用,从而增强了多模态上下文学习能力。MiniGPT-v2[512]在训练中为不同任务分配唯一标识符,帮助模型更有效区分任务指令,提升学习效率。Qwen2-VL[515]、DeepSeek-VL2[572]对视觉部分使用动态编码策略,旨在处理不同分辨率的图像,并生成更高效、准确的视觉表示。同时,DeepSeek-VL2[572]还使用了具有多头潜在注意机制的MoE模型,将 Key-Value缓存压缩为潜在向量,实现高效推理。早期的工作主要使用图文数据进行训练。Video-ChatGPT[573]将输入扩展至视频,使用视频自适应视觉编码器与LLM联合训练,捕捉视频数据中的时间动态与帧间一致性关系,从而实现连贯的视频内容开放式对话。为了解决图像与视频缺乏统一token化的问题,Video-LLaVA[574]将图像与视频编码后的视觉表示统一至语言特征空间,实现相互增强。Chat-UniVi[575]使用一组动态图像token来融合图像与视频,同时利用多尺度表示帮助模型掌握高层语义与低层视觉细节。Youku-mPLUG[576]则在特定场景中进行了深入研究,基于优质中文视频文本对提升对整体和细节视觉语义的理解及场景文本识别能力。不同于需训练的方法,SlowFast-LLaVA[577]通过双流 SlowFast 架构无须视频数据微调,即可有效捕捉详细空间语义和长期时间上下文,性能媲美或超过微调方法。
随着大模型参数逐渐减小,端侧算力增强,高性能端侧模型快速发展。手机与PC等智能终端对图像视觉处理有强烈需求,对部署AI模型提出更高的多模态识别与推理性能要求。TinyGPT-V[517]基于 Phi-2[578]小模型骨干网络与BLIP-2[567]构建,仅需 8G 显存或 CPU即可进行推理,解决了LLaVA[513]与MiniGPT-4[579]的计算效率问题。MiniCPM-V[519]在处理长难图像方面提供了强大的OCR能力,幻觉率低,输出感知可靠。Megrez-3B-Omni[580]通过软硬件协同优化确保结构参数与主流硬件高度兼容,推理速度较同精度模型提升300%,提升其在不同端侧硬件下的适应性。
同时,还有更多面向GUI的研究致力于自动执行手机与PC上的任务。Omni-Parser[520]使用网页与图标描述数据集进行微调,显著提升对截图中图标的检测与功能语义表达能力。GUICourse[581]和 OS-ATLAS[582]构建跨平台GUI grounding 语料库,显著增强了对GUI截图的理解与组件交互知识。
-
视觉语言动作模型(VLA)
视觉语言动作模型以视觉与语言为输入,以机器人动作为输出,是具身智能领域的重要研究方向。VLA模型在视觉与语言编码器的选择上经历了多种演变,从早期的CNN 发展到Transformer架构,进一步整合 3D 视觉与大语言模型。CLIPort[521]使用 ResNet[488]处理视觉输入,并结合语言嵌入生成动作,奠定了多模态融合的基础。RT-1[522]引入Transformer架构,使用 EfficientNet 作为视觉编码器,USE 作为语言编码器,并通过FiLM机制融合信息,大幅提升泛化能力。VIMA[523]引入多模态 prompt,结合ViT和T5模型,支持更复杂的任务。PerAct[524]创新性地使用3D点云作为视觉输入,通过Perceiver IO处理多视图信息,为机器人操作提供更丰富的空间感知能力。Diffusion Policy[525]结合 ResNet与Transformer,通过扩散模型生成动作,提升动作多样性与精度。SayCan[583]使CLIP和PaLM进行任务分解与规划,PaLM-E[526]结合 ViT和PaLM引导低层动作执行。MultiPLY[527]整合3D信息与 LLM,提供更全面的复杂任务规划能力。
-
音频语言模型(ALM)
音频语言模型通过音频与文本构建多模态模型。SpeechGPT[533]构建了大规模跨模态语音指令数据集 SpeechInstruct,训练离散语音表示,实现超预期的语音对话能力。LauraGPT[584]引入融合连续与离散音频特征的新型数据表示,通过监督多任务学习在多种音频任务上表现优异。[529, 585, 531]将音频数据转为嵌入表示后进行指令微调,在多种语音处理任务中通过自然语言指令达成高性能。为降低微调成本,Audio Flamingo[528]基于上下文学习与检索,在ALM中快速提升对未见任务的适应能力。UniAudio 1.5[530]使用文本词语或子词作为音频token,通过少量样本学习音频表示,无需微调即可实现跨模态输出。Qwen2-Audio[54]引入DPO训练方法,使输出更贴近人类偏好。
-
音频视觉语言模型(AVLM)
AVLM 同时利用音频、视觉与文本实现多模态统一建模。先前介绍的一些工作利用两个模态的信息进行建模。在通往AGI的道路上,任务与模态的多样性与异质性是主要障碍。适当的方法是构建一个统一框架以支持更多模态能力。一些闭源工作[586, 587]已在文本、视觉、音频等模态中展现出优秀能力。ImageBind[588]实现了图像、文本、音频、深度、热成像与 IMU 数据六模态联合嵌入。Panda-GPT[535]结合ImageBind 与 Vicuna[589]展现了跨图文模态的零样本能力。类似的还有[539, 539, 536],通过视觉、音频、文本编码信息进行对齐与训练。UniVAL[538]仅用约2.5亿参数训练模型,通过任务平衡与多模态课程学习,在保持分布外泛化能力的同时使用权重插值融合模型。NExT-GPT[542]将LLM与多模态适配器和扩散解码器连接,仅需训练约1%的投影层参数。
其他工作[543, 590, 544, 545]实现了任意模态间的输入输出转换。Unified-IO 2[543]是首个可理解与生成图像、文本、音频和动作的自回归多模态模型,将不同模态输入 token 化为共享语义空间并使用编解码器处理。AnyGPT[590]构建了首个大规模任意对任意多模态指令数据集,使用离散表示统一处理多模态输入。Modaverse[545]将LLM输出直接与生成模型输入对齐,避免依赖潜在空间对齐的复杂性。CoDi-2[544]在基于主题的图像生成、视觉变换和音频编辑任务上优于早期特定领域模型。
-
其他方面
人类对2D世界的探索远多于3D,但3D能更准确描述物体形状与纹理,提供更丰富的感知信息。PointLLM[540]使用点云编码器表示几何与外观特征,融合语言特征进行两阶段训练,在 3D 物体描述与分类中表现出色。3D含量虽丰富但训练成本高,[541, 591]通过2DLLM先验降低训练成本。MiniGPT-3D[541]将2D点云与LLM对齐,采用级联方式对齐模态,混合查询专家模块以高效聚合特征,使用小规模参数更新实现高效训练。LLaVA-3D[591]将2D CLIP patch特征与3D空间位置对齐,将3D patch整合至2D LMM,通过联合2D/3D视觉语言指令调整使收敛速度提升3.5倍。为使智能体能准确感知与操作未知物体,Meta[592]推出NeuralFeels技术,结合视觉与触觉持续建模3D中的未知物体,更精准估计手持操作中的物体姿态与形状,在处理未知物体操作的准确率上提升94%。
7.3 优化感知系统
感知错误,包括不准确、误解以及“幻觉”(即生成虚假信息),对基于大语言模型(LLM)的智能体的可靠性和有效性构成了重大挑战。因此,优化感知系统的关键在于通过模型层面、系统层面以及外部手段等多个层次的策略来最小化这些错误。
7.3.1 模型层面的优化
微调:将预训练的大语言模型(LLM)在特定领域的数据上进行微调,可以显著提升其对相关信息的感知与理解能力。例如,在城市导航任务中,对如 LLaVA 等模型在特定地标上的微调已被证明可以提高其识别精度[513, 593]。此外,诸如低秩适配(LoRA)等技术可实现更高效的微调,避免大幅增加模型复杂度的同时仍提升性能[109, 594]。一些结合传统视觉技术的LLM工作也被广泛应用。例如,在 Llama-Adapter[596]架构基础上集成 YOLOS[595],可显著提升目标检测与定位能力。
提示工程:设计有效的提示对于确保LLM输出既准确又符合预期目标至关重要。通过提供清晰的指令、上下文信息以及特定格式要求,提示工程可以减少模型的误解和幻觉现象[597]。例如,系统提示用于定义智能体的角色,历史提示用于提供过去交互的上下文,定制提示用于确保输出一致性,这些方式均已被证明可以显著减少错误[597]。
检索增强生成:通过检索机制为LLM补充外部知识来源,有助于使其响应基于真实信息,从而降低幻觉的发生概率并提高感知信息的准确性[334]。
7.3.2 系统层面的优化
预期-再评估机制:在面对不完整或含糊信息的场景中,引入“预期-再评估机制”可以增强智能体系统的稳健性。例如,在导航任务中,智能体可以基于历史数据预判目标方向,并在获得新信息时重新评估其推理结果[598]。
多智能体协作:在多智能体系统中,结构化的通信与协作可以促进信息共享、错误纠正与共识建立,从而实现更准确的环境感知[599]。不同的通信拓扑结构(如全连接、集中式、层级式)在效率与鲁棒性方面存在权衡[600]。InsightSee[601]通过由多个智能体组成的“描述—推理—决策”框架提升了视觉信息的处理能力;类似地,HEV[602]通过融合多智能体的全局视角信息,并赋予强化学习智能体协作感知与全局推理能力,从而提高其决策水平。
智能体分工:在多智能体系统中为各个智能体分配不同的角色和能力,使其专注于环境或任务的特定方面,有助于实现感知任务的分工协作。这种方式可提升整体的感知准确性与效率[603]。
7.3.3 外部反馈和控制
损失智能体优化(Loss Agents for Optimization):通过将大型语言模型(LLMs)作为损失智能体使用,可在训练过程中动态调整损失函数的权重[604]。这一机制支持基于复杂甚至不可微分的目标(如人类反馈或专业模型的评估结果)对图像处理模型进行优化。本质上,这种方法将优化目标“外部化”,使得LLM能够“感知”并适应更复杂的评估标准[605]。
人类参与系统(Human-in-the-Loop Systems):引入人类反馈与监督有助于纠正错误、引导智能体的学习过程,并确保其行为符合人类价值观与期望[43]。
内容与输出中介(Content and Output Mediation):在将LLM生成的内容呈现给用户之前,内容中介机制会对输出进行筛选与优化,从而防止意外或有害行为的出现,确保智能体行为与用户预期及安全准则保持一致[606]。
7.4 感知应用
智能体的操作效率主要受到三个关键因素的影响:模型架构的维度、硬件基础设施的规格以及量化优化方法。模型参数数量的指数级增长——从Bert-Base的1.1亿,到GPT-3的1750亿,再到Llama 3的空前4050亿——相应地导致了处理延迟从毫秒级上升到数百毫秒级。在硬件性能方面也存在显著差异;以GPT-3为例的实证研究显示,与A100相比,NVIDIA H100的token处理吞吐量提升了50%,而RTX 4090的处理能力大约是其两倍。
当代智能体已广泛渗透至多个领域,包括个人助理系统、游戏环境、机器人流程自动化(RPA)和多媒体内容生成,这些系统主要依赖视觉感知作为主要的输入模态。在类似Minecraft这样的程序生成环境中,STEVE[607]展现出显著的性能提升,通过视觉信息处理,实现了技术树推进速度提高1.5倍和方块搜索效率提高2.5倍的表现。Steve-Eye[608]进一步推进了这一范式,通过端到端多模态训练,整合视觉与文本输入处理,有效缓解了环境理解延迟问题。
在创意内容生成方面,AssistEditor[609]是多智能体协作的典范,通过基于风格的内容理解促进了专业视频编辑。类似地,Audio-Agent[610]实现了文本/视觉输入与音频输出之间的跨模态集成,从而支持了全面的音频处理能力[611, 612, 613]。
在移动端和桌面平台,智能体应用取得了显著进展。ExACT[614]在VisualWebArena[615]中建立了新的最先进基准,通过基于截图的探索式学习和描述及掩码集成,实现了33.7%的成功率。SPA-Bench[616]引入了一个全面的移动端评估框架,真实还原了现实世界的复杂性。M3A[617]通过多模态输入处理,在SPA-Bench中表现卓越,成功率达64.0%。AgentStore[618]则通过强化视觉与可访问性树处理,将OSWorld PC基准性能显著提升至23.85%。
7.5 总结和讨论
虽然越来越多的研究工作[543, 590]致力于构建统一的多模态模型以支持多种感知能力的输入与输出,智能体感知作为自主系统的基石,在有效解释和整合多模态数据方面仍面临重大挑战。当前的方法在表示学习、对齐和融合方面存在持续性问题,阻碍了鲁棒且可泛化的感知系统的发展。
一个主要问题在于所采用的表示方法,这些方法通常无法捕捉多模态数据的复杂细节。这一缺陷在需要复杂抽象来保留关键语义信息的高维感知输入场景中尤为明显。此外,表示对齐也带来了额外的难题。将异构数据类型整合为统一的特征空间不仅计算开销大,而且容易出现不一致,从而可能导致对模糊信号的误解。当尝试融合这些多样化的表示时,问题进一步加剧,因为来自不同来源的特征在合并过程中常常导致融合效果不佳并可能丢失重要信息。
未来的研究方向应优先考虑通过动态神经结构实现自适应表示学习,这些结构能够根据环境上下文和任务需求自动调整其架构。这可能涉及元学习参数化或显式建模感知实体关系的图结构表示。在跨模态对齐方面,利用对比学习原理的自监督时空同步机制显示出在无需大量标注数据的前提下建立密集对应关系的潜力。将因果推理框架集成到对齐过程中[621]可能进一步增强其对虚假关联的鲁棒性。在表示融合方面,应深入研究具有可学习门控功能的分层注意力机制,使得不同模态特征在融合过程中能够实现上下文感知的整合。可微分记忆网络的兴起也为在长时间范围内维护和更新融合表示提供了新的路径。
【往期回顾】

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)