摘要

        本文深入探讨工业 AI 大模型中幻觉问题。开篇点明 AI 幻觉不会消失只会降低比例的观点,类比人类易错性阐述其存在的必然性。进而详细剖析 AI 幻觉产生机制,包括数据缺陷、训练过程瑕疵、推理环节不足等。着重强调工业场景对准确性严苛要求,指出工业 AI 使用非工业数据的弊端。提出工业 AI 应构建独立干净数据体系生成模型,涵盖数据收集整理、清洗筛选、标注管理等步骤,并阐述降低幻觉比例的综合方案,为工业 AI 稳健发展提供理论支撑与实践指导。

关键词

工业 AI;大模型;幻觉问题;数据隔离

一、引言

        在人工智能蓬勃发展的当下,大语言模型取得了令人瞩目的成果,其应用场景不断拓展,从日常的信息检索、文本创作,到复杂的医疗诊断、金融分析等领域,都展现出了强大的能力。然而,一个不容忽视的问题随之而来 ——AI 幻觉。AI 幻觉现象表现为模型生成的内容与现实世界事实或用户输入不一致,这一问题严重影响了 AI 系统的可靠性和实用性。

        从本质上讲,AI 幻觉的存在具有一定的必然性,正如人类在日常表达和记忆中会出现错别字、口误以及记错事情等错误一样。随着训练 AI 的数据量不断增大,模型的复杂度和智能程度不断提高,但其出现幻觉的可能性并未随之降低,反而在某些情况下有所增加。这是因为大模型在学习过程中,是基于海量数据中的模式和统计规律进行训练,并非真正理解数据背后的含义,这就为幻觉的产生埋下了隐患。

        在工业领域,AI 的应用正处于快速发展阶段,工业 AI 的出现为制造业带来了诸多变革,如优化生产流程、提升质量控制精度、实现设备的预测性维护等。然而,工业场景对于准确性和可靠性的要求极高,任何微小的错误都可能引发严重的后果,如生产事故、产品质量缺陷等。因此,AI 幻觉问题在工业领域的影响尤为突出。

        工业 AI 若使用包含大量非工业数据的混合数据进行训练,会面临诸多风险。非工业数据的来源广泛、质量参差不齐,其中可能包含错误信息、偏见数据以及与工业场景不相关的内容。这些数据混入训练集中,会干扰模型对工业知识和模式的学习,导致模型在处理工业任务时产生幻觉,输出错误的结果。为了确保工业 AI 的准确性和可靠性,采用工业自身的干净数据生成模型成为必然选择。基于此,本文将深入剖析 AI 幻觉的产生机制,并详细阐述工业 AI 如何通过构建独立的干净数据体系来降低幻觉出现的比例,推动工业 AI 在安全、可靠的轨道上发展。

二、AI 幻觉产生机制剖析

2.1 数据层面因素

2.1.1 数据缺陷

        数据是 AI 模型训练的基础,数据的质量直接影响模型的性能。数据缺陷是导致 AI 幻觉产生的重要原因之一。错误信息在数据集中的存在较为常见,例如在一些文本数据中,可能存在事实性错误、拼写错误或语法错误等。这些错误数据被模型学习后,会在模型生成内容时引入错误信息,导致幻觉的出现。如在训练一个关于历史事件的语言模型时,如果训练数据中对某一历史事件的时间、地点或人物等关键信息记录错误,模型在回答相关问题时就可能基于这些错误数据生成错误的答案。

        偏见数据也是数据缺陷的一种表现形式。数据集中可能存在重复偏见,即某些信息在数据中被过度重复,导致模型对这些信息的权重过高,从而在生成内容时过度强调这些方面,而忽略其他重要信息。社会偏见也可能存在于数据中,例如性别偏见、种族偏见等。若模型学习了这些带有社会偏见的数据,在处理相关问题时,就可能生成带有偏见性的内容,这也是一种形式的幻觉。如在一些招聘信息的数据集中,如果存在对某一性别或学历的偏向性描述,模型在分析招聘相关问题时,可能会生成具有偏向性的建议,这显然与公平、客观的原则相悖。

        此外,大模型存在知识边界,数据集中可能存在领域知识缺陷,即某些特定领域的知识缺失或不完整。在工业领域,如果训练数据未能全面涵盖工业生产的各个环节、工艺流程以及相关标准等知识,模型在处理工业任务时,就可能因为缺乏必要的知识而产生幻觉。同时,随着时间的推移,一些数据可能变得过时,例如工业生产中的技术标准、设备参数等发生了变化,但数据集中仍保留旧的数据,模型基于这些过时数据生成的内容也可能不符合当前的实际情况,产生幻觉。

2.1.2 数据中事实知识利用率低

        即使大模型在训练过程中摄入了海量数据,但在利用这些数据中的事实知识时,仍可能出现问题。模型可能会过度依赖训练数据中的一些表面模式,如位置接近性、共现统计数据和相关文档计数等,而忽略了数据背后的真实逻辑和语义关系。当训练数据中频繁共现 “加拿大” 和 “多伦多”,大模型可能仅仅依据这种共现模式,错误地将多伦多识别为加拿大的首都,而没有真正理解国家首都这一概念的本质含义。这种对表面模式的过度依赖,使得模型在面对一些需要深入理解和推理的问题时,容易产生幻觉,生成与事实不符的内容。

2.2 训练过程层面因素

2.2.1 预训练阶段问题

     在大模型的预训练阶段,架构缺陷可能导致幻觉的产生。当前许多大模型基于前一个 token 预测下一个 token 的方式进行训练,这种单向建模方式在一定程度上阻碍了模型捕获复杂上下文关系的能力。在处理长篇文本或语义复杂的文本时,模型可能无法准确理解文本中各个部分之间的逻辑联系,从而在生成内容时出现偏差。自注意力模块作为大模型中的重要组成部分,也可能存在缺陷。随着输入文本中 token 长度的增加,不同位置的注意力被稀释,模型难以聚焦于关键信息,导致对文本的理解不准确,进而产生幻觉。

        训练策略方面也存在问题。模型在推理时依赖于自己生成的 token 进行后续预测,一旦模型生成的某个 token 出现错误,这个错误会在后续生成的 token 中产生级联错误,导致整个生成内容出现偏差。当模型在回答一个问题时,开头生成的几个 token 就出现错误,后续基于这些错误 token 生成的内容会逐渐偏离正确答案,形成幻觉。此外,当对齐数据需求超出模型预定义的能力边界时,大模型会被训练来生成超出其自身知识边界的内容,这无疑放大了幻觉的风险。模型可能被要求回答一些非常专业、罕见领域的问题,而其训练数据中并未充分涵盖相关知识,此时模型为了生成答案,可能会编造一些看似合理但实际错误的内容,产生幻觉。

2.2.2 对齐阶段问题

        在大模型的对齐阶段,基于强化学习从人类反馈中进行微调(RLHF)等技术,旨在使大模型的输出更符合人类偏好。但在这个过程中,有时模型会倾向于迎合人类偏好,从而牺牲信息真实性。在一些情况下,人类反馈可能存在主观性、不准确性或不完整性,模型在学习这些反馈时,可能会过度调整自己的输出,以满足人类的表面期望,而忽略了内容的真实性。模型在回答一个具有争议性的问题时,为了获得人类的认可,可能会选择一种较为普遍但并非完全正确的观点进行阐述,甚至对一些事实进行歪曲,从而产生幻觉。这种信念错位使得模型在追求与人类偏好对齐的过程中,偏离了对客观事实的准确表达。

2.3 推理层面因素

2.3.1 抽样随机性

         大模型在生成内容时,通常是根据概率分布从众多可能的词汇或语句中进行抽样选择。这种固有的抽样随机性意味着即使输入相同,模型每次生成的内容也可能存在差异。在某些情况下,由于随机抽样的结果不理想,模型可能会生成一些不符合逻辑或与事实不符的内容,从而产生幻觉。模型在生成一篇新闻报道时,可能会因为随机抽样选择了一些不恰当的词汇或表述,导致报道内容出现事实性错误或逻辑混乱,尽管这种情况并非每次都会发生,但抽样随机性增加了幻觉出现的可能性。

2.3.2 解码表示不完美

        模型在解码过程中,存在上下文关注不足的问题。模型往往过度关注相邻文本而忽视了源上下文的整体含义,这使得模型在生成内容时,无法充分考虑整个文本的背景和逻辑关系,容易出现与前文矛盾或不符合整体语境的内容。在生成一段对话回复时,模型可能只关注了对方最近提出的问题,而忽略了整个对话的主题和之前的交流内容,导致回复与对话整体脱节,产生幻觉。softmax 瓶颈也是导致解码表示不完美的原因之一。softmax 函数用于将模型的输出转换为概率分布,但其表达能力受限,可能无法准确反映模型对不同词汇或语句的真实偏好程度,从而在生成内容时出现偏差,引发幻觉。

        此外,大模型在处理长尾知识时,往往存在回忆不足的情况。长尾知识指的是那些在数据中出现频率较低,但在实际应用中仍可能需要的知识。由于这些知识在训练数据中出现次数少,模型对其学习不够充分,在面对需要这些长尾知识的问题时,模型可能无法准确回忆和应用相关知识,从而通过猜测或编造来生成内容,产生幻觉。在工业领域,一些罕见的设备故障原因、特殊的工艺参数调整方法等属于长尾知识,若模型在训练时对这些知识学习不足,在处理相关工业问题时就容易出现幻觉。对于一些需要复杂推理的情况,大模型现有的能力也存在局限性。复杂推理往往需要模型综合运用多种知识和逻辑规则,进行多层次的分析和判断,而当前的大模型在这方面的能力还不够成熟,容易在推理过程中出现错误,进而导致生成的内容出现幻觉。在分析一个涉及多个工业环节协同工作的故障问题时,模型可能无法正确梳理各环节之间的逻辑关系,无法进行有效的推理,从而给出错误的解决方案,这就是由于复杂推理能力不足产生的幻觉。

三、工业场景对 AI 准确性要求及非工业数据的弊端

未完待续......

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐