大模型评测的真正难点：内在精细决策逻辑与人认知的对齐

评测模型输出vs.评测模型内在逻辑。目前，对大模型的评测往往着眼于大模型输出结果本身的正确性（诸如幻觉问题和价值对齐问题）[1-3]，然而在实际工业应用中，评测大模型表征可信程度的症结点在于评测大模型输出结果背后潜在决策逻辑的正确性，即神经网络是否使用正确的逻辑进行模型推断（inference）。事实上，我们发现尽管大模型在

功城师

880人浏览 · 2024-10-23 09:42:55

功城师 · 2024-10-23 09:42:55 发布

然而，如何从数学上严格地解释神经网络内在的精细决策逻辑，是可解释性领域最大的挑战之一，即如何从理论上确保神经网络的解释结果是客观、可靠、且严谨的。这里，我们不能依赖一些工程近似方法（例如相关性方法或近似注意力机制）进行近似或拟合，因为这些方法往往在应用中无法给出解释严谨性的理论保障或实验验证。

幸运的是，团队之前基于交互的解释[3-4]已经证明了下面两个性质，从理论上保证了神经网络的决策逻辑可以被解释为稀疏的符号化交互概念。

证明一个在遮挡样本上平滑输出的神经网络（满足三个常见条件），在单个输入样本上，仅可以触发极少量的输入单元间的交互关系。例如，一个大语言模型，在输入句子上，仅仅触发 tokens 之间的 200 种交互效应；一个图像分类神经网络，在单个图像输入中，仅仅触发不同图像区域之间的少量交互效应。
理论证明给定一个包含 (n) 个输入单元的输入样本，基于触发的少量交互效应，可以精确拟合输入样本在 (2^n) 种任意遮挡状态下神经网络的所有输出值。

基于上述的理论基础，以法律大模型为例，我们发现尽管法律大模型判案结果的正确率很高，但哪怕在一些正确预测的法律案例中，超过一半的决策逻辑在人类认知上都是错误的。例如，我们发现大模型往往使用与判决结果无关的时间、地点或人物情感，或使用和案件无关的个人身份信息，来做出判决。基于等效交互理论，我们精确解释了神经网络的精细决策逻辑，并发现“使用错误或不相关的逻辑进行模型推断（inference）”是大模型中普通存在的问题。

我们认为跳出端对端评测范式，在精细决策逻辑层面评测大模型，代表了大模型评测的一个根本方向，确保大模型逻辑和人类认知的真正对齐。同时，在精细决策逻辑上的可靠性也将成为未来人工智能模型评测、模型准入的核心标准。使用基于交互的解释评估法律大模型决策逻辑的正确性。无论如何随机遮挡输入样本，使用基于交互的代理逻辑模型可以很好地拟合法律大模型对被告Andy做出“抢劫”判决结果的置信度得分。其中，大模型给出的判决结果的背后使用了一部分不可靠（与人类认知不符）的决策逻辑。

一、交互的定义

让我们考虑一个输入样本，它包含个输入变量。我们用集合表示这些输入变量的全集。每个输入变量可以表示一个 token、一个单词、或者一个短语/短句。然后，令表示目标输出的标量置信度得分。例如，目标输出可以设置为由大模型生成的一个序列，这个序列包含个 tokens 。这样，大模型输出结果的置信度得分可以定义为:其中，表示在生成第个 token 之前的前个 tokens 组成的序列。表示给定输入句子和前个 tokens 的条件下生成第个 token 的概率。

这样，对于每个子集，我们可以用下面公式来定义中所有输入变量之间“与交互”和“或交互”：我们可以这样理解与或交互：每个不为零的与交互表示大模型所编码的中所有变量之间的“与关系”。例如，给定一个输入句子 “the company is a legal person”，两个词同时出现形成了一个专业的法律概念，使得产生一个推动大模型的输出与“法律实体”相关的数值。类似地，每个不为零的或交互表示大模型所编码的中所有变量之间的“或关系”。例如，let 我们考虑一个输入句子 “he robbed and assaulted a passerby”，只要中任何一个词出现，就会产生一个的数值效用，将导致大模型的输出推向有罪判决。

为什么使用“与交互”和“或交互”能忠实地解释大语言模型所建模的逻辑？这是因为大语言模型所建模的交互满足两个属性，即无限拟合性和稀疏性。这两个属性从理论上保证了基于交互的解释的忠实性。

无限拟合性: 让表示基于非零交互作用构建的代理逻辑模型。如图 2 所示，无论我们如何在个不同的遮挡状态中随机遮挡输入样本，该代理逻辑模型都能准确拟合大语言模型在所有个遮挡样本上的置信度得分，即：图 2: (a) 交互的无限拟合性的示意图。(b) 实验验证代理逻辑模型可以准确拟合大语言模型的置信度得分数。
稀疏性: 大语言模型往往只建模少量的显著交互概念，而大部分交互概念都是数值效用都接近于 0 的噪声。

二、标注相关 Tokens、无关 Tokens 和禁用 Tokens

我们可以将少量显著的与或交互作为法律大模型所使用的决策逻辑的忠实解释。为了识别大模型所编码的可靠和可靠的交互，我们需要人为标注在法律案件例中的相关 tokens、不相关 tokens 和禁用 tokens。根据人类的认知，我们将所有输入变量的集合划分为三个互不相交的子集，即相关 tokens 的集合、不相关 tokens 的集合和禁用 tokens 的集合，满足：

相关 tokens: 表示在人类认知中与判决结果密切相关，或作为判决结果的直接原因的 tokens。例如，给定一个输入的法律案件 “on June 1, during a conflict, Andy stabbed Bob with a knife, causing Bob’s death”，法律大模型对安迪的判决结果为“谋杀”。在这种情况下，输入变量可以设置为。其中，是做出判决的直接原因，因此被标注为相关 tokens。
无关 tokens: 表示在人类认知中结果没有紧密联系，或不是判决结果的直接原因的 tokens。例如，在上述法律案件中，无关标记的集合注释为。
禁用 tokens: 通常表示法律案件中广泛使用的 tokens，但使用禁用 tokens 可能会导致严重的逻辑错误。例如，在一个涉及多人的法律案件中，如 “Andy assaulted Bob on the head, causing minor injuries. Charlie stabbed Bob with a knife, causing Bob’s death,” 法律大模型对安迪的判决结果为“袭击”。令所有输入变量的集合为：

虽然输入变量 “Charlie stabbed Bob with a knife” 和 “causing Bob’s death” 都是关键的事实，但它们不应该影响对 Andy 的判决结果，因为这些行为描述的是 Charlie 的行为，而非 Andy 的行为。因此，这些输入变量被归类为禁用 tokens，即：

三、可靠和不可靠的交互效用

对相关、不相关和禁用 tokens 的划分使我们能够区分法律大模型所使用的可靠和不可靠的决策逻辑。我们将与或交互分解为可靠、不可靠的交互效用。可靠的交互效用是与人类认知相符的交互效用，通常包含相关 tokens 且不包含禁用 tokens。相反，不可靠的交互效用是指不符合人类认知的交互效用，可以归因于不相关 tokens 或禁用 tokens。

“可靠与交互效用”和“不可靠与交互效用”：

与交互只有当中的所有输入变量（词组或短语）都出现在输入的法律案件中时才会被触发。因此，与交互的可靠交互效用必须包含相关 tokens，即，并且不包含禁用 tokens，即。否则，如果集合包含了任何禁用 tokens，或者不包含任何相关 tokens，那么这个“与交互” 就表示不可靠的逻辑。这样，的可靠与交互和不可靠与交互的计算如下：“可靠或交互效用”和“不可靠的或交互效用”：或交互当中的任何输入变量（标记或短语）出现在输入法律案例中都会触发。因此，我们可以将可靠交互效应定义为中分配给中相关的输入变量的数值分量。如文献 [6]，我们将或交互均匀分配给中的所有输入变量。

可靠交互效用的比例

给定一个大语言模型，可靠交互效应与所有显著的交互效用之比的计算方法如下：

的数值越大，表明与人类认知一致的交互效应比例越高。

四、评估法律大模型的决策逻辑与人类认知的对齐质量

我们使用基于交互的解释评估法律大模型决策逻辑的正确性。我们计算大模型所建模的与或交互作用，并从这些交互中识别大模型可能存在的表现缺陷。具体地，我们主要关注法律判决中的潜在表征缺陷，如：(1) 判决结果受到不可靠的情境 tokens 的影响；(2) 判决结果受到错误的实体匹配的影响；(3) 判决结果受到剧烈变化的影响。

问题 1: 基于不可靠的情感 tokens 做出判决结果

虽然法律大模型在预测判决结果方面取得了相对较高的准确率，但对大模型的置信度得分有贡献的相当多的交互作用都归因于语义无关或不可靠的情感 tokens。我们将作为判决结果直接原因的 tokens 标注为相关 tokens，将非直接原因的 tokens 标注为不相关 tokens，例如在实际犯罪行为背后的语义无关的 tokens 和不可靠的情感 tokens。

图 3 显示了一个法律案例，即 Andy 与 Bob 发生冲突，并攻击 Bob，犯下了伤害罪。根据人类的认知，“began to”、“causing”等 tokens 和 “dissatisfaction” 等情感 tokens 与判决结果无关。我们发现，SaulLM-7B-Instruct 大模型编码的一些决策逻辑与人类认知非常吻合，即把包含相关 tokens 的可靠交互识别为显著的交互。然而，大模型也将大量不可靠的交互当作显著交互建模，例如包含无关标记 “dissatisfaction” 和 “anger” 的交互，这暴露了其决策逻辑的潜在缺陷。

SaulLM-7B-Instruct 模型建模的可靠交互效用的比例为。相比之下，BAI-Law-13B 模型建模的可靠交互作用的比例为。

问题 2: 基于错误的实体匹配做出判决结果

法律大模型中，有相当大比例的置信度分数被错误地归因于错误实体的犯罪行为。换句话说，大模型错误地使用了一个人的犯罪行为来对另一个无关的人做出判断。为了评估这种错误的实体匹配对法律大模型的影响，我们将无关实体的犯罪行为 tokens 标注为禁用 tokens。

图 4 显示了一个法律案例，即 Andy 撕咬 Charlie，构成轻伤，随后 Bob 用铁锹击打 Charlie，导致死亡。由于 “hit”、“with a shovel”、“injuring” 和 “death” 等 tokens 描述的是 Bob 的行为和后果，与 Andy 没有直接关系，故这些 tokens 被标注为禁用 tokens。然而，尽管 SaulLM-7B-Instruct 模型使用了 21.5% 的包含相关 tokens 的可靠交互，大模型也建模了大量包含禁用 tokens 的不可靠交互。这是 SaulLM-7B-Instruct 模型一个明显的表征缺陷。类似地，BAI-LAW-13B 模型也建模了不可靠的交互。这表明这两个法律大模型都以局部方式处理了与判决相关的 tokens，而没有将犯罪行为与实体准确地匹配起来。

问题 3: 职业偏见可能影响判决结果

我们发现，法律大模型可能会使用职业信息的交互来计算置信度分数，这会导致明显的职业偏见。更有趣的是，我们发现当我们用另一种职业替换当前职业时，包含职业 tokens 的交互会发生显著变化。其他类似的属性（如年龄、性别、教育程度和婚姻状况）也可能存在类似的偏见。

图 5 显示了一个法律案例，即受害人 Andy 有不同的职业，他的财物被两名可疑男子抢劫。首先，我们发现 SaulLM-7B-Instruct 模型编码了与职业 tokens “a judge” 之间的交互作用，这增强了“抢劫”判决结果的可信度。此外，如果我们把职业 tokens “a judge” 替换为 “a volunteer”，包含职业 tokens 的交互会发生显著变化，这是导致判决结果从“抢劫”变为“未提及”的重要因素。这表明法律大模型有时存在职业偏见。类似地，两个法律模型倾向于使用特定的职业 tokens 进行判决，而非正确分析法律判决背后的决策逻辑。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐