Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction
方面情感四元组预测(ASQP)旨在为给定的评论预测所有的四元组(方面术语、方面类别、观点术语、情感极性),这是基于方面的情感分析中最具代表性且最具挑战性的任务。ASQP任务的一个关键挑战是标注数据的稀缺性,这限制了现有方法的性能。为了解决这一问题,我们提出了一个带有伪标签评分器的自训练框架,其中评分器评估评论与其伪标签之间的匹配程度,旨在过滤掉不匹配的部分,从而提高自训练的效果。我们强调了两个关键
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction
项目 | 内容 |
---|---|
中文题目 | 基于伪标签评分器的面向情感四元预测的自训练 |
英文题目 | Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction |
论文地址 | https://aclanthology.org/2024.acl-long.640/ |
代码地址 | https://github.com/HITSZ-HLT/ST-w-Scorer-ABSA |
论文级别 | 2024 ACL |
单位 | 哈工大 |
摘要
方面情感四元组预测(ASQP)旨在为给定的评论预测所有的四元组(方面术语、方面类别、观点术语、情感极性),这是基于方面的情感分析中最具代表性且最具挑战性的任务。ASQP任务的一个关键挑战是标注数据的稀缺性,这限制了现有方法的性能。为了解决这一问题,我们提出了一个带有伪标签评分器的自训练框架,其中评分器评估评论与其伪标签之间的匹配程度,旨在过滤掉不匹配的部分,从而提高自训练的效果。我们强调了两个关键方面,以确保评分器的有效性和可靠性:训练数据集的质量及其模型架构。为此,我们创建了一个人工标注的对比数据集,并使用基于排序的目标在其上训练生成模型。对公开的ASQP数据集进行的大量实验表明,使用我们的评分器可以显著且持续地提高自训练的效果。此外,我们还探索了用大型语言模型替代人类进行对比数据集标注的可能性,实验结果表明这是可行的。
1. 介绍
1.1 科学问题
作为一个细粒度的问题,ABSA(基于方面的情感分析)面临标注数据不足的挑战,特别是在ASQP任务中,这一问题尤为严重。这种局限性限制了现有模型的性能。为了解决这一问题,许多研究尝试通过数据增强方法来缓解,例如通过修改现有样本来合成新样本(Li等,2020;Hsu等,2021),应用自训练技术(Wang等,2021),或使用生成方法 (Yu等,2023;Deng等,2023;Zhang等,2023b)。然而,这些方法的一个显著限制是,合成的样本往往不可避免地存在句子与标签之间的不匹配问题,这可能会对模型的学习产生不利影响。
1.2 解决方法
为了减少这种不匹配情况,本文引入了一种用于数据增强的伪标签评分器。如图1所示,评分器评估评论与其伪标签之间的匹配程度。如果我们拥有一个足够稳健的评分器,就可以过滤掉所有不匹配的样本,从而显著提高数据增强的有效性。我们提出,该评分器的有效性和可靠性取决于两个关键方面:
(1) 训练数据集的质量
(2) 评分器的架构与训练目标。
1.2.1 训练数据集的质量
对于第一个关键方面,先前的研究通常通过使用启发式规则修改真实标签来生成负标签(Wang等,2021;Mao等,2022)。然而,这些负标签往往过于简单和模式化,限制了评分器的学习效果。为了克服这一限制,我们创建了一个人工标注的对比数据集。具体而言,我们首先使用现有的标注数据训练一个ASQP模型,然后利用该模型为未标注数据推断出多个伪标签,并由人工标注人员从中选择最合适的伪标签。 标注人员选择的标签被视为正标签,其余的则作为负标签。与基于规则的数据集相比,我们的数据集更具挑战性,更符合人类的判断标准。
1.2.2 评分器的架构与训练目标。
对于第二个关键方面,先前的研究通常将标签评分形式化为一个问答问题(Wang等,2021),或者将辨别匹配的标记嵌入到标签中(Mao等,2022)。然而,我们的研究发现,由于这些方法在建模评论与伪标签之间的互动方面能力有限,因此在处理像ASQP这样复杂的任务时表现不佳。最近的偏好优化研究表明,语言模型本身可以作为评分器使用(Rafailov等,2023;Yuan等,2023)。这启发我们使用生成模型为伪标签分配的条件似然度作为其质量的衡量标准。与之前的方法相比,这种方法使评分器能够逐字检查伪标签的合理性,从而提供更全面且更有效的评分。接着,我们使用基于排序的目标在我们的人为对比数据集上对该评分器进行微调。
1.3 研究问题
在开发了伪标签评分器后,我们将其应用于数据增强框架中,特别选择了自训练框架,因其简洁易用。我们在公开的ASQP数据集上进行了广泛的实验,以评估其有效性,并进一步探讨以下问题:
(1) 伪标签评分器在使用我们设计的对比数据和模型架构时的表现如何?
(2) 是否可行用大型语言模型代替人工进行对比数据的标注?
(3) 如何利用评分器筛选出低质量样本?此外,受Ma等人(2023年)的启发,我们还将该评分器的应用范围扩展为对多个候选标签进行重新排序,并评估其影响和效果。
1.4 本文贡献
我们的贡献总结如下:
- 据我们所知,我们是首个在ASQP任务中将伪标签评分器应用于数据增强的研究。
- 我们从数据集和模型架构两个角度探讨了如何提升评分器的有效性和可靠性。
- 我们通过实验证明,所提出的伪标签评分器能够显著且持续地提升现有模型的性能。
2 背景(相关工作)
ASQP是目前ABSA中最具代表性和挑战性的任务。
3 比较数据集
我们需要构建一个对比数据集,以便训练和评估伪标签评分器。该数据集包含多个样本,每个样本由一条评论句子和多个伪标签组成,其中一个为正标签,其他为负标签。我们通过要求评分器对正标签赋予高分、对负标签赋予低分来训练评分器。
以往的研究通常使用启发式规则生成负标签(Wang 等,2021;Mao 等,2022)。他们通过随机修改现有正标签中的元素,如改变边界或进行替换来生成负标签。这类负标签具有固定的模式,容易被区分,限制了评分器的学习潜力。因此,本文采用人工标注的方式来构建这个对比数据集。
3.1 数据准备
与现有ASQP数据集一致(Cai等人,2021; Zhang等人,2021 a),我们从两个领域收集评论:餐厅和笔记本电脑。餐馆评论来自Yelp数据集2,而膝上型电脑评论来自Amazon Laptop数据集3(Ni等人,(2019年版)。我们把这些评论分成单独的句子。接下来,我们使用现有的标记数据集来训练ASQP模型(Zhang等人,2021 b),然后利用该模型通过波束搜索为每个评论句子生成四个伪标签。
3.2 注释过程
对于每条评论句子及其对应的四个伪标签,标注人员会看到六个选项。前四个选项对应四个伪标签,第五个选项表示没有一个伪标签是合适的,第六个选项则表明该评论句子没有表达任何情感,或者情感难以推断。当标注人员选择第五个选项时,他们需要写出一个替代标签。
标注过程被组织成多个批次,每个批次包含大约 200 个样本。为了确保准确性,每个样本由三位不同的标注人员独立标注。当他们的标注结果存在分歧时,会由第四位标注人员介入以解决不一致的问题。此外,在每个批次结束时,四位标注人员会进行会议讨论,协商并解决任何分歧。每位标注人员都会收到标注指南和现有的 ASQP 标注数据集。如果两者之间出现冲突,我们优先遵循标注指南。
3.2.1 人工智能注释
选择最合适的标签,虽然比从头开始注释ASQP标签简单得多,但仍然是一项艰巨的任务。因此,我们探讨了使用ChatGPT作为人工注释器替代品的可行性。为了确保AI注释的质量,我们为每个ASQP数据集精心制作了提示。此外,我们还采用了三种策略来增强注释过程:自我一致性、自我评估和基本原理扩充。AI注释的详细信息可参见附录A。
3.3 统计
我们构建了两个由人工标注和四个由 AI 标注的对比数据集。它们的基本统计信息在表 1 中展示。在评分器的训练阶段,我们排除了对应第六选项的样本,并保留了一部分数据作为开发集,用于超参数调优和模型选择。具体来说,对于餐馆数据集,我们保留了 200 个样本;对于笔记本电脑数据集,我们保留了 300 个样本。因此,人工标注的数据集中约有 1,000 个训练样本,AI 标注的数据集中约有 2,000 个训练样本。
4 方法
4.1 伪标签评分器
伪标签评分器的目标是对评论和伪标签之间的匹配进行评分。以往的研究将此评分任务形式化为问答问题(Wang 等,2021),或将区分性的匹配标记嵌入标签中(Mao 等,2022)。然而,这些方法在有效捕捉评论和伪标签之间的交互方面表现不佳。受到最近在偏好优化领域研究的启发(Rafailov 等,2023;Yuan 等,2023;Song 等,2023),我们使用生成模型作为评分器。给定一个评论句子 x x x和一个伪标签 y y y ,它们的匹配评分由生成模型分配的条件概率来量化。
与以往的方法相比,这种方法通过整合伪标签中每个词元的概率来得出其整体评分,从而提供了更加全面和有效的评分机制。
训练过程: 我们在标注的对比数据集上,通过基于排序的训练目标来优化伪标签评分器。具体而言,我们设计了一个简单的列表式目标函数,具体如下:
其中, y p y_p yp表示正标签, y n y_n yn表示负标签, Z Z Z是归一化因子。
除了对比数据集,我们还结合了原始的 ASQP 数据集来进一步提升评分器的训练效果。来自原始 ASQP 数据集的标签被视为额外的正标签,并与对比数据集中的正标签结合。我们通过最大化这些正标签的得分来增强评分器。结合后的损失函数公式如下:
其中, D C O M P D_{COMP} DCOMP表示对比数据集, D A S Q P D_{ASQP} DASQP 表示原始的 ASQP 数据集, Y Y Y 表示句子 x x x的多个伪标签集合, α \alpha α是一个超参数。
4.2 使用数据过滤进行自我训练
自训练(Scudder, 1965)是一种简单且经典的半监督技术,可用于数据增强。它包含三个主要步骤:
(1)使用现有的标注数据集训练一个初始模型,
(2)使用该模型为未标注数据生成伪标签,
(3)最后将这些伪标签数据合并到标注数据集中。
然而,这种方法不可避免地会引入低质量的伪标签,即标签与给定评论不准确匹配。为了解决这个问题,我们实施了一个利用初始模型和伪标签评分器的两阶段过滤过程。
基于置信度的过滤: 我们首先将初始模型对伪标签的置信度作为其质量的衡量标准。因此,我们过滤掉那些最低置信度低于某个阈值的样本。形式化地说,我们保留满足以下条件的样本 ( x , y ) (x, y) (x,y):
其中 γ 1 γ_1 γ1是超参数,根据经验设置为0.7。
基于评分器的过滤: 接下来,我们使用伪标签评分器来评估剩余的样本。我们发现,得分较低的伪标签往往质量较差。此外,虽然高分样本通常表现出良好的标签质量,但它们的句子往往过于简单,对后续模型训练的帮助有限。因此,我们只保留那些得分介于阈值 γ 2 \gamma_2 γ2 和 γ 3 \gamma_3 γ3 之间的样本,公式如下:
4.3 伪标签Scorer作为重排序器
重排序最初是信息检索中的一个概念,指的是对初步候选结果进行重新评分和重新排序的过程。Ma 等人(2023)表明,加入重排序步骤可以提升信息抽取任务的性能。在本文中,我们认为我们的伪标签评分器可以充当这样的重排序器。具体来说,对于给定的评论,我们首先使用 ASQP 模型通过束搜索生成四个候选标签,然后使用伪标签评分器从这些候选标签中选择最佳的一个。最终选择的候选标签将作为最终输出。
5. 实验
5.1 实验装置
5.1.1 数据集
我们在四个公开的 ASQP 数据集上评估我们的方法。这些数据集来源于 SemEval 挑战赛(Pontiki 等,2015, 2016)和 2017 年至 2018 年期间的亚马逊平台。四元组级别的标注由 Cai 等人(2021)和 Zhang 等人(2021a)提供。这些数据集的详细统计信息在表 2 中展示。此外,为了训练伪标签评分器,我们构建了几个对比数据集,其统计信息见表 1。
5.1.2 实现细节
我们采用 T5-large(Raffel 等,2020)作为伪标签评分器的基础模型。在训练阶段,我们将批次大小和训练轮数都设置为 10。对于其他超参数(包括学习率和 α \alpha α,我们进行简单的超参数搜索。一旦评分器训练完成,我们将其应用于为伪标签样本评分和排序。对于数据集 ACOS-Rest、ASQP-Rest15 和 ASQP-Rest16,我们保留得分位于前 10% 到 40% 的样本;对于 ACOS-Laptop 数据集,这个范围设置为 20% 到 50%。从这些保留的样本中,我们随机选择 10,000 个样本,并将它们与原始标注数据集合并,形成增强数据集。为了减少随机性的影响,我们运行了五次实验并报告了平均结果。
5.1.3 基线方法
为了验证所提出方法的有效性,我们将其整合到两种典型的 ASQP 方法中:GAS (Zhang et al., 2021b) 和 MUL (Hu et al., 2023b)。我们在增强数据集上运行这两种方法,并在推理阶段引入重排序步骤以增强预测效果。此外,我们还将我们的方法与其他一系列方法进行了基准对比,包括 EXTRACT-CLASSIFY (Cai et al., 2021)、PARAPHRASE (Zhang et al., 2021a)、SEQ2PATH (Mao et al., 2022)、DLO/ILO (Hu et al., 2022)、LEGOABSA (Gao et al., 2022)、MVP (Gou et al., 2023)、GENDA (Wang et al., 2023) 和 CHATGPT (fewshot) (Xu et al., 2023)。
5.2 伪标签评分器分析
鉴于伪标签评分器在我们框架中的重要性,我们首先对其进行分析,重点关注两个关键方面:
其模型架构和训练数据集。
5.2.1 模型架构。
我们使用生成模型分配给伪标签的条件概率作为其评分指标。 为了验证我们方法的有效性,我们在两个人工标注的对比数据集上进行了实验,并将我们的方法与之前的方法(Wang 等,2021;Mao 等,2022)进行了基准对比。如表 3 所示,之前的方法,特别是问答方法,在 ASQP 任务中表现不佳。相比之下,我们的方法取得了显著的优势,展示了其有效性。(伪标签的评分质量)
5.2.2 对比数据集。
(1) NONE 表示未使用人工或 AI 标注的方法,在这种方法中,选择模型置信度最高的伪标签作为正标签;
(2) HUMANN-1234 表示标注方案中由人工标注者从四个伪标签中选择最佳标签;
(3) HUMANN-12345 是 HUMANN-1234 的扩展版本,允许人工标注者在四个选项都不合适的情况下写出一个额外的标签;
(4) AIANN-1234 与 HUMANN-1234 类似,但由 ChatGPT 替代人工标注者;
(5) 带有 * 的方法表示使用对比数据集和原始 ASQP 数据集共同训练评分器的情况。
我们进行了实验以比较不同的标注方案,并将结果列在表 4 中。我们得出了以下几点观察结论:
(1) 使用人工或 AI 对对比数据进行标注是至关重要的,因为它们的性能明显优于没有标注的数据。特别是,当没有合适的选项时,允许人工标注者书写标签能够显著提升性能。
(2) 将对比数据与原始 ASQP 数据集结合起来训练评分器,比单独使用对比数据更加有效。
(3) AI 标注的对比数据甚至可以比人工标注的对比数据取得更好的结果。
我们对 AI 标注进行了进一步分析。表 5 展示了 AI 标注与人工标注数据之间的一致性。尽管从统计上看,一致性并不是非常高,但考虑到该任务的主观性,AI 标注的质量是可以接受的。此外,AI 标注的一个显著优势在于其相对于人工标注的成本效益,能够高效地获取大量标注数据。
图 2 展示了人工标注数据和 AI 标注数据在不同数量下的性能趋势。尽管在相同数量下,AI 标注数据的性能较低,但由于 AI 标注的可扩展性,随着数据量的增加,其性能可以赶上甚至超过人工标注数据的表现。例如,超过 2,000 个 AI 标注样本可以达到或超过 1,000 个人工标注样本的性能。因此,我们可以得出结论,对于 ASQP 任务,使用 AI 替代人工进行对比数据的标注是可行的。
5.3 自我训练分析
5.3.1 主要结果
我们开发了一个基于伪标签评分器的自训练框架,实验结果如表 6 所示。根据这些结果,我们的方法显著且一致地提升了现有 ASQP 方法的性能(Zhang 等,2021b;Hu 等,2023b)。具体而言,GAS 在四个数据集上的 F1 得分分别提高了 2.94%、4.32%、5.17% 和 5.96%,平均提高 4.60%;MUL 在这些数据集上的 F1 得分分别提高了 3.72%、3.39%、2.98% 和 4.36%,平均提高 3.61%。在整合了我们的方法后,GAS 和 MUL 都超越了以往的方法。这些结果证明了我们方法的有效性。
此外,我们还有以下几点看法:
(1) 两级过滤过程(CS-FILTER)显著提高了自训练的有效性。在大多数数据集中,与单独的自训练相比,其结果提高了 2% 以上,突显了在自训练框架中进行数据过滤的重要性。
(2) 合并重排序步骤可以进一步提升性能,提升幅度约为 1%。
(3) 在下游自训练中使用 AI 注释的数据可以获得与使用人工注释的数据相当的结果,这进一步表明了用人工智能替代人工标注器进行对比数据标注的可行性。
(4) ChatGPT 在 ASQP 任务中的表现不佳,表明直接使用它来执行此任务无法充分发挥其功能。相反,使用它进行对比数据注释可以有效利用其优势。
(5) 值得注意的是,我们的过滤策略对 ACOS-Laptop 数据集的改进相对有限。我们将此归因于其 ASQP 注释与我们的对比注释之间可能存在的潜在不一致。有关更详细的讨论,请参见进一步的分析部分。
5.3.2 匹配分数的影响
我们的方法依赖于伪标签评分器输出的匹配分数来进行数据过滤。我们进行了实验,以考察这些分数对自训练性能的影响。如图 3 所示,随着匹配分数的增加,性能逐步提升。然而,超过某一阈值后,匹配分数的进一步增加反而导致性能下降。这一现象验证了我们的假设:得分过低的样本通常标签质量较差,会对模型学习产生负面影响,而得分过高的样本往往过于简单,对后续模型训练的帮助有限。
5.3.3 数据量的影响。
伪标签样本的数量是影响自训练效果的另一个重要因素。我们进行了实验来分析其影响。如图 4 所示,随着数据量的增加,整体性能呈上升趋势。值得注意的是,在经过两级过滤后,这一趋势更加稳定和明显,强调了数据过滤的必要性。此外,我们发现,当增强样本数量超过 20,000 时,自训练的性能反而有所下降。这表明,仅仅通过增加数据量来提升性能是有限的。在后续研究中,平衡样本多样性和标签质量以增强自训练的效果将是一个值得进一步探讨的问题。
5.4 进一步分析
5.4.1 将对比数据作为额外标注数据。
利用对比数据的一种可行方法是将每个样本及其正标签视为额外的 ASQP 标注样本。我们分析了这种方法的有效性,表 7 中的结果显示:
(1) 这种方法可以提升性能,其中人工标注的对比数据优于 AI 标注的数据;
(2) 在数据量相等的情况下,该方法优于不进行数据过滤的自训练,这表明对比数据的质量优于伪标签数据;
(3) 然而,该方法的效果远低于经过数据过滤的自训练。这些发现表明,利用对比数据来训练伪标签评分器比仅仅将其作为额外标注数据更为有效。
5.4.2 伪标签评分器作为 ASQP 模型
伪标签评分器在架构上是一个生成模型,因此有可能直接作为 ASQP 模型使用。我们评估了这种可能性,并在表 8 中列出了结果。一个令人惊讶的发现是,直接使用评分器来预测四元组可以取得不错的性能,尽管总体上仍不及用于过滤和排序时的效果。这表明,除了训练评分器之外,利用对比数据来增强 ASQP 模型也是一个很有前途的方向,值得在未来的研究中进行深入探讨。
5.4.3 评估 ASQP 数据中的标签质量。
除了评估伪标签数据外,我们的评分器还可以用于评估现有 ASQP 数据的质量。我们对 ASQP 样本的匹配分数进行了统计分析,结果列在表 9 中。分析显示,ACOS-laptop 数据集的匹配分数相对较低,这可能表明其标注质量较差或与我们的对比数据一致性较低。我们手动审查了 100 个匹配分数低于 0.1 的样本,发现其中 73% 的数据与标注指南存在矛盾,包括 44% 的方面类别标注错误,8% 的方面或观点术语标注错误,以及 6% 的情感标注错误。此外,我们尝试移除匹配分数较低的样本。表 10 中的结果显示,这种移除不仅保持了模型的性能,还提升了其效果。这些发现表明,我们的评分器是评估现有数据集标签质量的有效工具,移除低质量样本对模型表现有益。
5.4.4 重新排名的分析
我们在附录C中展示了重新排序步骤的分析。
我们将伪标签评分器用作重排序器,对 ASQP 模型生成的候选标签进行重新评分,并选择得分最高的标签作为最终结果。表 12 显示,这一步骤显著提高了 ASQP 任务的性能,平均 F1 分数提升了 1.41%。此外,如果考虑一个假设的完美重排序器,即始终选择最优候选标签,表 12 显示性能提升幅度可达 15.75%。这一显著的潜在提升凸显了进一步探索重排序步骤的价值。
此外,我们根据置信度对通过束搜索获得的四个候选标签进行排序,然后分析最佳标签与我们的评分器偏好的标签之间的分布。如表 13 所示,在不到 70% 的情况下,置信度最高的候选标签被认为是最佳标签。相比之下,我们的评分器更倾向于选择置信度较高的候选标签,这表明在重排序步骤中还有进一步改进的空间。
6. 结论
在本文中,我们为方面情感四元组预测(ASQP)任务引入了一种伪标签评分器,以减少数据增强中的不匹配问题。我们提出,这个评分器的有效性和可靠性依赖于两个关键方面:训练数据集的质量和模型架构。为此,我们创建了人工标注和 AI 标注的对比数据集,并提出了一种基于生成模型的评分方法。在开发这个评分器后,我们将其应用于自训练框架中的数据过滤,并进一步作为重排序器来增强 ASQP 模型。详细的实验和分析证明了我们对比数据集和所提出架构的有效性。此外,在四个公开的 ASQP 数据集上的实验结果显示,我们的评分器显著且持续地提高了现有方法的性能。
7. 限制
尽管我们的方法显著提升了数据增强的效果,并改善了现有 ASQP 模型的性能,但它也存在以下局限性:
-
数据增强通常包括两个关键组件:数据合成和质量控制。虽然本文主要关注后者,但前者对于数据增强的成功同样至关重要。由于在有限标注数据上训练的模型可能在某些类别或情境中表现不佳,有针对性的数据合成可以缓解这些问题。全面探索数据合成和质量控制对于开发一个有效且健壮的数据增强框架至关重要。
-
我们的方法实现需要人工标注的对比数据。尽管可以使用大型语言模型来替代人工标注,但设计和优化提示词仍然需要细致的人工专业知识,并且耗时较长。
我们认为这些局限性为今后的研究提供了有希望的方向。

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)