1 置信学习提出的背景

在做机器学习模型的时候我们一般认为数据的标签是可信的,而对于那些不可信的数据可能会直接丢弃或者利用类似半监督学习的思想处理。而置信学习反其道行之,通过使用一些策略给出数据原始标签的置信程度,纠正噪音数据的标签之后再进行后续的训练。该概念来自于ICML2020年的一篇论文:Confident Learning: Estimating Uncertainty in Dataset Labels,先列出置信学习框架的优势:

  • 可以发现标注错误的数据
  • 可以直接估计噪声标签与真实标签的联合分布,具有理论合理性
  • 不需要超参数,使用交叉验证来获得样本外的预测概率
  • 不需要做随机均匀的标签噪声的假设
  • 与模型无关
  • 已经开源了该学习框架:cleanlab,可以使用pip安装直接使用!

2 论文简单翻译

Abstract

置信学习(Confident Learning, CL)关注于标签的质量(可信程度),通过特征化和识别数据集中的错误标签,因此能够修剪噪声数据从而提高数据标签的质量。本文将该领域此前独立研究的成果结合在一起开发了开源的置信学习框架cleanlab,达到了SOTA,并且在CIFAR和ImageNet数据集上的表现都很出色。

Introduction

大型数据集中包含噪声标签是一个很普遍的状况,噪声标签带来两个问题:如何识别带有标签错误的例子,以及如何在有噪声标签的情况下让模型的性能不受影响?在这本文中我们遵循一种以数据为中心的方法,从理论上和实验上研究一个前提,即使用有噪声标签学习的关键在于准确和直接表征数据中标签噪声的不确定性。

Problem Set-up

<未完待续>

参考资料:

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐