【预训练视觉-语言模型文献阅读】最新SOTA——Oscar

【VQA最新文献阅读】Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks文章目录Abstract1Introduction介绍3Oscar Pre-training 预训练OscarInputPre-Training ObjectiveA Dictionary View: Masked Token Loss.

哨哨可不苕

4062人浏览 · 2021-03-18 18:38:51

哨哨可不苕 · 2021-03-18 18:38:51 发布

【预训练视觉-语言模型文献阅读】最新SOTA模型——Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

文章目录

【预训练视觉-语言模型文献阅读】最新SOTA模型——Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

Abstract

在图像-文本对上学习交叉模式表示的大规模预训练方法正在视觉语言任务中流行。虽然现有方法只是将图像区域特征和文本特征连接起来作为要进行预训练的模型的输入，并使用自注意以蛮力的方式学习图像文本的语义对齐方式，但在本文中，我们提出了一种新的学习方法方法Oscar，它使用在图像中检测到的对象标签作为锚点，从而显著简化了路线的学习。我们的方法是通过观察到图像中的显着物体可以被准确检测到的，并且经常在成对的文本中提及。我们在650万个文本-图像对的公共语料库上预先训练了Oscar模型，并在下游任务上对其进行了微调，从而在六种完善的视觉语言理解和生成任务上创建了最新的技术。

关键字： 对象语义，视觉和语言，预训练

1 Introduction介绍

学习跨模式表示法是多种视觉语言（V + L）任务的基础，例如视觉问答，图像文本检索，图像字幕。关于视觉语言预训练（VLP）的最新研究[22,38,5,35,20,19,46]显示，它可以从大量的图像-文本对中有效学习通用表示形式，并且可以对VLP模型进行微调针对特定任务的数据可以在完善的V + L任务上获得最新的（SoTA）结果。

这些VLP模型基于多层Transformer[39]结构。为了预训练这样的模型，现有方法仅将图像区域特征和文本特征连接起来作为输入，并诉诸自注意机制以暴力方式学习图像区域和文本之间的语义对齐。但是，图像区域和文本之间缺少明确的对齐信息，这导致对弱监督学习任务的对齐建模成为可能。此外，视觉区域通常会被过度采样[2]，嘈杂且模棱两可，这使任务更具挑战性。
在这里插入图片描述
图1：Oscar传递途径
该模型以三元组作为输入，并预先训练了两个损失（字词和标签上的掩码token损失，以及标签和其他标签之间的对比损失），并针对5个理解和2代任务进行了微调（详细内容请参见第4节）

在这项研究中，我们表明，通过引入在图像中检测到的对象标签作为锚点，可以轻松地学习图像与文本之间的语义对齐，从而可以大大改善跨模式表示的学习。我们提出了一种新的VLP方法Oscar，将训练样本定义为三元组，每个样本由一个单词序列，一组对象标签和一组图像区域特征组成。我们的方法是基于以下观察的：现代物体检测器可以准确地检测图像中的显着物体[28]，并且这些物体在配对文本中经常被提及。例如，在MS COCO数据集[21]上，图像及其配对文本共享至少1、2、3个对象的百分比分别为49.7％，22.2％，12.9％。我们的Oscar模型在由650万对组成的大规模V + L数据集上进行了预训练，并在七个V + L理解和生成任务上进行了微调和评估。整体设置如图1所示。

尽管据我们所知，在自然语言处理中已经探索了使用锚点进行对齐建模，例如[3]，但这项工作是第一个探索VLP想法的工作。以前有一些工作在V + L任务中使用对象或图像标签，目的是增强图像区域的特征表示，而不是学习图像文本对齐方式。例如，Zhou等[46]使用对象预测概率作为软标签，并将其与相应的区域特征连接起来。 Wu等 [42]和You等[43]引入图像级标签或属性以改善图像级视觉表示。

这项工作的主要贡献可以概括如下：
（i）我们引入了Oscar，这是一种功能强大的VLP方法，来学习通用的图像-文本表示，用于V+L理解和生成任务。
（ii）我们开发了一种Oscar模型，该模型可以在多个V + L基准上实现新的SoTA，大大优于现有方法；
（iii）我们进行了广泛的实验和分析，以提供有关使用对象标签作为跨模式表示学习和下游任务的锚点的有效性的见解。

2 背景

许多V + L任务的训练数据由图像-文本对组成，图2（a）如下所示。
在这里插入图片描述
(a) 图像-文本对（b）作为锚点的对象（c）语义空间

图2：这个过程说明了Oscar通过字典查找将一个图文对表示为语义空间的过程的插图。（a）输入图像-文本对的示例(b) 对象标签用作锚点，以将图像区域与预训练的语言模型的单词嵌入对齐。（c）单词语义空间比图像区域特征更具代表性。在此示例中，由于重叠区域，狗和沙发在视觉特征空间中相似，但在单词嵌入空间中却与众不同。

我们用
在这里插入图片描述

加上图片I和文字序列w。预训练的目的是以自我监督的方式学习图像-文本对的交叉模式表示形式，可以通过微调使其适合于各种下游任务。
VLP通常基于每个模态的奇异嵌入，使用多层自注意Transformer[39]结构来学习跨模态的上下文表示。因此，VLP的成功从根本上取决于输入奇异嵌入的质量。现有的VLP方法将图像的视觉区域特征 $v = v_1，v_K$ 和其配对文本的词嵌入 $w = w_1，w_T$ 作为输入，并依靠自我注意机制来学习图像-文本的对齐方式并产生交叉情态语境表示。
尽管直观且有效，但是现有的VLP方法存在两个问题：
(i) Ambiguity. 视觉区域特征通常是通过Faster R-CNN对象检测器[28]从过采样区域[2]中提取的，这不可避免地导致不同位置的图像区域之间出现重叠。这为所提取的视觉嵌入提供了歧义。例如，在图2（a）中，狗和沙发的区域特征很难区分，因为它们的区域严重重叠。
(ii)Lack of grounding. VLP自然是一个弱监督的学习问题，因为图像中的区域或对象与文本中的单词或短语之间没有明确标记的对齐方式。但是，我们可以看到，如图2（a）所示，在图像及其配对文本中都显示了诸如狗和沙发之类的显着对象，并且可以用作锚点来学习图像区域和文本单元之间的语义对齐，如图2（a）所示。图2（b）。
在本文中，我们提出了一种新的VLP方法，该方法利用这些定位点来解决上述问题。

3 Oscar Pre-training 预训练Oscar

人类通过多种渠道感知世界。即使任何一个单独的频道可能不完整或嘈杂，但重要的因素仍然可以感知，因为它们倾向于在多个频道之间共享（例如，可以从视觉和语言上描述狗，如图2所示）。以此动机，我们提出了一个新的建议

在这里插入图片描述
图3： Oscar的图示。我们将图像-文本对表示为三元组[word tokens , object tags , region features ]，其中提出了对象标记（例如“ dog”或“ couch”）以对齐跨域语义；移除后，Oscar简化为以前的VLP方法。输入三元组可以从两个角度理解：模态视图和字典视图。

VLP方法Oscar学习在语义级别捕获通道不变（或模态不变）因素的表示形式。Oscar与现有的VLP的不同之处在于，表示输入图像文本对和预训练目标的方式如图3所示。

Input

Oscar将每个输入的 image-text图像-文本对表示为Word-Tag-Image单词-标签-图像三元组（w，q，v），其中w是文本的词嵌入序列，q是对象标签的词嵌入序列（在文本中）从图像中检测出来，而v是图像的区域向量集。

现有的VLP方法将每个输入对表示为（w，v）。 Oscar引入q作为锚点，以简化图像文本对齐的学习。这是由于以下观察的结果：在训练数据中，图像中的重要对象通常也使用与对象标签相同的单词或不同但在语义上相似或相关的单词出现在图像配对的文本中。通过使用预先训练的BERT模型[6]可以相对容易地识别q和w之间的对齐方式（在文本中），这些模型被用作Oscar中VLP的初始化，因此很可能从中检测到对象标签的图像区域当通过文本中与语义相关的单词查询时，与其他区域相比，它具有更高的关注权重。图2（b）在概念上说明了这种对准学习过程。该过程也可以解释为学习使图像对象接地，如图2（a）所示，该图像对象可能在语言空间中表示的不同实体中模糊地表示在图2（c）中的狗和沙发之类的视觉空间中。具体地，v和q的产生方法如下。给定一个具有K个对象区域的图像（通常会过采样且有噪点），则使用Faster R-CNN [28]将每个区域的视觉语义提取为 $（ v^{'} ， z ）$ ，其中区域特征 $v∈ R^P,R^P$ 是P维向量（即P = 2048），而区域位置z是R维向量（即R = 4或6）3。我们将 $v_j和z$ 连接起来以形成位置敏感区域特征向量，然后使用线性投影将其进一步转换为v以确保它具有与词嵌入相同的向量维。同时，相同的Faster R-CNN用于检测一组高精度对象标签。q是对象标签的词嵌入顺序。

Pre-Training Objective

Oscar的输入可以从两个不同的角度看待，例如：

在这里插入图片描述

其中x是模态视图，用于区分文本和图像之间的表示形式； $x^{'}$ 是字典视图，用于区分表示输入的两个不同的语义空间。两视角让我们可以设计一个新颖的预训练目标。

A Dictionary View: Masked Token Loss.

不同字典的使用决定了用来表示不同子序列的语义空间。具体来说，对象标签和单词标记共享相同的语言语义空间，而图像区域特征则位于视觉语义空间中。我们将离散token序列定义为 $h\overset{\bigtriangleup}{=}[w，q]$ ，并应用Masked Token Loss（MTL）进行预训练。在每次迭代中，我们以15％的概率随机屏蔽h中的每个输入令牌，并用特殊令牌[MASK]替换被屏蔽的“ $h_i$ ”。这训练的目标是通过使负对数似然率最小化，基于其周围的标记h\i和所有图像特征v来预测这些屏蔽的标记：
在这里插入图片描述
这类似于BERT使用的屏蔽语言模型。遮罩的单词或标签需要从周围环境中恢复，并附带其他图像信息参加以帮助将学习的单词嵌入在视觉环境中打下基础。

A Modality View: Contrastive Loss.

对于每个输入三元组，我们将 $h'\overset{\bigtriangleup}{=}[q，v]$ 分组以表示图像形式，并将 $w$ 作为语言形式。我们然后通过用从数据集中随机采样的不同标签序列替换概率为50％的 $q$ 来对一组“污染”的图像表示进行采样。由于特殊令牌[CLS]上的编码器输出是融合的视觉语言表示 $（ h^{'} ， w ）$ ，我们在其顶部应用全连接（FC）层作为二进制分类器 $f （ . ）$ ，以预测该对是否包含原始图像表示形式 $（ y = 1 ）$ 或任何受污染的图像表示形式 $（ y = 0 ）$ 。对比损失定义为
在这里插入图片描述

在交叉模态预训练中，我们使用对象标签作为图像的代理来调整BERT的词嵌入空间，其中文本类似于其配对的图片（或更具体地说，是从图片中检测到的对象标签），并且与受污染的标签不同。
The full pre-training objective of Oscar is：
在这里插入图片描述

Discussion.

尽管可以将其他损失函数设计视为训练前的目标，但出于以下两个原因，我们针对这两个损失进行了实验：
（i）每一次损失都从其自己的角度提供了具有代表性的学习信号。我们刻意保持一种清晰而简单的联合损失形式，分别研究所提出的词典和模态视图的有效性。
（ii）尽管总体损失比现有的VLP方法要简单得多，但在我们的实验中却表现出优异的性能。

Pre-training Corpus预训练语料库

我们基于现有的V + L数据集构建了训练语料库，包括COCO [21]，概念字幕（CC）[31]，SBU字幕[26]，flicker30k [44]，GQA [13] ] 等等…总共，唯一图像集为410万个，语料库由650万个文本标签图像三元组组成。详细信息在附录中。

实现细节我们预先训练了两个模型变量，分别表示为OscarB和OscarL，分别使用BERT基数（H = 768）和大（H = 1024）的参数 $θ_{BERT}$ 进行初始化，其中H是隐藏大小。为了确保图像区域特征具有与BERT相同的输入嵌入大小，我们通过矩阵W使用线性投影来变换位置敏感区域特征。可训练参数为 $θ$ ={ $θ_{BERT}$ ， $W$ }。采用AdamW优化器。OscarB的训练步骤至少为100万步，学习速率为 $5e^{-5}$ ，批量大小为768。OscarL至少经过90万步训练，学习速率为 $1e^{-5}$ ，批量大小为512。离散标记h和区域特征的序列长度v分别为35和50。

4 Adapting to V+L Tasks适应V + L任务

我们将预训练的模型应用于七个下游V + L任务，包括五个理解任务和两个生成任务。每个任务都对适应提出了不同的挑战。"我们将在本节中介绍任务和微调策略，并将有关数据集和评估指标的详细说明留在附录中。

Image-Text Retrieval图像文本检索

在很大程度上依赖于联合表示。有两个子任务：图像检索和文本检索，具体取决于哪种模态用作检索目标。在训练期间，我们将其表述为二进制分类问题。给定一个对齐的图文对，我们随机选择一个不同的图像或不同的标题以形成一个未对齐的对。[CLS]的最终表示形式用作分类器的输入，以预测给定对是否对齐。我们没有使用ranking loss(所有以距离度量作为学习目标的损失函数归为Ranking loss)[14,18]，因为我们发现二元分类损失的效果更好，类似于[27]中的报道。在测试阶段，概率分数用于对查询的给定图像-文本对进行排名。[19]之后，我们报告了1K和5K COCO测试集的前K个检索结果。

Image Captioning图像描述

要求模型生成图像内容的自然语言描述。为了启用句子生成，我们使用seq2seq目标微调Oscar。以与预训练期间相同的方式，将输入样本处理为由图像区域特征，标题和对象标签组成的三元组。我们随机屏蔽掉15％的字幕token，并使用相应的输出表示法执行分类以预测令牌ID。类似于VLP [46]，自注意掩码受到限制，以使字幕令牌只能在其位置之前参加令牌以模拟单向生成过程。请注意，所有标题标记都将全神贯注于图像区域和对象标签，但反之则没有。

在推理过程中，我们首先对图像区域，对象标签和特殊标记[CLS]进行编码，以作为输入。然后，该模型通过输入[MASK]令牌并根据似然输出从词汇表中抽取一个token来开始生成。接下来，将先前输入序列中的[MASK]令牌替换为采样的令牌，并为下一个单词预测添加新的[MASK]。当模型输出[STOP]令牌时，生成过程终止。我们在实验中使用波束搜索（即波束大小= 5）[2]，并在COCO图像字幕数据集上报告我们的结果。

Novel Object Captioning (NoCaps)新型对象描述（NoCaps）

[1]扩展了图像描述任务，并使用“开放图像”数据集[17]中的图像提供基准，以测试模型描述训练语料库中未见的新型对象的能力。遵循NoCaps的限制准则，我们使用预测的Visual Genome和Open Images标签形成标签序列，并在未初始化预训练的情况下在COCO上训练Oscar。

VQA [9]视觉问答

要求模型根据图像回答自然语言问题。给定图像和问题，任务是从多项选择列表中选择正确的答案。在这里，我们对基于MSCOCO [21]图像集构建的广泛使用的VQA v2.0数据集[9]进行实验。数据集分为训练（83k图像和444k问题），验证（41k图像和214k问题）和测试（81k图像和448k问题）集。根据[2]，对于每个问题，模型从包含3129个答案的共享集中选择相应的答案。

对VQA任务进行微调时，我们构造一个输入序列，其中包含给定问题，对象标签和区域特征的串联，然后将来自Oscar的[CLS]输出馈送到特定于任务的线性分类器以进行解答预言。我们将VQA视为多标签分类问题[2]，根据其与人类答案的相关性为每个答案分配软目标分数，然后通过最小化使用预测值计算的交叉熵损失来微调模型分数和软目标分数。推断时，我们仅使用Softmax函数进行预测。
GQA [13]与VQA相似，不同之处在于GQA测试了模型回答问题的推理能力。我们在公共GQA数据集上进行实验[13]。对于每个问题，模型从1到852个候选答案的共享集中选择一个答案。我们使用OscarB开发了两个微调的模型。

GQA

一种类似于VQA。另一个在表2（d）中用Oscar * B表示，首先在不平衡的“全分割”上微调5个历元，然后在如[4]中所建议的，“均衡分割”为2个时期。

Natural Language Visual Reasoning for Real (NLVR2)面向事实的自然语言视觉推理[36]

拍摄一对图像和自然语言，目标是确定自然语言对图像对是否正确。在NLVR2任务上进行微调时，我们首先构建两个输入序列，每个输入序列包含给定句子（自然语言描述）的串联和一个图像，然后将来自Oscar的两个[CLS]输出串联为的联合输入。二进制分类器，由MLP实现。

5 Experimental Results & Analysis实验结果与分析

5.1 Performance Comparison with SoTA与SoTA的性能比较

为了考虑参数效率，我们将Oscar与三种类型的SoTA进行了比较：
（i）SoTAS表示，在基于Transformer的VLP模型之前，小型模型可实现最佳性能。
（ii）SoTAB表示尺寸与BERT基本相似的VLP模型所实现的最佳性能。
（iii）SoTAL表示尺寸与BERT大号相似的模型所产生的最佳性能。据我们所知，UNITER [5]是BERT大尺寸的唯一模型。

表1总结了所有任务的总体结果6。对于本文中的所有表格，蓝色表示任务的最佳结果，灰色背景表示由Oscar产生的结果。如表中所示，在大多数任务上，我们的基本模型要比以前的大型模型好得多，通常会有很大的差距。它证明了所提出的Oscar具有很高的参数效率，部分原因是使用对象标签作为锚点可以大大简化图像和文本之间语义对齐的学习。

在这里插入图片描述

表格1：六项任务的总体结果。 ∆表示相对于SoTA的改进。下标为S，B，L的SoTA表示通过小型模型，大小与BERT基本相似的VLP和大型模型实现的性能。大多数结果来自[5]，除了图像字幕结果来自[11,46]，NoCaps结果来自[1]，VQA结果来自[38]。

请注意，奥斯卡接受了预训练650万双，其中UNITER预训练所用的对不超过960万对，LXMERT则为918万对。
我们在表2中报告了每个任务的详细比较。
（i）与小型模型相比，VLP方法主导了许多V + L任务的经验性能。奥斯卡在所有七个任务上均优于所有现有的VLP方法，并在其中六个任务上实现了新的SoTA。在GQA上，神经状态机（NSM）[12]依赖于强大的结构先验，也可以将其合并到Oscar中以在将来进行改进。（ii）12合1是最近提出的V + L多任务学习模型[23]，基于BERT实现。我们看到，除了NLVR2的Test-P之外，OscarB在几乎所有任务上的表现都优于12合1。鉴于我们的方法基于单任务微调，结果证明了我们提出的预训练方案的有效性。
（iii）总体而言，奥斯卡在理解和生成任务方面均表现最佳。在字幕任务中，我们使用自关键序列训练（SCST）进一步微调了Oscar [30]，以改善序列级别的学习。唯一可比较的VLP字幕方法是[46]。"]],null,"en表2（e）中的结果表明，奥斯卡产生了更好的性能，例如，将BLEU @ 4和CIDEr分别提高了2和10个百分点以上。（iv）NoCaps准则要求仅使用COCO字幕培训集。因此，我们使用BERT进行初始化，并在COCO训练集上训练Oscar。使用约束波束搜索（CBS）。

表2（f）中的结果表明，Oscar的变体始终优于以前的SoTA方法UpDown [1]。在近域或域外情况下，差距要大得多，这证明了Oscar强大的泛化能力。
表2：有关V + L任务的详细结果。

在这里插入图片描述

5.2 定性研究

我们使用t-SNE可视化二维地图上COCO测试集的图像-文本对的学习语义特征空间[24]。对于每个图像区域和单词标记，我们将其传递通过模型，并将其最后一层的输出用作特征。比较带有和不带有对象标签的预训练模型。图4中的结果揭示了一些有趣的发现。（i）班内。借助于对象标签，两个模态之间相同对象的距离大大减小。

在这里插入图片描述

例如，奥斯卡中人（或斑马）的视觉和文字表示比基线方法中的视觉和文字表示更接近。（ii）班际间。添加标签后，具有相关语义的对象类越来越近（但仍可区分），而基线中则存在一些混合物，例如动物（人，斑马，绵羊，鸟），家具（椅子，沙发，长椅）和运输工具（公共汽车，火车，卡车，摩托车，汽车）。这验证了对象标签在对齐学习中的重要性：它在链接和规范化交叉模式特征学习中扮演了锚点的角色。
在这里插入图片描述

我们在图5中比较了不同模型的生成的字幕。基线方法是不带对象标签的VLP。我们看到，由于使用了由Faster R-CNN检测到的准确且多样的对象标签，因此Oscar会生成比基线更详细的图像描述。它们是单词嵌入空间中的锚点，指导文本生成过程。

5.3 消融分析

我们对奥斯卡的多种设计选择进行消融实验
在预训练和微调中更好地了解他们的相对重要性
代表四个下游任务。所有消融实验均在基本模型上进行。

The Effect of Object Tags对象标签的效果

为了研究对象标签的效果，我们尝试了三种不同的设置：
（i）基准（无标签）：这将模型缩减为以前的VLP对应模型，其中没有利用任何标签信息。
（ii）预测标签：我们使用现成的对象检测器（在COCO数据集上进行训练）来预测对象标签。
（iii）真实标签：来自COCO数据集的真实标签被用作我们方法的性能“上限”。
实验是使用相同的BERT基本模型在三个代表任务上进行的，包括VQA，图像检索和图像字幕。如图6所示，与在所有任务上都没有标签的VLP方法相比，用于带有对象标签的微调的学习曲线收敛得更快，更好。在VQA和检索任务上，使用标签进行培训仅花费一半的培训时间即可达到基准的最终性能，这表明Oscar对于VLP是一种更实用，更有效的方案。随着将来开发出更精确的物体检测器，Oscar可以实现更好的性能，从而弥补了使用地面真实标签所显示出的差距。
在这里插入图片描述

Attention Interaction注意力交互

为了进一步理解文本、对象标签和对象区域之间的相互作用，我们通过改变图像-文本检索的注意掩模来进行微调实验。默认设置在所有模式中使用全部注意力。然后我们启用注意力面具的某些部分。所有模型都是在BERT基础上初始化的，无需预先训练。表3报告了COCO 1K测试集的性能。通过比较使用完全注意和部分注意w-v的结果，我们看到添加对象标签是有益的。此外，在表示图像时，区域特征比对象标签(w-v，vs. v-q)更能提供信息。这表明标签在作为特征使用时会产生微小的改进；像奥斯卡那样，更有前途的方法是将它们用作定位点。

在这里插入图片描述

Object Tags in Pre-training 预训练中的对象标签

为了研究不同对象标签集在预训练模型中的影响，我们对两个变量进行了预训练： OscarVG和OscarOI利用分别在视觉基因组（VG）数据集[16]和开放图像（OI）数据集[17]上训练的对象检测器产生的对象标签。在这种消融中，所有模型都进行了59.8万步的预训练。"]],null,"en结果显示在表4中，其中还列出了基准（无标签）以进行比较。显然，无论使用哪一组对象标签，使用对象标签作为锚点的Oscar方案都会改善基线。 VG标签的性能略优于OI。我们假设在VG上训练的对象检测器具有更多种类的对象，尽管在OI上训练的对象检测器具有更高的精度。
在这里插入图片描述
表4：各种预训练方案的结果。

6 Related Work相关工作

Vision-Language Pre-training视觉语言预训练

人们越来越希望对通用模型进行预训练，以解决各种V + L问题，例如视觉问答（VQA），图像文本检索和图像字幕等。现有方法[37,38,22,5,46,35,19,10]使用类似BERT的目标[6]从视觉区域特征和语言标记嵌入的串联序列中学习交叉模式表示。他们在很大程度上依靠变形金刚的自我关注机制来学习在两种方式中都适当地进行了语境表达的联合表示。例如，早期的工作[22,38]提出了一个基于两流和三流基于Transformer的框架，并共同关注以分别融合这两种模式。Chen等。[5]对学习的通用表示形式的不同预训练目标的影响进行全面研究。周等。[46]提出了第一个统一模型来处理理解和生成任务，仅使用VQA和图像字幕作为下游任务。本文将Oscar模型应用于更广泛的下游任务，包括理解任务和生成任务，并且在大多数任务中实现了新的SoTA。与现有的VLP方法相比，所提出的Oscar最显着的区别是使用对象标签以两种方式对齐元素。它减轻了VLP模型必须从零开始找出交叉模式语义对齐的挑战，从而提高了学习效率。实际上，在大多数V + L任务上，我们的基本模型已经优于现有的大型VLP模型。

Object Tags对象标签

Anderson等[2]引入了自下而上的机制，以通过Faster R-CNN [28]将图像表示为一组可视区域，每个区域都有一个关联特征向量。它使注意力可以在对象级别进行计算，并迅速成为用于细粒度图像理解任务的事实上的标准。在本文中，我们建议使用对象标记在预训练的语言语义空间中对齐[2]中的对象区域特征。利用对象标签的想法已经被探索用于图像理解[42,43,46]。Wu等人基于CNN的网格区域特征。 [42]使用预测的对象标签仅作为LSTM输入的图像字幕，而You等人。 [43]同时考虑标签和区域特征。基于目标探测器提出的显着区域，Zhou等人。 [46]将对象预测概率向量与区域特征连接起来，作为VLP的视觉输入。不幸的是，这些作品中的标签没有同时与对象区域和文本的单词嵌入相关联，从而导致缺乏接地感。我们构建的带有相应区域特征和单词嵌入的对象标签可为对象提供更完整和更具信息性的表示形式，尤其是在对语言实体嵌入进行预训练时，如下所述。

Multimodal Embeddings多模态嵌入

已经证明，V + L任务可以受益于共享的嵌入空间，可以在图像和文本之间对齐多模态对应关系。 Socher等人的早期尝试。 [33]使用核化规范相关分析将单词和图像区域投影到一个公共空间中，并获得了很好的注释和分割结果。类似的想法被用于图像标题[14]和基于文本的图像检索[29]。特别是，开创性的著作DeViSE [8]建议使用从未注释的文本中收集的语义信息来识别视觉对象。利用这种语义信息来预测训练期间未观察到的图像标签，并极大地改善了视觉模型从未见过的数千种新颖标签的零镜头预测。这个想法在[34,15,25]中得到了扩展，表明利用预训练的语言知识在跨模态转移学习中对对齐语义和提高样本效率非常有效。受此系列研究的启发，我们重新审视了这一想法，并提出在神经语言模型预训练时代利用从学习的词嵌入中获得的丰富语义。实际上，我们在新颖的对象字幕研究中的结果表明，奥斯卡有助于提高预训练模型的可推广性。

7 Conclusion结论

在本文中，我们提出了一种新的预训练方法Oscar，该方法将对象标签用作锚点，以在共享语义空间中对齐图像和语言模态。我们通过在具有650万个文本-图像对的公共语料库上预先训练Oscar模型来验证模式。预先训练的模型将有关六个已建立的V + L理解和生成任务的最新技术存档起来。

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐