End-to-End Video Instacne Segmentation with Transformers（VisTR）阅读笔记

End-to-End Video Instacne Segmentation with Transformers（VisTR）阅读笔记https://arxiv.org/abs/2011.14503AbstractVisTR任务是一个直接的端到端并行序列解码、预测问题。输入是一个由多个图像帧组成的视频VisTR直接按照顺序输出视频中每个实isTR例的masks序列核心是一种新型的有效的实例匹配和分

给个编制

970人浏览 · 2021-03-14 11:04:10

给个编制 · 2021-03-14 11:04:10 发布

End-to-End Video Instacne Segmentation with Transformers（VisTR）阅读笔记

https://arxiv.org/abs/2011.14503

在这里插入图片描述

Abstract

VisTR任务是一个直接的端到端并行序列解码、预测问题。

输入是一个由多个图像帧组成的视频

VisTR直接按照顺序输出视频中每个实isTR例的masks序列

核心是一种新型的有效的实例匹配和分割策略。从整体上监督和分割时序列级的实例。

VisTR实现了VIS模型中的最高速度，在YouTubeVIS数据集上得到了最佳的结果。

1 Introduction

对视频序列中感兴趣的对象进行分类、分割和跟踪。需要对每一个单独的帧执行实例分割，同时建立跨连续帧的实例的数据关联，也称为跟踪。

之前sota方法非常慢。

实例分割是为了学习像素级的相似性，实例跟踪是为了学习实例之间的相似性。

transformer能够模拟长时相关性，因此可以自然的应用于视频，以学习跨多个帧的时间信息。

本文提出了视频实例分割变换器，它将视频实例分割任务视为一个并行序列解码预测问题。

第一阶段，给定一个视频帧序列，一个标准的CNN模块提取单个图像帧的特征，然后多个图像特征以帧的顺序连接，形成clip-level 特征序列。
第二阶段，transformer将clip-level特征序列作为输入，并按照顺序输出一系列对象预测。

面临挑战：

如何保持输出的顺序
如何从transformer网络中获得每个实力的mask序列

应地，我们引入了实例序列匹配策略和实例序列分割模块。

贡献：

提出VisTR，视为一个端到端的并行序列解码预测问题。
VisTR从相似性学习的新视角解决了VIS问题。
框架量身定制的实例序列匹配和分割的新策略。
在YouTube-VIS数据集上又快又好。

2 Related work

**Video object segmentation：**VOS

Video instance segmentation: VIS任务要求对每个帧中的实例进行分类、分段，并跨帧链接相同的实例。

**Transformers：**核心机制，self-attention，特别适合于远程依赖的建模。DETR构建了目标检测系统；VIT将transformer引入图像识别

3 Our Method: VisTR

3.1 VisTR Architecture

下图是整个VisTR的网络结构，主要包括四个部分：1. CNN backbone（提取多个帧的紧凑特征表征）；2. Transformer encoder（对像素级和实例级特征的相似性进行建模）；3. Transformer decoder（对像素级和实例级特征的相似性进行建模）；4. 用于监督模型的实例序列匹配模块和实例序列分割模块。

在这里插入图片描述

CNN Backbone: 提取输入视频切片序列的原始像素级特征。

输入： $x_{clip} \in R^{T\times3\times H_0 \times W_0}$ 其中 $H_0, W_0$ 为输入视频的高和宽， $3$ 为RGB通道数。然后CNN对每帧生成低分辨率特征图，再将每帧特征连接（concatenat）起来，生成 $f_0 \in R^{T \times C \times H\times W}$

Transformer encoder: transformer被用来模拟clip特征之间的相似性。

首先使用 $1\times1$ 卷积，将维数从 $C$ 降低到 $d, (d < C)$ ，从而产生新的特征图 $f_1 \in R^{T \times d\times H\times W}$ ，为了能够输入transformer，将 $f_1$ 展平程一维，从而产生一个2D特征图，size为 $d\times (T\cdot H \cdot W)$ 。请注意，时间顺序始终与初始输入一致。

每一个encoder layer 都有一个**多头自注意力（MHSA）模块和一个全连接的前馈网络（FFN）**组成

Temporal and spatial positional encoding：

因为分割任务需要精确的位置信息，所以用三维（时间、水平和垂直）位置信息的固定位置编码信息来补充特征。替换原始transformer中的位置编码器。

对于每个维度的坐标，独立使用了 $d / 3$ 个不同频率的正弦和余弦函数。

注意 $d$ 应该可以被3整除，因为三维的位置编码应该连接起来形成最终的 $d$ 通道的位置编码。

Transformer decoder: 解码器旨在解码代表每个帧实例的顶部像素特征，称为实例级特征。

（没读懂）

3.2 Instance Sequence Matching

难点：保持不同图像中相同实例的预测的相对位置，也成为实例序列。为找出并且从整体上监督实例序列，引入了实例序列匹配策略。

当VisTR每帧解码n个实例时，实例序列的数量也是n。

（没读懂）

3.3 Instance Sequence Segmentation

实例序列分割模块旨在预测每个实例的掩码序列

(没读懂)

4 Experiments

在Y ouTubeVIS [30]数据集上进行实验，该数据集包含2238个训练、302个验证和343个测试video clips。数据集的每个视频都用每个像素的分割掩码、类别和实例标签进行注释。

批评家指标为平均精度（AP）和平均召回率（AR）

4.1 Implementation Details

Model settings: YouTube-VIS中视频最大帧数为36，所以默认输入视频剪辑的默认长度T设置为36。模型预测每帧10个对象，因此对象查询总数为360。

对于Transformer，我们使用6个编码器，6个宽度为384的解码器和8个注意力头。使用ResNet-50作为主干网络，并使用DETR相同的超参数。

Training: 使用PyTorch-1.6实现，使用AdamW进行训练，初试学习率设置为 $10^{-4}$ ，ResNet-50backbone也设置为 $10^{-4}$ ，权重衰减为 $10^{-4}$ 。

训练了10个epochs，使用COCO上预训练的DETR权重初始化主干网络。这些模型在8个32G显存的V100 GPUs上训练的，每个GPU处理一个video clip，视频帧大小被下采样到 $300\times540$ 大小，以适应GPU显存。

Inference: 与训练保持相同的尺寸设置。所有帧的平均分数作为实例分数。对于已经在不同框架中被分类到不同类别的实例，我们使用最频繁预测的类别作为最终实例类别。

4.2 Ablation Study

消融实验

Temporal information: 视频图像的区别主要是视频包含时间信息。如何有效地学习和利用时间信息是视频理解的关键。在这个实验中，我们研究了时间信息在两个维度上对VisTR的重要性:数量和顺序。

Video sequence length: 评估时间信息量的重要性，对不同输入视频序列长度的模型进行实验。结果表明，更多的时间信息确实有助于模型学习得更好。由于数据集的最大视频长度为36，我们认为，如果数据集更大，VisTR可以获得更好的结果。

**Video sequence order: **真实场景中，物体的运动是连续的，所以时间信息的顺序也是非常重要的

以随机顺序和时间顺序对用输入视频序列训练的模型进行比较。

Positional encoding: 位置信息对于视觉系统的密集预测问题非常重要，由于原始特征序列不包含位置信息，我们补充了空间和时间位置编码，它们指示视频序列中的相对位置。

我们的解释是，序列监控的有序格式以及转换器的输入和输出顺序之间的对应关系隐含地提供了一些相对位置信息。

**Instance queries: **实例查询是用于解码代表性实例预测的学习嵌入。在默认设置中，一个查询负责一个预测，在表1b中称为“预测级别”，360个嵌入对应360个预测。

**Transformers for feature encoding: ** 分割过程使用三种类型的特征：1. Transformer编码器和解码器的输出计算的注意力图；2. 来自编码器的特征 $E$ ；3. 来自主干的特征 $B$ 。

这表明，在转换器通过自我关注根据它们之间的所有成对相似性更新它们之后，可以更好地学习特性。结果还显示了将空间和时间特征作为一个整体进行建模的优越性。

**Instance sequence segmentation: ** 分割过程包含实例掩码特征累积和实例序列分割模块。实例序列分割模块将实例序列作为一个整体。我们期望它能够通过3D卷积学习时间信息来加强掩模预测。

通过这些消融研究，我们得出结论，在VisTR设计中:时间信息、位置编码、实例查询、编码器和实例序列分割模块中的全局自我关注，都对最终性能起着重要作用。

4.3 Main Results

将VisTR与一些最先进的视频实例分割方法进行了比较。从准确性和速度两方面进行比较。

此外，我们认为VisTR和MaskProp之间的应用差距主要来自于其多个网络的结合，即时空采样网络[3]、特征金字塔网络[12]、混合任务级联网络[6]和高分辨率掩膜细化后处理。

由于我们的目标是设计一个概念简单的端到端框架，许多改进方法，如复杂的视频数据增强和多级遮罩细化，都超出了这项工作的范围。

VisTR的高速得益于其并行解码和无后处理的设计。

5 Conclusion

VisTR从相似性学习的新视角解决了VIS问题。

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐