我自己的原文哦~                     https://blog.51cto.com/whaosoft/11634816

#OV-DINO

开源性能最强!中大和美团提出OV-DINO:语言感知的开放域目标检测方法!

中山大学和美团联合提出新的开放域检测方法OV-DINO:基于语言感知选择性融合、统一的开放域检测方法,取得了开放域检测新SOTA,目前开源性能最强的开放域检测模型!(比GroundingDINO高12.7% AP!比YOLO-World 高4.7% AP!)

项目:wanghao9610.github.io/OV-DINO

论文:​​https://arxiv.org/abs/2407.07844​

代码(已开源):

​https://github.com/wanghao9610/OV-DINO​

在线Demo:​​http://47.115.200.157:7860/​

1. 亮点

  • OV-DINO 是一种新颖的统一的开放域检测方法,能为实际应用提供出色的性能和效果。
  • OV-DINO 提出了一个统一的数据集成管道,用于整合多种数据源进行端到端的预训练;并提出了一个语言感知选择性融合模块,以提高模型的视觉语言理解能力。
  • 相比之前的方法,OV-DINO 在 COCO 和 LVIS 基准上显示出显著的性能提升,在零样本评估中,相比 Grounding-DINO 分别在 COCO 上提升了 2.5% AP,在 LVIS 上提升了 12.7% AP。

2. 摘要

开放域检测是一项具有挑战性的任务,因为它需要基于类名检测对象,包括在训练过程中未遇到的类名。现有的方法通过在多样的大规模数据集上进行预训练展示了强大的零样本检测能力。然而,这些方法仍然面临两个主要挑战:(i) 如何高效整合多样的数据源以进行端到端训练,(ii) 如何有效利用语言感知能力进行区域级的跨模态理解。为了解决这些挑战,我们提出了一种新颖的统一的开放域检测方法OV-DINO,该方法在多样的大规模数据集上进行预训练,并在统一框架中进行语言感知的选择性融合。具体来说,我们引入了一个统一的数据整合(UniDI)管道,以实现端到端训练,并通过将不同的数据源统一到以检测为中心的数据中来消除伪标签生成带来的数据噪声。此外,我们提出了一个语言感知选择性融合(LASF)模块,通过语言感知的查询选择和融合过程来实现模型的语言感知能力。我们在流行的开放域检测基准数据集上评估了所提出的OV-DINO的性能,以零样本方式在COCO数据集上实现了50.6%的AP,在LVIS数据集上实现了40.0%的AP,展示了其强大的泛化能力。此外,在COCO数据集上微调的OV-DINO实现了58.4%的AP,超越了许多使用相同骨干网的方法。

3. 方法

本文提出了一种名为OV-DINO的开放域检测方法。该模型在统一预训练框架内利用多种数据源实现了端到端预训练,在多个开放域检测数据集上取得了当前最好的性能表现。

图片

图1 OV-DINO模型结构图

3.1 整体框架

OV-DINO的整体框架包括一个文本编码器、一个图像编码器和一个检测头。模型接收图像和提示文本作为输入,通过特定模板创建统一的文本嵌入表示。图像和文本嵌入经过编码器处理后,图像嵌入通过Transformer编码器生成精细化的图像嵌入。语言感知查询选择模块选择与文本嵌入相关的对象嵌入,并在解码器中与可学习的内容查询融合,最终输出分类分数和回归边界框。

3.2 统一数据集成(UniDI)

在预训练阶段,OV-DINO将检测数据、定位数据和图像-文本数据转换为统一的检测数据格式,从而简化模型优化过程并提高性能。检测数据和定位数据的集成相对简单,而图像-文本数据的转换则通过将图像描述视为图像的唯一类别来实现。所有文本输入都通过简单模板进行统一处理,确保一致的文本嵌入表示。

3.3 语言感知选择性融合(LASF)

该模块包括语言感知查询选择和语言感知查询融合两个关键组件。查询选择组件通过评估图像嵌入和文本嵌入的相似性来选择对象嵌入。查询融合组件逐步融合语言感知对象嵌入,同时保留内容查询的原始语义。语言感知查询选择通过计算图像嵌入和文本嵌入的相似性矩阵,并选择最相关的嵌入。查询融合则在解码器层中动态更新内容查询,逐步引入语言感知上下文。

3.4 预训练

OV-DINO采用检测中心的数据格式,将不同类型的数据(检测数据、定位数据和图像-文本数据)转化为适合检测的格式,允许在统一的框架内进行预训练。模型的前向传播过程包括图像编码器提取图像嵌入、文本编码器提取文本嵌入、Transformer编码器生成精细化图像嵌入、语言感知查询选择模块选择对象嵌入,以及Transformer解码器通过选择性融合模块进行查询分类和边界框回归。模型通过统一的分类损失函数和目标框损失函数进行优化。

通过上述设计,OV-DINO实现了开放域检测的高效预训练和性能提升。

  1. 实验4.1 实验设置

OV-DINO使用Swin Transformer作为图像编码器和BERT-base作为文本编码器的模型架构,通过统一数据集成(UniDI)流程整合了多样化的数据源,如Objects365、GoldG grounding和Conceptual Captions图像-文本数据集,进行端到端的预训练。在此基础上,引入了语言感知选择性融合(LASF)模块来优化跨模态的语义对齐。在预训练阶段,批量大小为128,训练周期为24个epoch,使用了AdamW优化器,学习率调度采用多步衰减策略。在COCO数据集进行了额外的微调,批量大小为32,设置了更小的学习率。在COCO和LVIS基准数据集上进行评估,采用平均精度(AP)和固定平均精度(Fixed AP)作为主要指标。

4.2 主要实验结果

4.2.1 COCO Benchmark

在零样本评估设置中,OV-DINO在COCO 2017验证集上取得了50.6%的平均精度(AP),这在同类方法中表现突出。该结果显著优于先前的方法,GLIP和G-DINO,显示了OV-DINO在处理未见类别时的强大泛化能力。在COCO数据集上进行微调后,OV-DINO进一步提升了性能,达到了58.4%的AP,刷新了该领域的记录。这一结果证明了OV-DINO不仅在零样本情况下表现出色,通过进一步的微调也能在封闭词汇集上实现卓越的检测性能。

4.2.2 LVIS Benchmark

在零样本评估设置中,OV-DINO在LVIS MiniVal数据集上取得了40.1%的AP,显著优于其他现有方法,如GLIP和G-DINO。在LVIS Val数据集上,OV-DINO也展现了强大的性能,取得了32.9%的AP。OV-DINO在处理LVIS数据集中的长尾类别时表现出色,能够检测到稀有(rare)、常见(common)和频繁(frequent)类别的物体。在LVIS MiniVal数据集上,OV-DINO在稀有类别上取得了34.5%的AP,在常见类别上取得了39.5%的AP,在频繁类别上取得了41.5%的AP。

图片

表1 COCO 实验结果

图片

表2 LVIS实验结果

4.3消融实验结果

4.3.1统一数据集成(UniDI)

消融实验显示,UniDI通过将不同数据源整合到统一的检测中心数据格式中,显著提高了模型在LVIS MiniVal数据集上的性能。

4.3.2 语言感知选择性融合(LASF)

LASF模块通过动态选择与文本输入相关的对象嵌入,并将其与可学习的内容查询融合,进一步提升了模型的跨模态对齐能力。

4.3.3 LASF变体比较

对LASF的不同变体(Later-LASF, Middle-LASF, Early-LASF)进行了比较。结果显示,Later-LASF变体在零样本转移能力上表现最佳,被选为OV-DINO的默认架构。

4.3.4 文本嵌入池化方法

消融实验研究了不同的文本嵌入池化方法(如均值池化和最大值池化)对模型性能的影响。结果表明,均值池化在结合使用O365和CC数据集时表现更好,这有助于捕获提示文本的全面表示。

4.3.5 图像-文本数据源的影响

通过比较不同来源的图像-文本数据(如基于图像-文本相似度排名的底部100K样本、随机选择的100K样本和顶部100K样本)对模型性能的影响。结果显示,排名最高的数据源表现最佳,而排名最低的数据源表现最差,这突出了图像-文本数据集中不可避免的噪声,并强调了过滤操作的必要性。

  1. 可视化结果5.1 COCO可视化结果比较

可视化结果显示,OV-DINO能够准确地检测出图像中定义的所有对象,并且置信度分数较高。与GLIP和G-DINO等其他方法相比,OV-DINO的预测更加精确,并且能够检测到标签中未标记的额外对象。

5.2 LVIS可视化结果展示

LVIS数据集包含超过1000个类别,OV-DINO在零样本推断中展现了其检测多样化实例的能力。可视化结果突出了OV-DINO在长尾类别上的性能,显示出在图像中检测到丰富多样的物体类别,并且预测结果具有高准确性。

通过在COCO和LVIS数据集上的可视化结果,OV-DINO证明了其强大的零样本泛化能力,即使是在面对训练期间未遇到的类别时也能进行有效的检测。

图片

图2 COCO 可视化结果比较

图片

图3 LVIS 可视化结果展示6. 结论

OV-DINO是一个统一的开放域检测方法,通过语言感知的选择性融合和统一数据集成(UniDI)显著提高了检测性能。在COCO和LVIS基准测试中,OV-DINO实现了超越现有最先进方法的性能,在零样本和微调评估中均展现出卓越的结果。通过引入语言感知的跨模态融合和对齐,OV-DINO为开放域检测(OVD)提供了一种新颖的视角,与传统的区域-概念对齐方法不同。尽管OV-DINO在性能上取得了显著成果,但仍存在一些挑战和局限性,如模型扩展性、计算资源需求等。期望OV-DINO能够激励未来在开放域视觉任务中更有效地利用语言感知跨模态信息的探索。

....

#在Ubuntu系统上部署Python Halcon

    在服务器中,大多是linux系统。

    在windows系统中是很好部署python-halcon的,

    只需要一些halcon的dll文件和license许可证,

    并在环境中输入pip install mvtec-halcnotallow==20110即可,

    这里的20110(对应halcon20.11.1)不固定,看你自己的版本。

在Linux系统中部署Python Halcon

halcon下载安装

    可以在官网或者其他地方下载:

  • MVTec 官网: www.mvtec.com
  • 大恒图像官网: www.daheng-imaging.com

    halcon20.11.1版本下载如下链接(推荐):

https://pan.baidu.com/s/1OyGMilGo-zh4DGHnFxd4Eg?pwd=vmaa
提取码: vmaa

    下载完成后输入下面指令

tar -zxvf halcon-20.11.0.0-linux.tar.gz
./install-linux.sh

    然后再输入

sudo vim ~/.bashrc

    在最下面放入加入下面代码:

# Sample shell script for HALCON environment settings
# (sh syntax)
# If you are using the Bourne shell source this file with the following
# command:
# source .profile_halcon


HALCONARCH=x64-linux; export HALCONARCH


HALCONROOT=/opt/halcon; export HALCONROOT


HALCONEXAMPLES=${HALCONROOT}/examples; export HALCONEXAMPLES


HALCONIMAGES=${HALCONROOT}/examples/images; export HALCONIMAGES


PATH=${HALCONROOT}/bin/${HALCONARCH}:${HALCONROOT}/FLEXlm/${HALCONARCH}:${PATH}


export PATH


if [ ${LD_LIBRARY_PATH} ] ; then


LD_LIBRARY_PATH=${HALCONROOT}/lib/${HALCONARCH}:${LD_LIBRARY_PATH}


export LD_LIBRARY_PATH


else


LD_LIBRARY_PATH=${HALCONROOT}/lib/${HALCONARCH}; export LD_LIBRARY_PATH


fi


if [ "x${FLEXID_LIBRARY_PATH}" = "x" ]; then


FLEXID_LIBRARY_PATH="${HALCONROOT}/FLEXlm/${HALCONARCH}/flexid9:/usr/lib"


export FLEXID_LIBRARY_PATH


fi

    按Esc,然后输入:wq保存并退出。

    然后在终端输入:

source ~/.bashrc

    完成环境配置后进行检测:

echo $LD_LIBRARY_PATH

    如果有输出结果证明配置完成,如果没有输出则需要核实之前步骤。

    正常输出结果:

    然后再vscode 编辑器python环境命令行中输入:

    pip install mvtec-halcnotallow==20111.0.0

    安装python版本的halcon 20.11.1

    大功告成,Good Job!

....

#RAPO++

上海交大与上海AI lab联手推出:跨阶段提示优化,让文生视频模型“更懂你心”

最近,来自上海交通大学和上海人工智能实验室的研究者们,带来了一项名为 RAPO++ 的新技术,它巧妙地解决了文本到视频(T2V)生成中的一个核心痛点:我们普通人给出的简单指令(Prompt),往往难以让强大的AI模型充分发挥其潜力。RAPO++ 就像一个“提示词魔法师”,通过一套跨阶段的优化流程,在不改动现有视频生成模型的基础上,就能显著提升生成视频的质量、连贯性和想象力。

一起来看看这项工作的基本信息:

  • 论文标题: RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
  • 作者团队: Bingjie Gao, Qianli Ma, Xiaoxue Wu, Shuai Yang, Guanzhou Lan, Haonan Zhao, Jiaxuan Chen, Qingyang Liu, Yu Qiao, Xinyuan Chen, Yaohui Wang, Li Niu
  • 所属机构: 上海交通大学;上海人工智能实验室
  • 论文地址: https://arxiv.org/abs/2510.20206
  • 项目主页: https://github.com/Vchitect/RAPO

值得一提的是,该文是 CVPR 2025 论文 The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation 的升级期刊版,是一系列探索工作的新进展。

问题的根源:用户提示与模型训练的“鸿沟”

相信玩过文生视频的朋友都有体会,我们输入的提示词往往比较简短、随性,比如“一只猫在弹钢琴”。但实际上,要生成高质量、高保真的视频,AI模型需要的是更详尽、更结构化的描述,比如“一只可爱的橘猫,戴着红色领结,坐在三角钢琴前,用它的爪子笨拙地敲击着黑白琴键,特写镜头,电影质感”。

这种用户输入与模型“胃口”之间的不匹配,限制了生成模型的上限。现有的方法大多是简单地用大型语言模型(LLM)来“润色”一下提示词,但这往往治标不治本,甚至可能偏离用户的初衷。

RAPO++:三步走的“提示词魔法”

为了解决这个问题,研究者们提出了一个三阶段的优化框架——RAPO++。它的核心思想是,在不同的阶段,用不同的策略,系统性地优化提示词。

第一阶段:RAPO - 让提示词“对齐”训练数据

这一阶段名为“检索增强提示词优化”(Retrieval-Augmented Prompt Optimization, RAPO)。它的目标是让用户的简单提示词,在内容和风格上都更接近模型训练时使用的数据。

它主要做两件事:

  • 内容丰富化:通过一个预先构建的“关系图”,为用户的提示词找到语义上相关的“修饰词”(modifiers),比如颜色、风格、动作等,让描述更丰满。
  • 结构重构:利用一个微调过的大语言模型(LLM),将丰富化后的内容,重组成更符合训练数据分布的句子结构。

经过这个阶段,一个简单的提示词就被“改造”得更专业、更利于模型理解了。从下面的分布图可以看出,经过RAPO优化的提示词长度分布,确实与训练数据的分布更为接近。

第二阶段:SSPO - 在测试时“迭代”出最佳效果

第二阶段引入了“样本特定提示词优化”(Sample-Specific Prompt Optimization, SSPO),这是一个在推理(测试)阶段运行的闭环迭代过程。简单来说,就是“不满意,就修改,再生成”,直到效果最好。

这个过程非常智能,它会从多个维度来评估当前生成的视频:

  • 语义对齐:生成的内容和提示词的描述一致吗?
  • 空间保真度:物体的位置关系对吗?
  • 时间连贯性:视频的动态变化流畅吗,有没有闪烁或者突变?
  • 特定任务信号:比如,对于需要物理真实感的视频,还会引入光流等指标来评估运动的合理性。

一旦发现问题,系统就会根据这些反馈,自动调整提示词,然后再次生成视频。这个过程不断重复,视频质量也随之“螺旋式上升”。

从上图“瓦尔基里骑着飞马穿越云层”的例子可以看到,随着迭代次数增加,生成的画面越来越精细、生动,也更符合用户的想象。下面的图表也量化了这一趋势,随着迭代次数增加,各项指标(时间一致性、视觉质量、图文对齐度等)都在稳步提升。

第三阶段:LLM微调 - 将优化经验“内化”

第二阶段的迭代虽然效果好,但毕竟耗时。于是,研究者们设计了第三阶段:利用SSPO过程中收集到的大量“原始提示词-优化后提示词”配对数据,来微调第一阶段中负责重写提示词的那个LLM。

这相当于让LLM学习到了在各种情况下如何进行最优的提示词改写。经过微调后,这个LLM变得更“懂行”,即使在推理前只进行一次优化,也能生成非常高质量的提示词,大大提升了效率。

实验效果:全面超越,提升显著

RAPO++ 的效果究竟如何?研究者们在五个主流的文生视频模型和五个权威的基准测试集上进行了广泛的实验。

定量结果

结果显示,无论是在视频的整体质量、还是在对复杂构图(比如多个物体、空间关系)的理解上,RAPO++ 都取得了全面的领先。

例如,在VBench这个综合性基准上,RAPO++ 在几乎所有子项目(如时间闪烁、物体正确性、空间关系等)上都名列前茅。

定性结果

上面定性示例生动表明,相较于基线方法,RAPO与RAPO++能够生成视觉连贯性更强、语义忠实度更高的视频内容。物体在帧间保持外观与属性一致,运动轨迹平滑自然,组合交互(如多物体或相对空间转换)更准确地反映提示词意图。

更有趣的是,通过可视化注意力图,研究者发现,在提示词中加入描述物体相对空间位置的词语,可以显著改善多物体生成的准确性。

对于一些非常规的、富有想象力的场景,RAPO++ 同样表现出色。比如下面这个“一只身穿红色围裙、佩戴姓名牌的大熊猫在春节主题超市担任收银员”的例子,优化后的提示词生成的视频,显然更符合用户的奇思妙想。

当然,xx也注意到,作者坦诚地指出了当前方法的局限性,比如在处理与“数量”相关的指令时,仍然存在挑战。例如,指令“五只五彩鹦鹉”,模型可能无法准确生成五只。

总结

总的来说,RAPO++ 提供了一个与具体模型无关、成本效益高且可扩展的解决方案,为文生视频领域的提示词优化设立了新的标杆。它不仅能让AI更好地理解我们的意图,生成更惊艳的视频,其“对齐-迭代-内化”的优化思路,xx觉得也对其他AIGC领域的研究颇有启发。作者已经开源了代码,感兴趣的朋友可以去亲自体验一下。

....

#Diffusion Feedback Helps CLIP See Better

Diffusion反馈强势助力CLIP秒变火眼金睛:北京智源研究院、中科院自动化所联合推出DIVA

不需要额外的文本标注数据,只需可轻易获取的纯图片数据就能大幅使得CLIP弥补其视觉感知短板! 

本文分享论文​​Diffusion Feedback Helps CLIP See Better​​,专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。

作者:王文轩(中科院自动化所-智源研究院联培博一研究生),孙泉(智源研究院视觉模型研究中心算法研究员),张帆(智源研究院视觉模型研究中心算法研究员),唐业鹏(北交博一研究生),刘静(中科院自动化所研究员),王鑫龙(智源研究院视觉模型研究中心负责人)

单位:中科院自动化所,中国科学院大学,北京智源人工智能研究院,北京交通大学

论文链接:​​https://arxiv.org/abs/2407.20171​

项目主页:​​https://rubics-xuan.github.io/DIVA/​

相关代码链接:​​https://github.com/baaivision/DIVA​

动机何在?——CLIP视觉缺陷

图片

对比语言-图像预训练(CLIP)在跨领域和跨模态的开放世界表示方面表现出色,已成为各种视觉和多模态任务的基础。自从CLIP被提出以来,近年来涌现了许多关于CLIP模型的后续研究。这些研究通过预训练和微调CLIP模型,取得了性能提升并开发了新的能力。然而,这些方法仍然存在不可避免的局限性,因为它们高度依赖于图像-文本数据对,无法仅在图像数据上实现预期效果。

此外,最近的不少研究指出,尽管CLIP在零样本任务中表现出色,但由于对比学习范式和训练中使用的噪声图像-文本对,其在感知理解方面存在一些局限性。这些局限性包括难以准确理解长文本和难以辨别相似图像中的细微差异。虽然一些研究试图解决长文本理解问题,但改善CLIP的细粒度视觉感知能力的研究仍然不足。感知视觉细节的能力对于基础模型至关重要,而CLIP在这方面的不足直接影响了以CLIP作为视觉编码器的视觉和多模态模型的表现。

因此,在这项工作中,我们专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。 基于文本到图像的扩散模型能够生成具有丰富细节逼真图像的先验,我们探索了利用扩散模型的生成反馈来优化CLIP表征的潜力。

如何解决?——Diffusion Feedback来优化CLIP视觉细节表征

图片

我们提出了一种简单的CLIP模型后训练方法,通过自监督扩散过程在很大程度上克服了其视觉缺陷。通过使用CLIP的密集视觉特征对扩散模型进行条件化,并将重建损失应用于CLIP优化,我们将扩散模型作为CLIP的视觉助手,因此我们将该框架命名为DIVA。

具体而言,如图2所示,DIVA主要由两个部分组成:一是需要增强视觉感知能力的CLIP模型,二是提供生成反馈的预训练扩散模型。输入原始图像和空文本(图2中标记为"Null")后,CLIP模型会编码相应的视觉特征,这些特征将与来自扩散模型文本编码器的空文本嵌入结合,为扩散过程提供条件。对于添加了噪声的图像,扩散模型尝试在上述条件下预测从前一步到当前步骤中添加的噪声。在训练过程中,除了CLIP模型外,所有部分的权重都保持不变,训练目标只是最小化重建损失(即扩散反馈指导)。通过这种方式,通过约束扩散模型更准确地预测添加的噪声,CLIP的原始语义丰富的判别表示将通过扩散反馈逐渐优化为包含更多视觉细节的表示。

此外更有意思的是,DIVA不需要额外的文本标注数据,只需可轻易获取的纯图片数据就能大幅使得CLIP弥补其视觉感知短板,这一点相比之前方法收集大量图文数据对的高昂成本是非常难得的!

效果如何?——立竿见影!

为了评估DIVA的有效性并展示其增强CLIP表示的潜力,我们在多模态理解和视觉感知任务上进行了全面的实验。

图片

视觉细粒度感知方面

为了验证DIVA能够有效缓解CLIP模型固有的视觉能力不足,我们首先在各种现有的CLIP模型上进行了实验。DIVA在评估视觉-语言模型视觉能力的MMVP-VLM基准测试中使得现有的多个CLIP模型的性能取得了显著的提升(提高了3-7%)。

图片

作为更强的视觉骨干网络为多模态大模型和视觉模型带来的收益评估

接下来,在DIVA的帮助下,我们进一步评估了增强后的CLIP骨干网络在多模态理解和视觉感知任务中带来的性能提升。DIVA的优势在于它不仅仅能让CLIP变聪明,还能让那些基于CLIP的大型多模态语言模型以及视觉模型变得更加厉害。在这些多模态和纯视觉的基准测试上准确率的显著提升,得益于我们DIVA范式通过生成反馈大幅增强了CLIP的视觉感知能力。

图片

CLIP泛化能力评估

在全面验证了我们的方法提升CLIP模型细粒度视觉感知能力的效果后,我们进行了CLIP模型原始泛化能力的全面评估。在只由纯图片数据驱动整个框架的前提上,DIVA能够保持CLIP原本优秀的泛化性能。29个图片分类和图文检索的基准测试上无论是看图识物还是找图配字的实验结果都能证明,经过DIVA优化视觉表征之后的CLIP模型能够保留CLIP原本优秀的泛化能力。

图片

未来展望?——大有可为!当前局限

  1. 数据和模型规模可进一步扩展。
  2. 由于这篇工作只是该方向的一个开始,目前仅展示了生成扩散模型用于提升CLIP模型表示的潜力,当前主要关注设计一个简单但有效的框架。

未来可探讨的方向

  1. 可以结合更细粒度的监督方案进一步提升CLIP模型的能力。
  2. 扩展超越图像-文本数据的其他模态,如视频和音频。
  3. 发展基于扩散模型的更通用、更强大的框架,以增强视觉-语言基础模型。

....

#LayTextLLM

字节联合复旦重磅推出 LayTextLLM!交错融合布局信息,文档理解能力再创新 SOTA!

本篇分享论文​​LayTextLLM: A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding​​,字节联合复旦重磅推出 LayTextLLM!交错融合布局信息,文档理解能力再创新SOTA!​​​

  • 论文地址:https://arxiv.org/pdf/2407.01976
  • 代码链接:https://github.com/LayTextLLM/LayTextLLM

引言

在文档理解任务中,目前的主流方案普遍使用端到端的多模态大语言模型。但是,此类方法对图片的输入分辨率有很高的要求,因此需要较强的视觉基座。这也成为了多模态大语言模型(MLLM)在文档理解任务中的瓶颈。

文档理解作为text-rich的任务,实际发挥作用的信息大部分都来自于文字语义及其相对的布局信息。因此,利用成熟的OCR技术获得文字和布局(Layout)信息(即:文字坐标)并轻量级地扩展LLM,使其能够根据语义以及Layout信息来做预测。该方案也是解决文档理解的一条可行道路[1],即Layouts as “Lightweight Visual Information”。​

相关工作

LayoutLM[2]是较早期将位置信息融入语言模型的文档理解方法。该方法同时需要借助于OCR工具输出的文本及对应位置信息。但是,其作为Encoder-only的模型,只能完成KIE任务(使用序列标注),在其他任务的泛化能力一般,并且在Free-form形式的问答任务上表现较差。

近期,DocLLM[3]首次提出在LLM的基础上加入布局信息的文档理解方案,将正则化后的数值型坐标作为布局信息,并引入解耦的空间注意力机制,促进文本与布局模态之间的交叉对齐。

该方案经过有监督微调(SFT)能够在VQA任务上取得与OCR-free的MLLM相当的性能。此外,得益于融入的布局信息,该方案在KIE任务上提升明显,有效解决了生成式模型在KIE任务上的短板。

但是,该方案采用的MLM(Masked Language Model)训练方式使得预训练阶段未能与SFT阶段的任务较好的对齐,因此其SFT后的模型性能也仅能与MLLM的Zero-shot性能相当。

此外,一些工作[4,5]尝试直接将坐标表达为文本Token的形式,即Coordinate-as-Tokens。实验证明,这种表达形式对于KIE任务有明显的提升,但此类方法存在如下弊端:

  1. 需要语言模型对于数值token有较好的理解,该能力一般要求模型大小在30B以上。
  2. 使用Coordinate-as-Tokens会显著增加输入序列的长度,导致更昂贵的训练和推理的成本,同时也需要较大的语言模型以保证长距离建模能力。

方法(LayTextLLM)

针对上述问题,我们提出LayTextLLM方案(A Bounding Box is Worth 1 Token: Interleaving Layout and Text in a Large Language Model for Multimodal Document Understanding)​

模型设计

  1. 模型依然采用Interleave的方式输入文本和布局信息,该方法能最大程度的利用LLM自回归的特性
  2. 与此前工作均不同的是,我们使用Embedding的方式嵌入布局信息,而非文本token的形式。该方法有效的规避了Coordinate-as-Tokens的长序列以及需借助大参数量模型的缺点

图片

图1 LayTextLLM模型结构

具体的模型整体架构如上图。待处理的文档图像输入给OCR工具完成文本和对应坐标框(采用左上和右下的四维坐标)的识别。

其中,文本信息借助于语言模型的Tokenizer处理为对应的文本Token;对于坐标框,我们提出SLP(Spatial Layout Projector),其简单地使用一个Linear Projector将4维的正则化坐标映射成高维(即LLM embedding size)的坐标表示,而后和文字token作交错的拼接并送入语言模型。本文所提出的方法既能高效地表示坐标并减少Token数目,同时利用了语言模型自回归特性。

此外,在LLM部分的设计,我们参考了InternLM-Xcomposer2,使用P-LoRA的路由方式,新增参数量较少。​

训练方式

预训练(Layout-aware Next Token Prediction)

参考传统LLM的语言模型预训练,本文采用自回归方式预测整个输入的序列。不同于此前的预训练过程,提出的Layout-aware Next Token Prediction预训练方式当遇到需预测坐标占位符的Token时(下图中的"b"),不计算相应Token的损失。

在预训练阶段,LLM参数被冻结,仅优化Layout Projector和新增的P-LoRA参数。得益于所提出的Self-supervised的预训练方式,预训练数据非常容易获得。

图片

图2 LayTextLLM预训练方式比较

微调(Shuffled-OCR Supervised Fine-tuning)

现有LLM使用的主流位置编码Rotatory Embedding往往倾向于使得在序列上越接近的Token,越容易获得更大的Attention Score。

因此,在图3的例子中,如果提问"What is the value of the field Change?"(蓝色框),模型很容易识别出正确结果"1.30",因为它在序列中紧挨“Change”一词。

然而,对于一个更具挑战性的问题,如"What is the value of the field Total(RM)? "(红色框),由于"Total(RM)"后有多个紧跟输入的数字文本Token,模型很难确定正确的答案。

图片

图3 单据布局样例

为了使模型更多的依靠坐标框的布局信息而不是Rotatory Embedding提供的位置信息来预测, 在训练过程中,我们随机打乱了20%样本的OCR输入顺序。其他训练设置与传统LLM的SFT方式基本一致:给定Prompt,自回归预测问题的答案序列,且该阶段全部参数参与训练。​

实验结果​

实现细节

实验主要基于英文,预训练数据使用DocBank全部数据以及IIT-CDIP Test Collection 1.0随机采样的部分数据,合计约1.5M documents。Zero-shot实验中,数据来自LayoutLLM中提供的Document Dense Description (DDD) and Layout-aware SFT数据,该数据均为GPT4生成的合成数据。

SFT实验中,除DDD和Layout-aware SFT数据,我们还引入了下游测试数据对应的训练数据。下游测试数据包含VQA任务(DocVQA, InfoVQA, ChartQA, VisualMRC)和KIE任务(SROIE, CORD, FUNSD, POIE)。对于所有数据集,我们使用原数据集提供的word-level的OCR结果,以确保实验的公平性。​

比较OCR-free方案

如图4所示(* 代表对应数据集的训练数据被使用),对比OCR-free的MLLM方案,提出的方法在VQA和KIE的任务上均有大幅度提升。

其中,VQA任务上,提出的方法甚至可以超过SOTA MLLM使用SFT数据后的性能(+5.1%);KIE任务上,提出的LayTextLLM大幅超过SOTA MLLM模型的Zero-shot性能(+27%)。

此外,LayTextLLM经过SFT训练后,其性能大幅度提升, 相比于SOTA MLLM的SFT效果提升近24%。

图片

图4 与OCR-free方法的性能比较​

比较OCR-based方案

我们还比较了其他OCR-based的方案,例如:DocLLM。如图5所示,在VQA和KIE两个任务上, LayTextLLM的Zero-shot效果均与DocLLM SFT后的模型效果相当。

经过SFT后,LayTextLLM在两类数据集上性能均大幅度超过DocLLM。具体地,在KIE任务中,LayTextLLM 相较于DocLLM性能提升超过15%

图片

图5 与OCR-based方法的性能比较​

输入长度比较

可以看到LayTextLLM的输入长度基本小于或者持平DocLLM,远小于coor-as-tokens的方案。图7能看出,在输入长度最小的情况下,LayTextLLM取得更高的精度。

图片

图6 与OCR-based方法的输入长度比较。

图片

图7 各种方法输入长度against精度。​

解码回坐标

我们在内部的KIE数据集上测试了LayTextLLM,要求模型以文本格式输出值文本及其对应的边界框,例如 "Oct 10[66,1,70,15]"。我们发现,要求模型输出坐标提高了精确度,如图8所示。

我们任务要求输出坐标,强调了模型需要在输入中搜索对应信息,从而缓解了幻觉问题。此外,模型学会了组合和减去坐标。例如,如果输出文本来自两行OCR输入,模型会组合对应的OCR坐标。

相反,如果输出是输入OCR文本的子串,模型将相应地输出调整后的坐标。

图片

总结

文本提出 LayTextLLM 用于各类文档理解任务,例如Document-oriented VQA和KIE。在这些任务中,空间布局与文本数据均起至关重要的作用。

本文通过引入Spatial Layout Projector,使模型对布局信息的感知更加精确。此外,我们设计了两个定制的训练任务(Layout-aware Next Token Prediction和Shuffled-OCR Supervised Fine-tuning),旨在提高对文档布局的理解。

大量的实验结果也表明LayTextLLM 在文档理解任务中的有效性。

....

#新模型一夜刷新AI绘画格局

Stable Diffusion原班人马新公司官宣!新模型一夜刷新AI绘画格局,已获2.3亿元融资

刚刚,Stable Diffusion原班人马官宣创业新公司! 

3月宣布从Stability AI出走的Robin Rombach,就是Stable Diffusion的两个主要作者之一,和十来个原公司小伙伴,正式宣布了组团创业的消息。

新公司名叫Black Forest Lab,黑森林实验室。一亮相就kuku发了一个系列、共3款图片生成模型,其中有2个开源。

而且支持中文输入

效果怎么样?看过的网友称很狂野(wild)!

输入提示词,一次测试出了画面效果和人脸数据等安全措施:

一名十多岁戴着滑雪面罩的女孩在谷仓里做折纸手工。图片底部有指定的黄色文字。背景中有个相框,里面是奥巴马的照片。

单是看了这组图文对照,就有网友感慨,这是他看过最棒的图像生成效果。

要说这家公司的特色,就是主打一个不遮遮掩掩。

今天官宣成立,今天发布系列模型,还宣布了融资进度——

已经完成3200万美元融资,由a16z领投, Oculus VR联创Brendan Iribe、YC前合伙人Garry Tan、NVIDIA Research领导计算机图形研究小组的Timo Aila、苹果杰出科学家(英特尔智能系统前首席科学家)Vladlen Koltun等人投资。

可以说,黑森林既得到了资本市场的押注,也得到了业界大佬们的青睐。

AI大牛卡帕西也在线发来贺电,还顺道称赞了一下黑森林的新模型:

歪瑞古德!开源的FLUX.1 image gen模型看起来非常强大。

而且注意了,开源协议是宽松的Apache2.0。

黑森林图像生成模型首秀

卡帕西都觉得exciting了,让咱来视觉感受下黑森林的模型效果。

这里,量子位挑选了五种类型的生成效果展示,图片均由官方提供,未标明具体使用了旗下哪款模型。

第一关,文字生成。

提示词:旧教室黑板的照片。黑板上用粉笔写着“let’s make some really pretty stuff together”,词后有一个红色的粉笔心。阳光从窗户照进来。

第二关,非真实场景+文字生成。

提示词:水下场景中,两只猫头鹰坐在一张精美的餐桌旁,餐桌中央点燃了蜡烛,两只猫头鹰正在一起享用一顿美味的晚餐。左边的猫头鹰穿着燕尾服,右边的猫头鹰穿着漂亮的裙子。背景中有一艘潜艇驶过,其侧面画有“What a Hoot”字样。桌子下面的图像底部有小水母在游动,电影般美丽的数字艺术品。

第三关,现实世界真实场景。

提示词:弗莱堡一条美丽街道的照片,一辆有轨电车经过,人们有的散步有的骑自行车。

第四关,真实人物和动漫人物生成。

提示词:三位女士在市中心街道上拍摄的照片,她们把手伸向镜头。

提示词:美丽的动漫艺术品,一个可爱的猫娘,看起来很沮丧,手里拿着一张纸,上面画着微笑,她快要哭了。

第五关,动物形象生成。

提示词:森林里的一只山猫,由专业摄影在强光下拍摄。

提示词:近距离渲染一个神话生物,由详细的螺旋分形和卷须组成,详细的递归皮肤纹理

FLUX.1系列模型

此次,黑森林共发了FLUX.1系列的3个模型:pro、dev、schnell。

FLUX.1 [pro]:系列最强音。

FLUX.1系列的精华,提供最优性能的图像生成,具有一流的指令遵循、视觉质量、图像细节和输出多样性。

黑森林团队正缓步提升API中FLUX.1 [pro]的推理计算能力。

此版本可以通过Replicate和fal.ai访问;提供专用和定制的企业解决方案。

FLUX.1 [dev]:系列中杯。

一个允许非商业途径使用的模型,开放权重、经过蒸馏。

[dev] 直接从[pro] 中蒸馏而来,具有相似的质量和迅速的遵守能力,同时比相同尺寸的标准模型更高效。

可在抱抱脸上试玩,或直接在Replicate或fal.ai上试用。

FLUX.1 [schnell]:速度小旋风。

系列最快模型,为本地开发和个人开发者量身制作。

FLUX.1 [schnell] 在Apache2.0许可证下公开可用,模型权重可以前往抱抱脸查询,推理代码可以在GitHub上找到。

已经获得了ComfyUI的支持,可以直接使用;也可以通过Replicate或fal.ai使用。

来个直观感受!

这里放三张照片,是以上大杯、中杯、小杯在不同提示词下,围绕“蛋糕”这个主题的生成效果。

△从左至右,使用模型依次为大、中、小杯

量子位多次测试后发现,输入简单提示词的话,用pro版本生成一张图片的用时在15s-25s之间(成果图下方会显示生成用时)。

黑森林称,所有FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构,并扩展到12B参数

3款模型中,FLUX.1 [pro] 和 [dev] 在视觉质量、提示响应度、尺寸/长宽高比列灵活性、排版和输出多样性这些方面,超过了Midjourney v6.0、DALL·E 3 (HD) 和 Stable Diffusion 3-Ultra。

而FLUX.1 [schnell] ,被团队称为“迄今为止最先进的少步骤模型(few-step model)”。

它不仅在同类竞争对手中脱颖而出,还超越了更强大的非压缩模型,如Midjourney v6.0和DALL·E 3 (HD)。

整个FLUX.1系列都经过了专门的微调,以求保留预训练阶段的全部输出多样性。

与已有的技术相比,FLUX.1还有以下优势:

有人免不了要问了,你们是Stability AI的OG元老,是核心成员。

So,你们这新模型,跟人家旗下的Stable Diffusion有啥区别?

创始团队成员在Reddit上进行了回应:

即使是我们的最弱型号schnell,生成质量也更好,生成速度也更快。

主打一个我成立新公司超越我自己

SD主要作者组团打造

介绍完模型相关资料,是时候正式来认识一下这家新公司了。

黑森林实验室,今天刚刚宣布成立。

公司官网上,赫然写着一句口号:A new era of creation。

公司使命推进最先进、高质量的图像和视频生成深度学习模型,并将其提供给最广泛的受众。

华点出现了!他们的下一步野心很明显,就是还要进军视频生成领域。

还放话,得是“SOTA”。

核心成员Robin Rombach,Stability AI前研究科学家。

在Stability AI工作期间,他是Stable Diffusion模型的主要开发者之一,也参与研究了SDXL、SVD等项目。

今年3月,Robin从Stability AI跑路。

外界评价他的离开让原本就乱成一锅粥的这家独角兽伤筋动骨——毕竟他是SD的两位主力之一。

往前回顾,Robin在海德堡大学拿下物理学的本科和硕士学位。

2020年,他在海德堡计算机视觉小组在Björn Ommer的指导下开始攻读计算机科学博士学位,并于2021年随研究小组移至慕尼黑大学。

研究重点关于生成深度学习模型,特别是文本到图像系统。

谷歌学术被引数接近1.5万。

此外,官网公开的成员中,Andreas Blattmann、Axel Sauer、Dominik Lorenz、Dustin Podel、Frederic Boesel、Patrick Esser、Sumith Kulal、Tim Dockhorn、Yam Levi、Zion English都是可公开查询到的Stability AI原成员

(Andi Holmes和Jonas Müller两人暂未查询到准确资料)

可以说,黑森林就是SD的原班核心成员们出走再启航了。

难怪Axel Sauer转发了官推,大声呐喊:

我们还活着!

One More Thing

好巧不巧,同一天,Stability AI也有新动作:

推出新的AI模型Stable Fast 3D,官方称它可以在半秒内生成3D图像

此前的模型需要数分钟才能生成类似效果的3D图像,新模型完成相同任务的速度是现有的1200倍。

那Stability AI在3月跑路的CEO,Emad Mostaque,他在干嘛呢

六月份,他官宣了自己的去向,新公司Schelling AI,“将构建和支持由AI资金支持的开源代码、模型和数据集”。

重点精力放在创新研究和精心构建具有文化意识、科学、教育和创意的AI。

三天前,Schelling AI发布了系列文章第一篇,《How To Think About AI》。

文章有点长,感兴趣的朋友们可以搜索自行查看,这里就提一下核心思想——

AI发展很快,提倡开源开放,加速创新协作。

以及,要不说大家都是体面人呢!

黑森林实验室宣布成立的推文,人家前CEO还是友情转发了的(此处放一个狗头)。

参考链接:
[1]​​https://blackforestlabs.ai​​[2]​​https://news.ycombinator.com/item?id=41130620​​[3]​​https://x.com/EMostaque​​[4]​​https://www.reddit.com/r/StableDiffusion/comments/1eds0l9/does_anyone_have_an_update_on_when_stable/​​[5]​​https://x.com/SchellingAI/status/1818600200232927721​​​

....

#DreamDissector

首次解决文本到3D NeRFs分解问题!港中文等提出DreamDissector

本文引入了一个名为DreamDissector的新颖框架,包括一种新颖的神经类别场(NeCF)表示,可以将输入的NeRF分解成独立的子NeRF,一个深度概念挖掘(DCM)技术,通过个性化扩散模型促进子NeRF和概念之间的对齐,以及一个类别分数蒸馏采样(CSDS)损失,利用DCM增强NeCF的学习。 

论文链接:​​https://arxiv.org/abs/2407.16260​

亮点直击

  • 第一个解决文本到3D NeRFs分解问题的团队。
  • 为了解决这个问题,本文引入了一个名为DreamDissector的新颖框架,包括一种新颖的神经类别场(NeCF)表示,可以将输入的NeRF分解成独立的子NeRF,一个深度概念挖掘(DCM)技术,通过个性化扩散模型促进子NeRF和概念之间的对齐,以及一个类别分数蒸馏采样(CSDS)损失,利用DCM增强NeCF的学习。
  • 实验结果展示了DreamDissector的有效性,额外的可控编辑应用展示了其在真实场景中的实用性。

最近,文本到3D生成领域取得了显著进展。为了增强其在实际应用中的实用性,关键是生成具有交互作用的多个独立对象,类似于2D图像编辑中的图层合成。然而,现有的文本到3D方法在这一任务上存在困难,因为它们设计用于生成非独立对象或缺乏空间合理交互的独立对象。

针对这一问题,本文提出了DreamDissector,一种能够生成具有交互作用的多个独立对象的文本到3D方法。DreamDissector接受多对象文本到3D NeRF作为输入,并生成独立的纹理网格。为实现这一目标,本文引入了神经类别场(NeCF)来分解输入的NeRF。此外,本文提出了类别分数蒸馏采样(CSDS),由深度概念挖掘(DCM)模块促进,以解决扩散模型中的概念差距问题。通过利用NeCF和CSDS,本文能够有效地从原始场景中导出子NeRF。进一步的优化增强了几何和纹理。本文的实验结果验证了DreamDissector的有效性,为用户提供了控制3D合成在对象级别的新手段,并可能为未来各种创意应用打开了途径。

图片

定性结果展示

图片

图片

图片

图片

方法

概览

DreamDissector从文本转3D神经辐射场(NeRF)开始。其目标是将生成的3D NeRF分解为根据NeRF包含的物体类别分开的独立3D资产。为实现这一目标,本文引入了一种称为神经类别场(NeCF)的3D表示。

这旨在将目标NeRF分解为多个子NeRF,同时保持每个物体的原始外观。NeCF受本文新引入的类别分数蒸馏采样(CSDS)监督,这是一种涉及一系列针对子NeRF的特定类别文本提示的分数蒸馏采样(SDS)的方法。随后,这些子NeRF被转换为DMTets进行最终的几何和纹理细化。由于DMTets可以轻松转换为表面网格,DreamDissector最终为每个物体生成独立的表面网格,保留了动作和互动,从而方便人类艺术家进行编辑。本文的DreamDissector框架概述如下图2所示。

图片

神经类别场

为了在目标NeRF中渲染每个分类对象,一个直接的解决方案是为每个对象引入一个子NeRF,例如,一个密度场和一个颜色场。随后,可以使用其密度和颜色场来渲染每个对象。然后,整个NeRF可以通过根据体积渲染的原则组合这些密度和颜色场来渲染:

图片

其中,表示类别的数量。然而,这种方法需要为密度和颜色场训练额外的网络,并需要一个约束损失来保持整个NeRF的外观一致性。

为此,本文提出了一种用概率分布(即类别场)对密度场进行分解以渲染每个类别对象的替代公式。具体来说,上述密度组合可以重新表述如下:

图片

在处理密度时, 可以添加一个小的数值以避免除以零的情况。因此,  可以被视为一个概率单纯形, 因为它们相加为一, 且元素为非负数。受此启发, 我们利用具有 softmax 函数的 MLP 直接建模概率单纯形  。设  表示第 i 个点在 3D 空间中属于第 k 个类别的概率:

图片

将  表示为温度, 它控制概率分布的尖锐度,  是类别场网络的输出。通过类别场, 第  个类别对象的颜色可以如下渲染:

图片

可以观察到,每个点的密度σ被类别场pk缩放。换句话说,本文可以将σ解释为第k个类别对象的子NeRF的密度,例如,和σσ。此外,颜色场可以在训练过程中被重复使用并冻结,简化训练过程。

值得注意的是,NeCF的设计具有以下优点:

  • 本文只需要训练一个额外的类别场网络,这比训练额外的密度和颜色场网络更有效率。
  • 由于原始的密度和颜色场网络在训练过程中被冻结,子NeRF的重新组合完全等同于原始的NeRF,保持其原始外观。

类别 分数 蒸馏 抽样

一个朴素的方法。 为了训练NeCF,一个朴素的方法是使用多个SDS损失来监督每个类别的类别字段。具体地,对于第k个类别的对象,其SDS损失的梯度可以被表达为:

图片

这里,表示第k个类别的文本embedding。例如,给定由提示生成的NeRF:“一个[v1]坐在一个[v2]上。”,用于类别对象的文本提示将是“一个[v1]”和“一个[v2]”。这可以很容易地由人类用户或现代LLM完成。需要注意的是,本文在训练NeCF时不需要为整个文本提示使用SDS,除了类别字段网络之外,所有网络都被冻结。

概念差异在扩散模型中。 尽管这种朴素的方法可以处理一些简单的情况,但它无法将具有概念差距的场景从文本描述中分离出来。概念差距指的是完整文本提示生成的对象与类别文本提示生成的对象在2D扩散模型的潜在空间中占据不同区域的差异。

例如,文本提示“一只黑猩猩透过望远镜看。”会生成一个场景,描述一只黑猩猩使用手持望远镜,如下图3左侧(a)所示。相比之下,类别文本提示“一个望远镜”更有可能生成一个三脚架安装的望远镜,因为三脚架安装的望远镜位于提示“一个望远镜”的主导特征空间中,而手持望远镜则位于边缘特征空间中。因此,学习到的NeCF会生成一个带有三脚架的望远镜,三脚架被隐藏在黑猩猩的身体内,如下图3左侧(c)所示。

图片

深度概念挖掘。为了解决这个问题,本文提出挖掘文本提示中的概念,并将其与NeRF中描绘的概念进行对齐,以进行分解,如上图3所示。为此,本文个性化了一个T2I扩散模型,将由NeRF渲染的给定视图去噪,生成描绘一个(或多个)独立对象的图像,在一个(或多个)特定概念的条件下。具体来说,本文首先创建一组包含一个或多个概念的提示。对于每个概念或概念组合,本文通过基于文本的开放词汇分割模型(例如Grounded-SAM)为NeRF渲染视图生成相应的分割蒙版。然后,本文利用提示-蒙版对来优化文本embedding和扩散主干,使用带有蒙版注意力的概念挖掘损失:

图片

在这里,  表示第  个类别的mask。DCM模块在优化后被冻结,以提供更好的独立文本概念与子NeRF之间的对齐,以便更好地使用CSDS损失进行NeCF训练。冻结的DCM还用于训练DMTet精化模块,如上图2所示。

最终精化。 在训练完NeCF后,本文使用等值面提取技术将子NeRF转换为DMTets,并利用文本embedding和来自DCM的模型对这些DMTets进行微调。其原理是进一步精化可以修复分解产生的伪影,而且DMTets可以轻松转换为表面网格。然而,DCM倾向于在原始NeRF中过度拟合挖掘的概念,导致颜色过饱和和不真实。为了解决这个问题,本文采用原始的稳定扩散方法通过额外步骤对DMTets的颜色进行微调,增强其真实感。最后,DMTets被转换为有纹理的网格。

整体 Pipeline

因此,整个流程包括以下步骤:

  • 从渲染视图中为提示中的每个类别生成mash,并用它们来优化DCM模块。
  • 冻结DCM,并使用CSDS损失训练NeCF网络,将一个NeRF分解为独立对象的子NeRF。
  • 将子NeRF转换为DMTets,并利用优化后的DCM模块对它们进行微调,然后使用原始稳定扩散微调DMTets的颜色以生成最终输出。

实验结果

主要结果。 定性结果显示在下图4中。对于每种情况,每个对象的两个视图被采样,并且相应的文本提示在补充文件中提供。可以观察到DreamDissector能够有效地解开具有各种复杂交互的输入场景,比如骑行等。值得注意的是,DreamDissector能够处理具有大型和复杂接触表面的情况,如“章鱼弹钢琴”案例中所示,章鱼的触手与钢琴分离开来。此外,最终的网格比输入NeRF中的网格展现出更加真实和高质量的纹理。这种改进归因于最终的精细化处理,进一步展示了DreamDissector的实用性。

图片

比较。 本文将DreamDissector与两个基线方法进行比较:负面提示和一个组合基线。负面提示涉及将整个文本提示作为正面提示,并将独占对象作为负面提示。例如,在提示“一个[v1]坐在[v2]上”中,两个对象的正面提示都是整个提示,而对象[v1]的负面提示是“[v2]”,反之亦然。由于最相关的作品CompoNeRF和Comp3D不是开源的,本文实现了一个具有类似思想的组合基线:分别训练对象,然后通过进一步的微调进行组合。本文在定性和定量上将本文的方法与这些基线进行比较。如下图5所示,DreamDissector明显优于基线方法。此外,本文使用CLIP分数指标评估DreamDissector和基线方法,该指标衡量文本和图像embedding之间的余弦相似性。本文对独立对象和组合对象进行这种评估,并计算平均分数。正如下表1所示,本文的方法明显优于基线方法。

图片

图片

分析

用于分解的DCM. 

与完全无监督的基础CSDS不同,本文的DCM方法和SA3D都需要一个输入mask来进行单视图处理。正如下图6所示,基础CSDS在处理存在显著概念差异的场景(例如“一只蓝色毒箭蛙坐在一片睡莲上”)时很难分解NeRF,其中原始场景主要描绘了睡莲叶。而SA3D虽然成功分解涉及概念差异的场景(如青蛙),但在涉及大量遮挡的更复杂情况下表现不佳,比如比格犬和章鱼等情况。相比之下,DCM展现出卓越的性能,成功分解涉及概念差异和显著遮挡的场景。

图片

DCM用于细化。 DCM不仅用于NeRF的分解,还用于细化DMTets。本文对DCM在这种细化过程中的有效性进行了分析。结果如下图7所示。从(a)可以看出,在分解后仍然存在伪影。由于原始NeRF的不可见接触表面,在分解后出现了“黑洞”。然而,使用原始稳定扩散进行DMTet细化并不能解决这个问题,如(d)所示。这是因为提示“一叠煎饼”通常会生成在煎饼上放水果的图像,因为这些水果在stable diffusion的高密度区域中很常见,如(b)所示。因此,经过微调的DMTet会在黑洞伪影区域产生水果。相比之下,DCM的稳定扩散与输入的煎饼紧密匹配,如第一行所示,在DMTet细化过程中有效修复了伪影,如(e)所示。这进一步展示了DCM的优越性。

图片

对DCM进行消融研究。 本文对DCM的每个组成部分进行了消融研究,包括两阶段训练和mask注意力损失。具体来说,本文使用经过微调的模型从文本提示“一只小兔子坐在一堆煎饼上”中挖掘出“小兔子”概念的图像样本。理想情况下,采样的图像不应包含任何类似于煎饼的概念。如下图8所示,DCM成功提取了“小兔子”概念,而其他训练策略未能将该概念与其他类似于其坐在上面的煎饼的物品分离开。这证明了DCM挖掘独立概念的能力。

图片

Applications

可控纹理编辑。 尽管基于文本引导的纹理生成取得了显著进展,但为具有多个物体的复杂场景生成纹理仍然具有挑战性。本文在三种不同情况下评估了TEXTure,如下图9所示。对于基准情况,本文将多物体网格视为单个实体并应用TEXTure。对于本文的方法,本文将TEXTure分别应用于每个物体的网格,然后将它们组合起来。本文观察到,基准方法生成的纹理与输入提示不匹配,并且质量较低。值得注意的是,独立物体的纹理受到场景中其他物体的影响,例如,老鼠的一部分呈现出红色。相比之下,DreamDissector显著提升了TEXTure的性能,生成视觉上吸引人且准确的纹理。

图片

可控对象替换。 除了可控纹理编辑外,DreamDissector还具有替换单个对象而不影响场景中其他对象的能力。为了实现这一点,目标DMTet在保持其他DMTets固定的同时进行微调。然而,使用基于SDS的监督将DMTet变形为完全不同拓扑结构的对象具有挑战性。受[7]启发,本文最初将DMTet的法线馈送到stable diffusion中进行多个步骤,有效地变形了DMTet。本文还经验性地观察到,仅微调目标DMTet会引起严重的网格相互穿透。为了解决这个问题,本文引入了一个相互穿透损失,

图片

当中  代表目标 DMTet 的第 i 个顶点时,  和  分别是 在其他 DMTets 中最近邻顶点的顶点和顶点法线,ϵ 是用于避免相互穿透的小容差超参数。如下图 10 所示的结果表明,DreamDissector 能够实现可控的概念替换。

图片

用户进行几何编辑。 为了进一步验证 DreamDissector 如何促进用户工作流程,本文允许用户单独编辑对象。正如下图 11 所示,通过简单的操作,如缩放、平移和拖动,可以轻松修改对象,从而突显了 DreamDissector 在提高实际应用中人类编辑能力方面的有效性。

图片

结论

DreamDissector,这是一个新颖的框架,旨在生成由文本引导的多个独立交互对象。DreamDissector 接受多对象文本到 3D 神经辐射场(Neural Radiance Field,NeRF)作为输入,并生成多个带纹理的网格。本文引入了神经类别场(Neural Category Field,NeCF),这是一种能够将输入的 NeRF 分解为多个子 NeRF 的表示。为了训练 NeCF,本文提出了类别分数蒸馏采样(Category Score Distillation Sampling,CSDS)损失。此外,本文观察到了 2D 扩散模型中的概念差异问题,这可能会降低分解性能。为了解决这个问题,本文引入了深度概念挖掘(Deep Concept Mining,DCM)来微调文本embedding和 2D 扩散模型,有效地导出子 NeRF。此外,本文提出了一个两阶段的细化过程,进一步改进几何和纹理,从而增强现实感。实验结果和进一步应用展示了 DreamDissector 在现实场景中的有效性和实用性。

图片

....

#基于EasyOCR实现条码字符识别

   EasyOCR是一个Python 软件包,用于从照片或扫描文档等图像中检测和提取文本。它带有预先训练的模型,旨在快速高效地进行文本识别,并支持 80 多种语言。

    在本文中,我们将探讨如何使用 EasyOCR 包从图像中检测和提取文本。让我们开始吧!

EasyOCR 如何工作

    EasyOCR 内部的文本识别过程主要包括三个步骤:特征提取、序列标记和解码。

    ResNet和VGG(视觉几何组)等 eep 学习模型从图像中提取关键特征,LSTM(长短期记忆)网络处理序列上下文,CTC(联结时间分类)算法将这些标记序列转换为可读文本。

如何使用 EasyOCR 从图像中提取文本

    现在我们已经了解了什么是 EasyOCR 以及它的一些用例,接下来,我们将探索一个编码示例,展示如何使用 EasyOCR 从图像中提取文本。

    步骤#1:安装

    首先,安装所有必需的库。我们将使用“pip”包安装程序安装 PyTorch 库(核心依赖项)和 EasyOCR 库。打开命令提示符或终端并运行以下命令开始安装。

pip install torch torchvision torchaudio easyocr

    步骤2:初始化阅读器

    安装依赖项后,我们可以导入 EasyOCR 包并初始化其“阅读器”功能。我们还可以选择要检测和提取的语言。有超过 80 种语言可供选择。在这个例子中,我们选择英语为“en”。 

import easyocr
reader = easyocr.Reader(['en'])

    在“reader”函数中,我们还可以管理系统规格设置,例如启用或禁用 GPU 或选择自定义目录来存储 EasyOCR 模型。对于 EasyOCR 库,建议使用 GPU 来加快处理速度,但也可以禁用它以在 CPU 上工作。要禁用 GPU 设置(默认情况下设置为“True”):

reader = easyocr.Reader(['en'],gpu=False)

    选择自定义目录来存储模型:

reader = easyocr.Reader(['en'],model_storage_directory='path/to/directory'
)

    步骤3:在图像上运行EasyOCR

    一旦初始化了阅读器函数,模型就会自动下载(如果选择,则下载到自定义目录)。接下来,我们可以初始化“readtext”函数并将输入图像的路径传递给它。 

    在此示例中,我们将使用包含产品序列号和零件号的图像作为输入。您也可以使用同一图像或任何其他相关图像。

    当我们打印出结果时,它将包括图像内检测到的文本的边界框坐标、检测到的文本和置信度分数。 

    以下是我们输入图像返回的输出:

[([[28, 22], [353, 22], [353, 72], [28, 72]], 'SERIAL NUMBER', 0.8874381662616708), ([[35, 75], [397, 75], [397, 137], [35, 137]], 'AOC1715821', 0.8521895819573561), ([[39, 255], [315, 255], [315, 299], [39, 299]], 'PART NUMBER', 0.9971079202290591), ([[42, 298], [370, 298], [370, 354], [42, 354]], '9-00864-01', 0.8142346378327698)]

    首先显示边界框坐标,然后是提取的文本,最后是置信度分数。但理想情况下,我们不需要所有这些数据;我们只需要提取的文本。EasyOCR 允许轻松自定义输出选项。接下来,我们将重点介绍自定义和可视化输出。

    步骤#4:配置输出格式

    EasyOCR 库提供了许多不同的输出自定义选项。我们可以通过在“readtext”函数中将“detail”参数设置为零来避免检索边界框坐标和置信度分数,如下所示。

import easyocr
reader = easyocr.Reader(['en'])
result = reader.readtext('/path/of/image',detail=0) 
print(result)

    对于我们的输入图像,这将是打印的结果。如您所见,我们仅过滤掉了检测到的文本。 

['SERIAL NUMBER', 'AOC1715821', 'PART NUMBER', '9-00864-01']

    我们还可以通过设置“paragraph”为true来将文本分组,如下所示。 

result = reader.readtext('/path/of/image',detail=0, paragraph=True) 
print(result)

    这将是我们输入图像的打印结果。提取的文本现在被分组在一起。

['SERIAL NUMBER AOC1715821', 'PART NUMBER 9-00864-01']

    以下是逐行打印结果的代码片段示例:

import easyocr
reader = easyocr.Reader(['en'])
result = reader.readtext('/path/of/image')
for res in result:
  coord=res[0]
  text=res[1]
  cnotallow=res[2]
  print(text)

    这就是我们输入图像的打印结果。提取的文本按照文档中出现的顺序逐行打印出来。

SERIAL NUMBER
AOC1715821
PART NUMBER
9-00864-01

    如果不是打印变量“text”,而是打印变量“coord”和“conf”,我们将获得带有边界框坐标和置信度分数的类似输出。

    步骤#5:可视化结果

    我们还可以可视化 EasyOCR 模块的预测结果,将其叠加在输入图像之上。使用Supervision Python 包可以轻松完成此操作。Supervision 提供了一系列可重复使用的计算机视觉工具,可用于注释各种计算机视觉模型生成的预测结果等任务。

    为了使用该库,我们需要安装 Supervision Python 包,如下所示:

pip install supervision

    安装模块后,此代码使用 EasyOCR 检测图像中的文本并使用边界框和标签对其进行注释。它会初始化英语版 EasyOCR 阅读器,处理图像以提取文本、边界框坐标和置信度分数,并将数据存储在列表中。

    然后使用 Supervision 的注释器在图像上叠加边界框和文本。最后,注释后的图像会显示并保存为“Output.jpg”,从而为 OCR 和视觉注释提供完整的工作流程。

import easyocr
import supervision as sv
import cv2
import numpy as np
from google.colab.patches import cv2_imshow


# Image path
Image_path = '/path/to/image'


# Initialize EasyOCR reader (English language, CPU)
reader = easyocr.Reader(['en'], gpu=False, model_storage_directory='/path/to/directory')


# Perform text detection on the image
result = reader.readtext(Image_path)


# Load image using OpenCV
image = cv2.imread(Image_path)


# Prepare lists for bounding boxes, confidences, class IDs, and labels
xyxy, confidences, class_ids, label = [], [], [], []


# Extract data from OCR result
for detection in result:
    bbox, text, confidence = detection[0], detection[1], detection[2]


    # Convert bounding box format
    x_min = int(min([point[0] for point in bbox]))
    y_min = int(min([point[1] for point in bbox]))
    x_max = int(max([point[0] for point in bbox]))
    y_max = int(max([point[1] for point in bbox]))


    # Append data to lists
    xyxy.append([x_min, y_min, x_max, y_max])
    label.append(text)
    confidences.append(confidence)
    class_ids.append(0)  


# Convert to NumPy arrays
detections = sv.Detections(
    xyxy=np.array(xyxy),
    cnotallow=np.array(confidences),
    class_id=np.array(class_ids)
)


# Annotate image with bounding boxes and labels
box_annotator = sv.BoxAnnotator()
label_annotator = sv.LabelAnnotator()


annotated_image = box_annotator.annotate(scene=image, detectinotallow=detections)
annotated_image = label_annotator.annotate(scene=annotated_image, detectinotallow=detections, labels=label)


# Display and save the annotated image
sv.plot_image(image=annotated_image)
cv2.imwrite("Output.jpg", annotated_image)

    输出图像如下所示:

    以下是使用不同输入图像获得的另一个示例输出图像:

OCR 挑战和注意事项

    使用 EasyOCR 等 OCR 工具检测和提取图像中的文本并不总是那么容易。为了获得最佳结果,必须考虑几个关键因素。图像的质量至关重要,它需要清晰、光线充足且分辨率高。高质量的图像有助于 OCR 模型准确检测和识别字符,而质量差的图像则会导致误解。 

    可以使用锐化、降噪、对比度调整和图像规范化等图像预处理技术来增强图像质量。EasyOCR 的另一个需要考虑的因素是语言选择。该库支持 80 多种语言。正确指定输入图像中使用的语言至关重要。

    您还可以考虑使用批处理和微调来提高效率。批处理允许您一次处理多个图像,在处理大量文档时节省时间和资源。EasyOCR 的微调选项可用于根据您的特定需求自定义引擎的工作方式。调整设置还可以针对您正在处理的内容类型优化模型,从而提高准确性和性能。

....

#QuadMamba

新的Mamba架构又双叒来了!上交大 & 华为提出QuadMamba :多个视觉任务SOTA!

该研究通过分析Transformer模型中的反向传播矩阵,提出了一种新的方法来理解语言模型(LM)如何学习和记忆信息。论文提出了将梯度矩阵映射到词汇空间的技术,揭示了LM在学习新知识时的内在机制,并探讨了梯度的低秩性以及“印记与偏移”的知识存储与模型编辑机制。

近年来,状态空间模型(State Space Models)中的Mamba取得了显著的进展,在性能上超过了主导的Transformer模型,尤其是在降低计算复杂度方面,从二次降到了一次。然而,由于视觉数据的独特特性,如图像中的空间局部性和邻接关系以及视觉 Token 的信息粒度变化很大,Mamba从语言任务转换到视觉任务时存在困难。现有的视觉Mamba方法要么将 Token 扁平化为在光栅扫描方式下的序列,这破坏了图像的局部邻接关系,要么手动将 Token 分区到窗口,这限制了它们的远程建模和泛化能力。

为了解决这些限制,作者提出了一种新的视觉Mamba模型,称为QuadMamba,它通过基于四叉树(quadtree)的图像分区和扫描有效地捕获了不同粒度局部依赖性。

具体来说,作者的轻量级四叉树扫描模块学习到在学习的窗口四角内保持空间区域2D局部性。模块根据每个 Token 的特征估计局部性分数,然后适当地将 Token 分区到窗口四角。作者还引入了一种全方位窗口平移方案,以捕获不同局部区域之间的更多完整和有用的特征。为了使离散化的四叉树分区端到端可训练,作者进一步设计了一种基于Gumbel-Softmax及其直接导数序列 Mask 策略。大量实验表明,QuadMamba在各种视觉任务中实现了最先进的性能,包括图像分类、目标检测、实例分割和语义分割。

代码已在https://github.com/VISION-SJTU/QuadMamba。

1 Introduction

结构化状态空间模型(SSMs)的架构在近年来得到了显著的普及。SSMs为序列建模提供了一种灵活的方法,在计算效率和模型灵活性之间实现了平衡。受到Mamba在语言任务中成功的影响,越来越多地使用SSMs进行各种视觉任务。这些应用范围从设计通用的 Backbone 模型 到推进图像分割 和合成(如[17])等领域。这些进步突显了Mamba在视觉领域的适应性和潜力。

尽管在长序列建模方面,SSMs具有令人满意的线性复杂度,但直接将SSMs应用于视觉任务只能带来微小的改进,这相对于常见的CNN和视觉Transformer模型。在本文中,作者试图扩大Mamba模型在计算机视觉领域的适用性。作者观察到语言和视觉领域之间的差异可能会在将Mamba应用于后者时带来巨大的障碍。

这些挑战源于图像数据的两个自然特性:

1)图像数据具有严格的2D空间依赖性,这意味着将图像块平铺成序列可能会破坏高级理解。

2)自然视觉信号具有严重的空间冗余性--例如,无关的图像块不会影响物体的表示。为了解决这两个问题,作者开发了一种专用的扫描方法,为视觉Mamba构建1D Token 序列。通常,视觉Mamba模型需要将2D图像转换为1D序列进行处理。

如图1(a)所示,直接将空间数据平铺成1D Token 会破坏自然局部2D依赖关系。LocalMamba通过将图像分割成多个窗口来提高局部表示,如图1(b)所示。每个窗口在单独扫描后,在窗口之间进行遍历,确保相同2D语义区域内的 Token 被紧密地处理在一起。然而,手工制作的窗口分割缺乏处理不同物体尺度的灵活性,并且无法忽略信息较少的区域。

图片

在本研究中,作者提出了一种名为QuadMamba的新的Mamba架构,该架构通过关注更多具有信息性的区域来提高局部表示,从而实现局部感知序列建模的改进。如图1(c)所示,QuadMamba的核心在于可学习的窗口划分,该划分能够自适应地以粗粒度到细粒度的方式建模局部依赖关系。作者提出在视觉Mamba模型中的多个轻量级预测模块,用于评估每个空间 Token 的局部邻接关系。得分最高的四分之一区域进一步以递归的方式分割为子四分之一区域进行细粒度扫描,而其他区域(可能包含信息性较弱的 Token )保持粗粒度。这一过程导致了从二维图像特征中分得的不同粒度的窗口四分之一区域。

值得注意的是,直接从基于索引的二维窗口图像特征中进行采样是非可微分的,这使得学习窗口选择变得不可行。为了解决这个问题,作者采用了Gumbel-Softmax,从分区间得分映射中生成一个序列 Mask 。然后,作者使用全可微分运算符(即Hadamard乘法和逐元素求和),从序列 Mask 和局部窗口构造一维 Token 序列。这导致了端到端可训练的流水线,计算开销可以忽略不计。对于跨越两个相邻四分之一窗口的有用 Token ,作者在连续块中应用了全方位位移方案。在两个方向上移动二维图像特征允许四分之一窗口分区间在任意位置出现的目标建模更加灵活。​

1 相关工作

Generic Vision Backbones

卷积神经网络(CNNs)[10; 30; 31]和视觉 Transformer (ViT)[7]是计算机视觉领域两种主导的后备网络。它们在广泛的计算机视觉任务中,包括但不局限于图像分类[29; 53; 55; 20; 23; 21; 74; 4; 12],分割[44; 19],目标检测[36; 79],视频理解[28; 76],生成[11]等方面,都证明了自己是通用的视觉 Backbone 网络。与CNNs的受限制的感知域不同,视觉 Transformer (ViT)[7; 42; 61]从语言任务中借用,在全局上下文建模方面具有优势。后来,为了更好地适应视觉领域,提出了许多视觉特定的修改,如引入层次特征[42; 61],优化训练[58],以及将CNN元素集成[5; 54]。因此,视觉 Transformer 在各种视觉应用中表现出色。然而,这以注意力操作的平方时间复杂度和内存复杂度为代价,尽管提出了[42; 61; 72; 57]的补救措施,但其可扩展性仍然受到阻碍。

近年来,状态空间模型(SSMs)作为一种强大的范式,在语言任务中建模顺序数据。先进的SSM模型与最先进的视觉 Transformer (ViT)架构相比,在性能上甚至更优,同时具有线性复杂度。它们在视觉任务上的初步成功,更重要的是,惊人的计算效率,暗示了SSM作为CNN和Transformer的有前途的通用后端替代品的潜力。

2 State Space Models

状态空间模型(SSMs)[16; 15; 18; 35] 是一类用于序列建模的完全循环架构。最近的研究 使得 SSMs 的性能达到了 Transformer  Level ,同时其复杂度呈线性增长。作为一项重大突破,Mamba [13] 革新了传统的 SSM,采用了输入相关的参数化方法,并支持可扩展的、面向硬件优化的计算,使其在涉及顺序 1D 数据的多种任务中,与高级 Transformer 模型相媲美或表现更优。

随着Mamba的成功,ViM [80]和VMamba [41]将Mamba的1D扫描转换为双向和四向的2D交叉扫描,以便处理图像。此后,SSMs已迅速应用于视觉任务(语义分割[51; 65; 46],目标检测[26; 3],图像修复[17; 52],图像生成[9],等)以及其他模态的数据(例如,视频[67; 32],点云[40; 73],图[2],以及跨模态学习[60; 6]。

在将Mamba适应非一维数据时,一个基本考虑因素是设计一个路径,该路径遍历并映射所有图像块到一个SSM友好的1D序列。在这个方向上,初步的工作包括ViM中的双向ZigZag扫描[80],VMamba中的4个方向交叉扫描[41],以及PlainMamba和ZigMa中的蛇形扫描[66;22],这些工作都是在高度和宽度轴所覆盖的空间域中进行的。其他工作[52;75;33]将扫描扩展到额外的通道[52;33]或时间[75;33]维度。然而,这些扫描策略在遍历块时忽视了空间局部性的重要性。LocalMamba[26]部分地缓解了这一固有弱点,它将块分成窗口并在每个窗口内进行遍历。

然而,由于整个图像域的单一致局部细粒度,由任意的窗口大小控制,很难确定最优粒度。LocalMamba选择DARTS [38]以分别搜索每个层的最佳窗口大小和最佳扫描方向,这使得方法变得更加复杂。另一方面,所有现有方法都涉及硬编码的扫描策略,这些策略可能是次优的。与所有这些方法不同,本文引入了一种可学习的四叉树结构来扫描具有不同局部细粒度的图像块。​

3 Preliminaries

状态空间模型(SSMs)[16;15;18;35]本质上是一种线性时不变系统,它通过隐藏状态  (序列长度  和状态大小  )将一维输入序列  循环映射到输出响应序列  (其中  和  分别为序列长度和状态大小)。从数学上讲, 这样的系统可以表示为以下常微分方程(ODEs):

图片

其中, 矩阵  包含了演化参数;  和  是投影矩阵。然而, 在实际中, 通过零阶保持 (ZOH) 规则[16], 方程 1 通常被转化为离散形式[18], 其中 的值在样本间隔  内保持不变。离散化的ODEs可以表示为:

图片

在上述内容中,  和  是  和  的离散表示: , 并且 . 为实现高效计算, 方程 2 中的迭代计算可以并行执行, 同时进行全局卷积操作。

图片

其中  表示卷积运算符,  表示SSM核。

选择状态空间模型(S6)。 传统状态空间模型(SSMs)具有输入无关的参数。为了改进这一点,提出了选择状态空间模型(S6)或“Mamba”,它们具有输入相关的参数,使得 和 变得可学习。为了弥补并行性困难,还进行了硬件感知的优化。在本工作中,作者特别研究了Mamba架构在视觉任务中的有效适应性。

早期的工作,如ViM [80]和V Mamba [41],通过将2D图像转换为以光栅扫描方式的一维序列来探索直观的适应性。作者认为简单的光栅扫描并不是最优设计,因为它破坏了图像的局部邻域。在作者的工作中,提出了一种基于四叉树的新颖可学习扫描方案。​

4 Method

General Architecture

QuadMamba 共享了与许多卷积神经网络(CNNs)[20; 64; 23]和视觉 Transformer (Vision Transformers)  相似的多尺度背身设计。如图2所示, 一张大小为  的图像首先被分割成大小为  的patch, 从而得到  个视觉tokens。一个线性层将这些视觉tokens映射到具有维度  的隐藏嵌入,然后被输入到作者提出的基于Quadtree的视觉状态空间(QuadVSS)块中。

与在语言建模中使用的Mamba结构不同, QuadVSS块遵循了 Transformer 块的流行结构 , 68], 如图2(b)所示。QuadMamba由四个阶段的QuadVSS块组成,其中阶段 有  个QuadVSS块。在每个阶段中, 一个降采样层将特征图的空间大小减半, 同时将它们的通道维度加倍。由于Mamba的线性复杂度, 作者可以在前两个阶段中堆叠更多的QuadVSS块, 这使得它们的局部特征保持和建模能力可以充分利用, 同时引入的计算开销最小。

图片

Quadtree-based Visual State Space Block

如图2所示,作者的QuadVSS块采用了视觉Transformer的元架构[68],由一个 Token 运算符、一个 FFN (FFN)和两个残差连接组成。Token 运算符包括一个位移模块、一个分区映射预测器、一个基于四叉树扫描器和一个Mamba Layer。在 Token 运算符内部,一个轻量级预测模块首先在特征 Token 上预测一个分区映射。四叉树策略然后通过递归地将二维图像空间分成四个象限或窗口来对它进行细分。根据粗粒度分区映射的得分,跳过较不具有信息量的细粒度子窗口。

因此,一个多尺度、多粒度的1D Token 序列被构建,在更具有信息量的区域捕获更多的局部性,同时保留其他区域的全球上下文建模。QuadVSS块的关键组件如下:

分区映射预测。图像特征  ,包含  个嵌入 Token,首先被投影为得分嵌入  :

图片

φs 是一个轻量级的 Projector ,具有规范线性 GELU 层。为了更好地评估每个 Token 的局部性,作者利用每个象限内的本地嵌入和上下文信息。具体而言,作者首先在通道维度上对 xs 进行拆分,得到局部特征 xs^local 和全局特征 xs^global:

图片

因此, 作者得到了聚合得分嵌入 , 并将其输入到线性 GELU 层  中, 用于预测分段得分:where Interpolate  是双线性插值运算符,将上下文向量插值到空间大小为  的位置。

从而, 作者得到了聚合得分嵌入 , 并将其输入到线性 GELU 层  中, 用于预测分段得分:

图片

其中  表示在空间坐标  的 Token 的配分。基于四叉树(Quadtree)的窗口划分。在预测每个特征 Token 的划分得分  后,作者应用了一个快速的四叉树基窗口划分策略, 计算成本可以忽略不计。作者构建了双级窗口四象限,从粗粒度到细粒度捕捉空间局部性。

四叉树基策略将图像特征在粗粒度 Level 划分为  个子窗口, 在细粒度 Level 划分为  个子窗口。与Transformer方案不同, 它仅通过将 Query 特征设置为相同大小来保持图像特征的空间形状,而由QuadMamba学习的扫描生成的 Token 序列应该与具有原始空间大小的特征合并。

因此, 作者选择在粗粒度 Level 具有最高平均局部邻域得分的顶点  四象限, 并将其进一步划分为四个子窗口:

图片

其中, 包含在粗粒度窗口和细粒度窗口中的样本,并发送到 SS2D 块进行序列建模。

为了考虑最具有信息量的 Token 跨越相邻的两个窗口四分之一,作者借用了Swin Transformer [42]中的移位窗口方案。不同之处在于,Swin Transformer在窗口内的每个 Token 内部都忽略了空间局部性,而Mamba窗口内的 Token 序列仍然具有方向性。

因此,在后续的VSS模块中,作者添加了额外的移位方向,如图4所示,与Swin Transformer中只有一个方向移位相比。

图片

Model Configuration

值得注意的是,QuadMamba模型的容量可以通过调整输入特征维度和(Q)VSS层数量来定制。在本研究中,作者构建了四种具有不同容量的QuadMamba架构变体,分别为QuadMamba-Li/T/S/B:

值得注意的是,QuadMamba-S在目标检测上比EfficientVMamba-B(一种基于Mamba的 Backbone 网络,以其更高的效率而著称)提高了3.0%的mAP,在实例分割上提高了2.2%,使用相似的参数。此外,QuadMamba-S能够跟上并甚至超越LocalVMamba-T(一种局部Mamba Backbone 网络)的表现,同时避免了表2的复杂性测量所反映的架构和扫描搜索的麻烦。

这些结果表明,QuadMamba可以作为一种实用且功能强大的视觉 Backbone 网络,在计算复杂度、设计成本和性能之间实现平衡。

图片

Semantic Segmentation on ADE20K

如图3所示,在可比的网络复杂度和效率下,QuadMamba相较于基于ConvNet的ResNet-50/101 [20]和ConvNeXt [43],基于Transformer的DeiT [58]和Swin Transformer [42],以及大多数基于Mamba的架构 [80, 49, 66],实现了显著更高的分割精度。

例如,QuadMamba-S在  的mloU下报告了优越的分割精度,超过了Vim-S (  ), LocalVim-S (46.4%), EfficientVMamba-B (46.5%),以及PlainMamba-L2 (46.8%),并且与 VMamba-T (  )具有竞争力的结果。与LocalMamba-S/B相比, QuadMamba-S/B虽然稍逊一筹, 但仍具有不产生额外网络搜索成本的优势。

值得注意的是,LocalMamba是由神经架构搜索(NAS)技术设计的,该技术依赖于数据,并且与其他数据模式和数据源缺乏灵活性。

图片

Ablation Studies

作者从多个角度进行了消融实验来验证QuadMamba设计选择的正确性。除非另有说明,所有实验都使用了QuadMamba-T。

Mamba中局域性的影响。 作者在构建一维 Token 序列时,考虑了粗粒度和细粒度局部性建模对模型性能的影响。具体而言,作者将[80, 41]中的原始窗口无损平铺策略与三个尺度(即28x28、14x14、2x2)的窗口划分(即特征局部性的三个粒度 Level )进行了比较。在实际中,作者将QuadMamba-T模型中的QuadVSS块替换为[41]中的简单VSS块。

为了排除填充操作的负面影响,作者在第一个模型阶段只划分了空间尺寸为56x56的特征。如表4所示,原始扫描策略导致与采用窗口扫描相比,目标检测和实例分割性能显著降低。局部窗口的规模也显著影响了模型性能,这表明在给定图像分辨率的情况下,太大的或太小的窗口可能是次优的。

图片

基于四叉树的分区分辨率。作者探讨了在双层四叉树分区间策略中分区分辨率的选取。表格5中配置的分区分辨率在第一阶段两个模型中应用,特征分辨率为{56×56, 28×28, 14×14}。实验中作者推导出粗粒度窗口和细粒度窗口的最优分辨率为{1/2, 1/4}。这种手工配置的设置可能在未来的工作中被更灵活和可学习的设置所替代。

分层模型阶段的层模式 作者研究了在分层模型 Pipeline 中的层模式设计选择。从图5可以看出,层模式LP2在减少了0.2%的准确率上超过了层模式LP1。这可能是因为局部建模效果在较浅的阶段比在较深的阶段更明显,以及第三阶段的填充操作产生了负面影响。LP3在第一和第二阶段将QuadVSS模块以交错方式放置,实现了最佳性能,并作为作者的模型设计。

图片

必要性多向窗口平移。与Swin Transformer [42]中的单向平移不同,图5显示了在添加互补平移方向时,准确率提高了0.2%。这可以预见,因为Transformer中的注意力是非因果的,而Mamba中的一维序列具有因果性质,因此它们对相对位置非常敏感。在处理信息区域跨越相邻窗口的情况时,多向平移操作也是必不可少的。图6进一步可视化了在不同层级的层次结构中学习的细粒度四象限中的平移,这些四象限在不同层适当地关注不同的空间细节。

每个阶段使用的(Quad)VSS模块数量 作者进行了实验来评估每个阶段不同数量(Quad)VSS模块的影响。表6呈现了遵循图5中设计规则LP3的四个配置,固定通道维度为96。作者发现,庞大的第二或第四阶段会导致与第三阶段设计相比性能下降,而将(Quad)VSS模块在第二和第三阶段之间分配得更加均匀,可以获得与有利的复杂性相当甚至更好的性能。这些证据可以作为未来模型设计的一条基本规则,尤其是在模型扩展时。

图片

6 Conclusion

在本文中,作者提出了一种名为QuadMamba的视觉Mamba架构,作为一种通用且高效的后端,用于诸如图像分类和密集预测等视觉任务。

QuadMamba通过可学习的四叉树扫描有效地捕获了不同粒度的局部依赖关系,同时适应地保留了图像数据的固有局部性,且计算开销极低。

QuadMamba的有效性已经通过大量实验和消融研究得到证明,其性能优于流行的卷积神经网络(CNNs)和视觉 Transformer (ViTs)。

然而,QuadMamba的一个局限性是窗口分级的深度尚未探索,这可能特别适用于处理密集预测视觉任务和高分辨率数据,如遥感图像。细粒度分区的区域刚性且缺乏针对任意形状和大小的区域的灵活性,这留待作者未来研究。

作者希望作者的方法能激发进一步将Mamba应用于更多样化和复杂的视觉任务的研究。

....

#图像超补全(Outpainting)技术的前沿模型与数据集资源汇总

“lmage outpainting”这一概念是由斯坦福大学 CS230 课程的 Mark Sabini 等人提出,相较于图像修复技术,lmage outpainting 更进一步,能够从给定的图像片段中“补全”出缺失的外延部分,以精妙的方式补全画面,从而构建出一个完整且连贯的视觉世界。

另外,所提出的论文​​Painting Outside the Box: Image Outpainting with GANs​​在吴恩达的斯坦福大学 CS230 课程中获得了期末 Poster 的第一名。

  • 论文地址:https://arxiv.org/pdf/1808.08483
  • 代码地址:https://github.com/bendangnuksung/Image-OutPainting

本文精心汇总了 Outpainting 技术的前沿开源模型与算法资源,旨在加速开发人员的研究进程,轻松获取所需算法与数据。​

PQDiff

图片

PQDiff 方法,用于图像超补全,具有以下创新点:

  • Continuous multiples for image outpainting:PQDiff 能够同时学习图像的位置信息和像素信息。在训练阶段,PQDiff 首先随机裁剪给定图像两次,生成两个视图。然后,PQDiff 通过预先计算的相对位置嵌入(RPE)从一个视图学习另一个视图的内容。由于 RPE 能够表示两个视图之间的连续关系,PQDiff可以实现连续倍数的图像超补全(例如1x、2.25x、3.6x、21.8x)。作者称 PQDiff 是首个实现连续倍数图像超补全的方法,而现有的 SOTA 方法 QueryOTR(Yao等,2022)只能进行离散倍数的超补全。
  • One-step image outpainting:提出一种基于相对位置嵌入与输入子图像块之间的跨注意力机制,帮助 PQDiff 在任意倍数设置下仅通过一步操作即可完成图像超补全。作者称 PQDiff 是首个实现此功能的方法,而现有的(Yao等,2022;Yang等,2019)只能逐步进行图像超补全,极大地限制了采样效率,即生成效率。在2.25x、5x和11.7x的超补全设置下,PQDiff 仅耗费了QueryOTR(Yao等,2022)所需时间的40.6%、20.3%和10.2%。
  • New SOTA performance:在图像超补全的基准测试中(Gao et al., 2023; Yang et al., 2019),实验结果显示,PQDiff 显著超越了QueryOTR(Yao et al., 2022),在Scenery、Building Facades和WikiArts数据集上,PQDiff在11.7倍扩展设置下分别取得了新的最先进FID分数21.512、25.310和36.212。此外,PQDiff在大多数设置下(包括2.25倍、5倍和11.7倍扩展)也取得了新的最先进结果。

图片

  • 参考论文:Continuous-Multiple Image Outpainting in One-Step via Positional Query and A Diffusion-based Approach(ICLR 2024)
  • 论文地址:https://arxiv.org/pdf/2401.15652
  • 开源地址:https://github.com/Sherrylone/PQDiff

QueryOTR

图片

基于 vision-transformer 的图像超补全方法,具有以下创新点:

  • 将 Outpainting 问题重新表述为一个基于补丁的序列到序列自回归问题,并开发了一种新的混合 transformer 编码器-解码器框架——QueryOTR,用于基于查询的图像外推预测,同时最小化来自 CNN 结构的归纳偏差所导致的退化。
  • 提出 Query Expansion 和 Patch Smoothing 模块,解决纯 Transformer 模型中的慢收敛问题,并生成平滑且无缝的逼真外推图像。
  • 与当时及已有的 image outpainting 方法相比,QueryOTR 在one-step 和 multi-step outpainting任务上均达到了SOTA。

图片

  • 参考论文:Outpainting by Queries(ECCV2022)
  • 论文地址:https://arxiv.org/abs/2207.05312
  • 开源地址:https://github.com/Kaiseem/QueryOTR

U-Transformer

图片

此工作是研究一种通用图像超补全问题,旨在全方位地扩展图像中的视觉内容,突破传统方法仅局限于水平方向扩展的局限,实现图像在全方位的无缝延伸与丰富,为图像处理领域带来前所未有的灵活性和广阔的应用前景。

具体创新如下:

  • U-Transformer 是首个基于Transformer的图像超补全框架。Swin transformer 模块能够获取全局特征并保持高分辨率。U 形结构和 TSP 模块能够平滑而真实地增强图像的自我重建能力以及对未知部分的预测,从而提升网络的能力。
  • TSP 模块连接了编码器和解码器,通过多视角 LSTM 网络和自注意力块,传递考虑潜在时间关系和空间关联的不完整潜在特征。此外,TSP 块可调整被遮掩特征图的预测步骤,从而支持生成任意输出分辨率。
  • 创建了三个数据集,
  • Scenery:包含约6,000张图像
  • Building:包含不同风格的复杂建筑结构。训练集中约有16,000张图像,测试集中有1,500张图像。
  • Wikiart:包含45,503张训练图像和19,492张测试图像

图片

  • 参考论文:Generalised Image Outpainting with U-Transformer
  • 论文地址:https://arxiv.org/abs/2201.11403
  • 开源地址:https://github.com/PengleiGao/UTransformer

In&Out

图片

In&Out 是通过 inverting(逆转)GAN 的方式来解决 Outpainting 问题。首先训练一个生成器来合成以其位置为条件的 micro-patches 。在此基础上,提出一个 inversion(逆映射)过程,寻找多个 latent codes(隐藏码)恢复可用区域以及预测 outpainting(补全)区域。

图片

  • 参考论文:In&Out : Diverse Image Outpainting via GAN Inversion
  • 论文地址:https://arxiv.org/abs/2104.00675
  • 开源地址:https://github.com/yccyenchicheng/InOut
  • 项目地址:https://yccyenchicheng.github.io/InOut/
  • 数据集:https://drive.google.com/file/d/1kYd0qHaMRoqFCsZA50uvNpsyWXya0eOj/view

Wide-Context Semantic Image Extrapolation

图片

网络结构

Wide-Context Semantic Image Extrapolation 是一个基于 PyTorch 的开源项目,旨在通过深度学习技术实现图像的补全(outpainting),可以在图像边界之外扩展语义敏感的物体(如面部、身体)或场景。

图片

  • 参考论文:Wide-Context Semantic Image Extrapolation(CVPR 2019)
  • 论文地址:https://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_Wide-Context_Semantic_Image_Extrapolation_CVPR_2019_paper.pdf
  • 开源地址:https://github.com/dvlab-research/outpainting_srn

....

#字符缺陷检测--OCV(光学字符验证)介绍

   光学字符验证 (OCV) 是一种验证制成品上印刷文本的准确性和质量的技术。制造商和销售商使用 OCV 快速、自动化地检查包装上信息的准确性,从食品标签到药品包装。

    OCV 与光学字符识别 (OCR)配合使用,可读取和验证文本。以前,机器读取文本依赖于模式识别、像素匹配和特殊字体,但现在,得益于近期的 AI 进步,任何文本字体都可轻松读取。

    OCV 在消费品包装 (CPG) 领域有许多用例。它帮助制造商在贴标过程中保持一致的质量和准确性。他们可以确保满足监管要求并保护消费者安全。 

    OCV 可用于验证条形码、批号、有效期和其他信息是否正确且准确地打印,这有助于保持可追溯性并使召回管理更容易。 

    在本文中,我们将深入探讨这个主题,并了解 OCV 的工作原理及其应用。让我们开始吧!

了解光学字符验证 (OCV)

    为了更好地理解 OCV 及其功能,我们首先简要介绍一下 OCR。虽然 OCV 有特定的用途,但它通常依赖于 OCR。

    光学字符识别是将文本图像(如扫描文档或照片)转换为可操作(编辑或搜索)的数字文本文件的过程。它可以分析和识别单个字符并将其转换为数字形式。 

    然后,光学字符验证将翻译的数字数据与其参考数据进行比较,以确保其正确无误。对于消费包装商品,OCV 用于检查印刷信息(如有效期和批号)的准确性。它还适用于与质量控制相关的应用,在这些应用中,预期数据是预先知道的。 

OCV 在消费包装商品中的优势

    让我们来看看OCV在CPG行业的更多主要优势。

    质量保证

    该系统使用摄像头和软件检查产品上印刷的文字和数字,如有效期和批号。与传统方法相比,它非常快速和可靠。但 OCV 不仅检查拼写错误,还确保字体大小、样式,甚至分析数字的间距。它有助于防止可能导致产品召回或造成安全风险的错误。  

    监管合规性

    确保包装正确准确地贴上标签是法规合规性的重要组成部分,OCV 系统在这里用于提高效率。OCV 系统识别标签的内容和格式,并使用数据库中的数据检查其正确性。它还会检查标签上强制性信息的详细信息,例如成分列表、过敏原警告和营养信息。这些系统可帮助制造商遵守因地区而异的复杂标签法规。OCV 技术节省了大量时间和人工。

    品牌保护

    OCV 通过检查包装上的独特代码和安全功能来帮助打击假冒产品,确保您购买到正品。OCV 还可以维护品牌的整体形象,确保包装上的字体、徽标和颜色一致且完全符合品牌的意图。消费者可以相信他们在包装上看到的信息是准确的,并且反映了他们所熟知和喜爱的品牌。

    运营效率

    通过自动化繁琐的手动错误检查,OCV 使检查速度大大加快。这意味着工厂可以更快地发送产品并提高整体产量。此外,OCV 还可以节省成本,因为对人工检查员的需求减少了。OCV 还可以尽早发现错误,因此因印刷错误而浪费的包装材料更少。这对速度和节省来说都是双赢的。

光学字符验证的工作原理

    OCV 与 OCR 引擎协同工作。简单的 OCR 引擎通过存储许多不同的字体和文本图像模式作为模板来工作。它使用 OCV 的模式匹配算法将文本图像逐个字符与其内部数据库进行比较。如果系统逐字匹配文本并且正是系统所寻找的内容,则验证通过。让我们看看验证过程涉及的所有步骤:

    图像捕捉:高科技相机可在生产的不同阶段捕捉包装的清晰图像。区域扫描和线扫描相机均可用于此目的。适当的照明也是获得良好图像的关键。

    图像预处理:拍照后,OCR 会对照片进行一些清理。它可能会调整大小、去除污迹或调整对比度以使文本更加突出。 

    字符检测:在此阶段,OCR 用于检测和识别各种字体和大小。OCR 系统使用经过训练的机器学习模型,可以分割和识别字符。它分析干净的图像并找出包装上的每个字母和数字。

    验证:然后,OCV 系统会根据参考资料(例如预定义的到期日期列表)检查找到的字母和数字。任何不匹配的情况(例如缺少数字或日期错误)都会被标记为错误。

    差异标记和警报:如果系统发现错误,它会触发警报,如闪烁的灯光或响亮的蜂鸣声,提醒工厂工人调查问题。

    实时反馈:由于 OCV 可以尽早发现错误,工厂可以快速修复错误。修复可能涉及调整打印设置,甚至停止生产线以防止错误再次发生。这一切都是为了保持一切顺利运行并创造高质量的产品。

    现在我们已经了解了 OCV 是什么以及它的工作原理。让我们探索它在消费品包装行业中的应用。

OCV 在 CPG 中的应用

    食品和饮料公司需要跟踪其产品从工厂到货架的全过程。因此,他们会在从麦片包装盒到果汁瓶等所有物品上打印诸如有效期和批号之类的代码。 

    这些代码有助于识别产品的生产时间和地点,从而更易于控制质量。代码通常结合了图片和纯文本,这就是 OCV 的作用所在。OCR 可以检测代码的文本部分,而 OCV 可以检查以确保整个代码、图片和文本一起正确打印。 

    有效期验证:防止产品变质

    OCV 会拍摄食品包装上的保质期的高质量照片。然后,它会将这些字符与每种产品的正确保质期列表进行比较。如果任何内容不匹配,OCV 会发出警告。这会提醒工厂工人进一步调查(也可以使用机器人自动进行调查),甚至可能将这些产品从流通中移除,以确保不会有过期食品到达您的手中。

    批号验证:简化产品追踪

    与有效期验证类似,OCV 系统会拍摄批号图像,并通过将其与系统数据库中的有效批号列表进行比较来验证。通过加强准确的批号跟踪,OCV 有助于在发生召回或质量问题时快速识别和检索产品。

    条形码验证:确保产品流通顺畅

    与文本识别不同,OCV 不需要字符识别来检测条形码。相反,它使用特殊算法来检查条形码本身是否正确构建,例如是否包含所有正确的部分。如果条形码错误或混乱,OCV 会发出警告以便重新打印。这可以防止结账柜台出现问题,并确保产品在仓库和商店中顺畅流通。 

使用 OCV 的挑战

    在这些系统面临的主要挑战是,在各种条件下实现准确度。OCV 需要在各种工厂环境中都保持高效。照明、阴影甚至包装上的灰尘颗粒的波动都可能使图像难以清晰显示。模糊的图像可能会导致阅读文本时出错。OCV 系统可以通过使用特殊的照明设置来避免此问题。

    另一个挑战是实时验证,不能出现延迟。系统需要实时验证信息,而不会减慢生产线的速度。减慢传送带的速度进行检测会导致整体效率低下。为了避免这种情况,OCV 系统的设计注重效率。它们使用 AI 加速和智能算法快速分析和验证图像,使工厂平稳运行。

    管理大规模部署和数据处理也是一个问题。在大型工厂中部署 OCV 系统可能很复杂。管理系统的所有摄像头、处理它们生成的大量数据并高效处理这些数据需要强大的基础设施。解决这一问题可能需要强大的计算机系统和专门的软件解决方案来处理 OCV 收集的所有信息。

    除了技术复杂性之外,标签设计也总是随着趋势而变化。新的设计、字体和印刷方法层出不穷。OCV 需要适应这些变化,这可能涉及在新的数据集上训练系统。或者,OCV 系统可以使用灵活的算法来处理包装元素的变化,以便跟上最新趋势。

结 论

    边缘计算等新技术使使用 OCV 直接在相机上分析产品变得无缝。减少延迟可加快检查速度并简化生产线。OCV 与其他质量控制 AI 创新结合使用时也会蓬勃发展。例如,对象检测或实例分割等计算机视觉技术可以帮助检查产品在生产线上的位置。在 AI 的帮助下,OCV 只会越来越好,从而带来更高质量的产品。

    光学字符验证 (OCV) 是一种必不可少的工具,可帮助仔细检查产品包装上印刷信息的准确性。它使用先进的摄像头和软件来检查诸如有效期、批号和条形码之类的错误。OCV 可帮助制造商保持高质量、满足标签规则、保护其品牌并通过及早发现错误来更高效地运行生产线。随着技术的进步,OCV 将更好地为消费者提供安全准确的产品。

....

#DiffMark

新疆大学等提出扩散水印算法:为数字身份打造对抗Deepfake的“隐形盾牌”

文分享今天新出的论文​​DiffMark: Diffusion-based Robust Watermark Against Deepfakes​​,该文提出一种名为DiffMark的鲁棒水印框架,它巧妙地利用扩散模型,在生成图像的同时无缝嵌入肉眼不可见的水印,并创新性地引入“对抗Deepfake”的引导机制,能有效抵抗多种Deepfake攻击,为数字内容的真实性验证和溯源提供了强大武器。

  • 作者: Chen Sun, Haiyang Sun, Zhiqing Guo, 等
  • 机构: 新疆大学、合肥工业大学、湖南大学等
  • 论文地址: https://arxiv.org/abs/2507.01428v1
  • 项目地址(尚未开源): https://github.com/vpsg-research/DiffMark

研究背景与意义

Deepfake(深度伪造)技术的泛滥,正对个人隐私和社会安全构成日益严峻的威胁。想象一下,你的脸可能在毫不知情的情况下被“换”到任何视频中。如何验证数字内容的真实性、如何追溯伪造信息的来源,已成为一个亟待解决的难题。

数字水印是应对这一挑战的有力工具。它就像给图片盖上一个“隐形印章”,即使图片被篡改,这个“印章”也能被检测出来。然而,道高一尺魔高一丈,现有的很多水印技术在强大的Deepfake算法面前显得不堪一击,水印很容易在换脸、表情修改等操作中被破坏。

在此背景下,来自新疆大学等机构的研究者们,将目光投向了近年来在图像生成领域大放异彩的扩散模型,提出了一个全新的鲁棒水印框架——DiffMark。

DiffMark的核心方法

传统方法与所提出方法的区别

传统方法与所提出方法的区别

图:DiffMark的训练与推理流程。它将面部图像和水印作为条件,引导扩散模型生成带水印的图像,并能在各种失真(包括Deepfake)后进行解码。

DiffMark的聪明之处在于,它没有走“先生成图像,再添加水印”的老路,而是将水印嵌入的过程与图像生成的过程融为一体。它利用扩散模型从纯噪声逐步去噪生成图像的特性,将原始面部图像和要嵌入的水印信息作为“条件”,引导模型直接生成带水印的图像。

为了让这个“隐形盾牌”足够坚固,能够抵御Deepfake的“攻击”,DiffMark设计了两大核心武器:

DiffMark 图解

DiffMark 图解

  1. 训练时模拟攻击: 在训练阶段,DiffMark集成了一个冻结的自编码器(Autoencoder)来模拟Deepfake的篡改过程。这相当于在“盾牌”出厂前,就让它反复经受各种模拟攻击的“千锤百炼”,从而大大增强了其对真实攻击的抵抗力。
  2. 推理时对抗引导 (Deepfake-resistant guidance): 这是DiffMark最具创新性的一点。在推理(生成水印图像)的过程中,它引入了一个“对抗”机制。它会利用一个特定的Deepfake模型来“攻击”正在生成的带水印图像,并根据水印的提取情况,反过来给扩散模型的去噪过程一个“指导信号”,告诉它如何调整才能让生成的水印更难被破坏。这就像一个陪练,不断地指出你的弱点,让你变得更强。

此外,为了更好地融合水印信息,研究者还设计了一个交叉信息融合(CIF)模块,通过交叉注意力机制将水印特征与图像特征深度融合,确保水印信息被有效嵌入。

实验效果

DiffMark在多个数据集和多种Deepfake攻击场景下都表现出了卓越的性能。

视觉质量

水印图像的定量视觉质量评价

水印图像的定量视觉质量评价

水印的不可见性与鲁棒性

实验结果表明,DiffMark生成的水印图像在视觉质量上与原始图像几乎没有差别,达到了很高的不可见性。同时,在面对如SimSwap、UniFace、StarGAN等多种主流Deepfake攻击以及JPEG压缩、噪声、模糊等常见图像失真时,DiffMark的水印误码率(BER)远低于其他SOTA方法,展现了极强的鲁棒性。

CelebA-HQ 在良性失真条件下水印误码率 (BER) 的定量比较

CelebA-HQ 在良性失真条件下水印误码率 (BER) 的定量比较

DiffMark和SepMark分别在128×128和256×256分辨率下实现了最低的平均水印BER。

在 CelebA-HQ 上对不同 Deepfake 处理方式下水印的误码率 (BER) 进行定量比较

在 CelebA-HQ 上对不同 Deepfake 处理方式下水印的误码率 (BER) 进行定量比较

对抗引导的有效性

通过引入对抗引导机制,水印的鲁棒性得到了进一步的提升,尤其是在对抗其在引导过程中使用的“陪练”Deepfake模型(如SimSwap)时,效果尤为显著。

图片

可视化结果

图片

结论

DiffMark为对抗Deepfake提供了一种全新的、行之有效的思路。它不再将水印视为图像的附属品,而是将其内生地、鲁棒地融合在图像的生成过程中。通过“训练时模拟”和“推理时对抗”的策略,DiffMark成功地打造了一个既隐形又坚固的数字身份“盾牌”。

这项工作不仅为数字内容的版权保护和真实性验证提供了强大的技术支持,也为人们如何利用生成模型来反制其自身的滥用风险,开辟了新的道路。

....

#FixTalk

上海交大提出:告别“恐怖谷”,让数字人灵动又逼真

向大家介绍一篇数字人相关的“说话人脸生成”(talking head generation )的最新工作,来自论文​​FixTalk: Taming Identity Leakage for High-Quality Talking Head Generation in Extreme Cases​​,该文提出一个名为FixTalk的全新框架,通过巧妙地“驯服”并利用了现有方法中的“身份泄露”问题,一举解决了高质量说话人脸生成中的身份混淆和渲染伪影两大难题,尤其在极端姿态和夸张表情下效果显著。

  • 作者: Shuai Tan, Bill Gong, Bin Ji, and Ye Pan
  • 机构: 上海交通大学
  • 论文地址: https://arxiv.org/abs/2507.01390v1
  • 未发现有代码

背景与意义

从虚拟主播到数字客服,高质量的“说话人脸生成”技术正变得越来越重要。人们希望AI生成的数字人不仅口型同步、姿态自然,还要能表现出丰富的情感,并且在各种“刁钻”的角度下都能保持逼真的效果。

然而,当前的很多方法,特别是追求高效率的GAN-based模型,常常陷入两个尴尬的境地:

  1. 身份泄露 (Identity Leakage, IL): 生成的人脸看起来“四不像”,既不像源人物,也带上了驱动视频中人物的特征,仿佛发生了“灵魂互换”。
  2. 渲染伪影 (Rendering Artifacts, RA): 在一些极端的头部姿态或者夸张的表情下,生成的人脸会出现扭曲、模糊等各种奇怪的“bug”。

现有方法中常见的身份泄露和渲染伪影问题

现有方法中常见的身份泄露和渲染伪影问题

上海交通大学的研究者们深入探究了这两个问题的根源,并提出了一个绝妙的解决方案——FixTalk。

FixTalk的核心洞察与方法

研究者们通过实验发现了一个非常有趣的现象:

  • 洞察一: “身份泄露”的根源在于,从驱动视频中提取的运动特征里,不可避免地混入了驱动者的身份信息
  • 洞察二: 这些“泄露”的身份信息并非一无是处,它们恰好可以用来修复因细节丢失而产生的“渲染伪影”。

基于这两个核心洞察,FixTalk框架被设计出来,它包含两个关键组件,像“太极”一样一攻一防,化解了难题:

FixTalk框架图

FixTalk框架图

图:FixTalk框架概览,EMI负责解耦运动与身份,EDI负责利用身份信息修复细节。

  1. 增强运动指示器 (Enhanced Motion Indicator, EMI): 这一部分的核心任务是“”。它通过一个轻量级的提取器和新的解耦损失函数,将运动特征中的身份信息剥离出去,从而从根本上解决了身份泄露问题,保证了生成人脸的“血统纯正”。
  2. 增强细节指示器 (Enhanced Detail Indicator, EDI): 这一部分的核心任务是“”。它巧妙地将之前被视为“垃圾”的泄露身份信息“变废为宝”。通过一个记忆网络(Memory Network),它在训练时存储驱动视频中的身份细节,在推理时,根据源人物的特征和当前的运动状态,智能地提取出最匹配的细节来补充和修复渲染伪影,尤其是在极端姿态和表情下。

实验效果

FixTalk的效果非常出色,无论是在视频驱动还是音频驱动的任务上,都超越了现有的SOTA方法。​

视频驱动对比

在与DPE, EmoPor, EDTalk等多种先进方法的对比中,FixTalk生成的视频在身份保持(CSIM更高)和渲染质量(NIQE和CPBD更低)上都取得了最优的成绩。从下方的定性对比可以看出,FixTalk的生成结果在保持身份一致性的同时,面部细节和表情的还原度都非常高。

视频驱动对比

视频驱动对比

图片

音频驱动对比

在音频驱动的任务中,FixTalk同样表现优异。它不仅能生成准确的口型,还能在情感表达上超越其他方法,同时避免了其他模型在处理极端姿态时出现的身份漂移和伪影问题。

音频驱动对比

音频驱动对比

图片

结论

FixTalk框架的提出,为高质量说话人脸生成领域提供了一个新颖且高效的解决方案。它没有粗暴地丢弃“身份泄露”这一“坏”特征,而是通过精巧的设计,将其“驯服”并转化为修复渲染细节的“好”工具,充分体现了“变废为宝”的智慧。这项工作不仅在技术上取得了突破,也为人们思考如何处理和利用深度学习中的“无用”或“有害”信息提供了新的视角。

....

#REG

南开等提出REG方法,直接、高效地利用判别性信息,几十倍加速扩散模型训练!

本篇分享论文​​Representation Entanglement for Generation:Training Diffusion Transformers Is Much Easier Than You Think​​,提出一种名为REG的全新方法,通过将低级图像潜在表示与高级类别令牌进行“纠缠”,极大地提高了扩散模型的训练效率和生成质量,在ImageNet上实现了高达63倍的训练加速。

  • 作者: Ge Wu, Shen Zhang, Ruijing Shi, Shanghua Gao, Zhenyuan Chen, Lei Wang, Zhaowei Chen, Hongcheng Gao, Yao Tang, Jian Yang, Ming-Ming Cheng, Xiang Li
  • 发表机构: 南开大学、南开国际先进研究院、极豪科技、哈佛大学、中国科学院大学
  • 论文地址: https://arxiv.org/abs/2507.01467v1
  • 项目地址: https://github.com/Martinser/REG

背景与意义

近年来,扩散模型在图像生成领域取得了SOTA的性能,但其训练过程通常需要巨大的计算资源和时间成本,这限制了其在更广泛场景下的应用。为了解决这个问题,研究者们提出了各种方法来加速训练,例如引入预训练模型的外部视觉表示(如REPA方法)。

然而,作者认为,现有的方法(如REPA)在推理过程中并没有完全利用这些判别性表示的潜力,因为这种外部对齐在整个去噪推理过程中是缺失的。这启发了作者去探索一种更直接、更高效的方式来利用判别性信息,从而诞生了本文方法REG(Representation Entanglement for Generation)方法。

主要方法

REG的核心思想非常直接:在去噪过程中,将低级的图像潜在表示与一个来自预训练基础模型的高级的单个类别令牌进行“纠缠”(Entanglement)。

具体来说,REG框架在训练时,将带有噪声的图像潜在表示和带有噪声的类别令牌拼接在一起,作为SiT(Scalable Interpolant Transformers)模型的输入。这样,模型在去噪的同时,不仅要重建图像,还要重建其对应的全局语义(类别信息)。

方法对比

图:REPA与REG的训练和推理过程对比。REG(c, d)在训练和推理中都显式地利用了类别令牌,而REPA(a, b)的外部对齐在推理时是缺失的。

这种设计带来了几个关键优势:

  1. 持续的语义引导: 在整个推理过程中,重建的语义知识能够持续地、主动地引导和增强图像生成过程。
  2. 极低的额外开销: 相比于其他方法,REG只增加了一个额外的令牌用于去噪,带来的计算开销(FLOPs和延迟)增加小于0.5%,几乎可以忽略不计。
  3. 端到端的生成: REG能够直接从纯噪声生成连贯的“图像-类别”对,而不需要像一些方法那样需要一个额外的模型来生成类别令牌。

实验结果

REG在多个基准上都取得了惊人的效果,充分证明了其高效性和优越性。​

训练速度和生成质量

在ImageNet 256x256数据集上,REG展现了恐怖的训练加速能力:

  • SiT-XL/2 + REG 分别比原始的 SiT-XL/2 和 SiT-XL/2 + REPA 快63倍和23倍
  • 图片

  • 更夸张的是,仅训练了40万次迭代的SiT-L/2 + REG,其性能就超过了训练了400万次迭代(10倍时长)的SiT-XL/2 + REPA

加速对齐方法的训练迭代之间的 FID 比较

加速对齐方法的训练迭代之间的 FID 比较​

判别性语义学习

通过CKNNA分数(一种衡量表示相似性的指标)分析,REG在整个训练过程中都保持了更高的判别性语义学习能力,并且在网络的所有层和所有时间步上都优于基线模型。

判别语义分析

判别语义分析​

生成样例

从论文展示的生成样本来看,REG生成的图像质量非常高,细节丰富,语义连贯。

生成样本,可阅读原文查看大图

生成样本,可阅读原文查看大图​

结论与展望

REG框架通过一种简单而直接的“表示纠缠”方法,将判别性信息有效地融入到扩散模型的生成过程中,极大地提升了训练效率和生成质量,可以说是为扩散模型的训练找到了“捷径”。

这项工作证明了,我们不必总是依赖于复杂的模型结构修改来提升性能,通过更巧妙地利用预训练模型中的知识,同样可以实现SOTA的结果,甚至“以小博大”。REG的提出,无疑为未来生成模型的研究,特别是如何高效利用现有知识库,开辟了新的、令人兴奋的方向。

....

#Skip-Vision

为视觉-语言模型打造通用加速框架

近日,上海交通大学人工智能研究院晏轶超副教授联合蚂蚁集团的研究团队创新性地提出一种通用的视觉-语言模型加速框架Skip-Vision,论文​​Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping​​。该框架不需要额外的预训练,也不需要重新训练大模型,只需在现有 SFT 流程中插入即可,并能轻松适配 LLaVA、LLaVA-HD、CoS 等多种多模态架构。

  • 项目主页:https://zwl666666.github.io/Skip-Vision/
  • Arxiv: https://arxiv.org/abs/2503.21817

技术背景:视觉Token——性能与算力的双刃剑

近年来,视觉-语言模型(Vision-Language Models)在多模态智能领域大放异彩,从图像描述、视觉问答到复杂的多模态推理,都表现出惊人的能力。然而,这种能力背后隐藏着一个日益严峻的算力困境——视觉Token过载

现有VLM通常会将一张图像分割成数百甚至上千个视觉Token,送入多层Transformer进行细粒度的特征分析。这种做法在精度上带来了好处,模型能捕捉到细微的纹理、局部结构甚至微小的物体。但与此同时,它也带来了巨大的代价:

  • 训练阶段:每一个视觉Token都需要在每层Transformer的前馈网络(Feed-Forward Network, FFN)与自注意力网络(Self-Attention, SA)中进行运算。这种重复计算让训练的时间与能耗都水涨船高,动辄需要数百小时的GPU时间。
  • 推理阶段:在生成回答或描述的过程中,模型需要持续维护所有Token在各层的Key-Value缓存(KV-Cache)。这种全量保留不仅造成了显存的暴涨,也显著增加了每次推理的延迟。以LLaVA这类模型为例,处理一张图像的单次推理FLOPs可高达2千亿,延迟超过150毫秒,对实时应用来说代价高昂。

简而言之,视觉Token是一把双刃剑——它提升了多模态理解的上限,但也把大模型推向了算力消耗的极限。如何保留理解能力,又能大幅降低训练与推理的开销?这正是Skip-Vision要解决的问题。

Skip-Vision核心方法:聪明地“跳过”,精准地“汇总”

Skip-Vision 的提出,就是要解决上述困境,核心理念可以用八个字概括:跳过冗余,汇总精华。它从训练和推理两个维度同时入手,构建了一个端到端的加速框架:

1. 训练阶段:Skip-FFN

Skip-Vision 在训练中最核心的创新,是对 FFN 层的跳过机制(Skip-FFN)。如图1所示,我们通过深入观察发现,大量视觉Token在 FFN 计算前后几乎没有显著变化。这意味着模型其实在对这些Token做重复、低收益的运算。

图1. 我们通过计算 FFN 之前 (∥hattn∥2) 和 FFN 之后 (∥FFN(hattn)∥2) 的特征模量比来评估 FFN 的影响。与文本 token 相比,FFN 对视觉 token 的更新量明显较小。

图1. 我们通过计算 FFN 之前 (∥hattn∥2) 和 FFN 之后 (∥FFN(hattn)∥2) 的特征模量比来评估 FFN 的影响。与文本 token 相比,FFN 对视觉 token 的更新量明显较小。

图2. Skip-Vision框架图。

图2. Skip-Vision框架图。

如图2所示,Skip-Vision 会将视觉token分成retained token与skipped token,retained token数量很少,通常会通过 LLM 的所有解码器层,而大量的skipped token可以选择性地使用token merge进行处理,并被限制只在每个 Transformer 块的自注意层计算,跳过它们的前馈计算。这不仅减少了训练所需的FLOPs,还降低了显存占用。如图3所示,在实际实验中,这一机制可以帮助 LLaVA 等模型在训练时节省22%~40%的训练时间,而性能几乎无损。

图3. 性能效率权衡曲线。

图3. 性能效率权衡曲线。

2. 推理阶段:Skip KV-Cache

训练阶段节省下算力只是第一步,Skip-Vision 在推理环节进一步提出Skip KV-Cache用于加速推理。

在多模态解码过程中,模型通常需要在 KV-Cache 中保留所有视觉Token的历史信息。然而,经过前几层的Attention计算后,大部分视觉信息已被整合到少数关键Token(即 summary token)之中。许多原始Token对后续生成几乎不再贡献有效信息。

Skip-Vision利用这一现象,将被 Skip-FFN 标记的冗余Token,从 KV-Cache 中彻底剔除。这使得推理 FLOPs 可以降低 40%~75%,端到端延迟减少 18%~45%。尤其值得注意的是,即便在这样大幅度的裁剪下,模型在诸如 MMBench、MMVet、MMStar 等多项多模态基准测试中,仍能维持与原始全量模型相当的性能。

3. 关键桥梁:Summary Token

仅仅“跳过”是不够的,关键还在于如何保留重要信息。Skip-Vision 提出了“Summary Token”机制:在跳过冗余Token之前,通过注意力机制先把它们的信息集中到少量 summary token 中,再让这些 summary token 继续参与后续的运算。这种机制保证了信息流不被中断,避免了因大幅裁剪而带来的理解缺失。

4. 理论保障:误差上界分析

Skip-Vision 不仅是工程上的技巧,更有严格的理论支撑。论文中,我们通过对transformer的计算流进行分析,推导了 Skip-FFN的误差上界。分析表明,在对模型谱范数进行一定假设下,理论误差是可控的,与实际测量高度一致。这意味着,Skip-Vision 的加速不仅实用,而且可靠。

表1. 性能与效率评估(LLaMA3 8B作为基座LLM)。

表1. 性能与效率评估(LLaMA3 8B作为基座LLM)。

表2. 性能与效率评估(Vicuna-1.5 7B作为基座LLM)。

表2. 性能与效率评估(Vicuna-1.5 7B作为基座LLM)。

表3. 扩展Skip-Vision的性能评估。

表3. 扩展Skip-Vision的性能评估。

Skip-Vision不仅是一个优化技巧,更是对多模态大模型设计范式的重新思考。论文已公开在Arxiv​​(https://arxiv.org/abs/2503.21817)​​​,更多详情可访问项目主页​​(https://zwl666666.github.io/Skip-Vision/)​​。

....

#MAC-Lookup

开源水下图像增强算法

前段时间,有位粉丝询问关于水下图像处理的工作,今天刚好看到新出的论文​​MAC-Lookup: Multi-Axis Conditional Lookup Model for Underwater Image Enhancement​​,该文提出一种 MAC-Lookup 模型,旨在通过提升色彩准确性、锐度和对比度来增强水下图像的视觉质量,有效避免过度增强和色彩饱和,并优于现有方法。代码开源,对进一步开展研究应用的工作友好。

  • 作者: Fanghai Yi, Zehong Zheng, Zexiao Liang, Yihang Dong, Xiyang Fang, Wangyu Wu, Xuhang Chen
  • 发表机构: 广东工业大学; 惠州学院; 中国科学院大学; 西交利物浦大学
  • 论文地址: https://arxiv.org/pdf/2507.02270v1
  • 项目地址: https://github.com/onlycatdoraemon/MAC-Lookup (已开源)
  • 录用会议:IEEE SMC 2025

研究背景和意义

图像增强对于水下探索至关重要。然而,水下图像由于光线变化、水体浑浊度以及气泡的影响,常面临可见性和色彩失真问题。传统的基于先验和基于像素的方法往往效果不佳,而深度学习方法则面临缺乏高质量训练数据集的挑战。本研究旨在解决这些问题,提供一种能够有效增强水下图像视觉质量的新方法。

主要研究内容和方法

本文提出了一种多轴条件查找(Multi-Axis Conditional Lookup, MAC-Lookup)模型,旨在通过提升色彩准确性、锐度和对比度来增强水下图像的视觉质量。

图片

  • 条件3D查找表色彩校正(CLTCC)模块: 用于对图像进行初步的色彩和质量校正。
  • 多轴自适应增强(MAAE)模块: 负责对图像细节进行细化。
  • 避免过度增强和色彩饱和: MAC-Lookup模型能够有效避免过度增强和色彩饱和,同时能良好应对水下环境的特有挑战。

实验设计和结果分析

大量实验结果表明,MAC-Lookup在水下图像增强方面表现出色,其在细节和色彩恢复方面的能力优于现有方法,为水下图像处理提供了新的有效解决方案。

在 UIEB、EUVP 和 LSUI 数据集上的比较。

在 UIEB、EUVP 和 LSUI 数据集上的比较。

性能指标上还是蛮好的。

与其他SOTA算法定性比较

与其他SOTA算法定性比较

各个模块消融性研究定性比较

各个模块消融性研究定性比较

各个模块消融性研究定量比较

各个模块消融性研究定量比较

结论和未来工作展望

MAC-Lookup模型为水下图像增强提供了一个有效且鲁棒的解决方案。通过其独特的多轴条件查找机制,它能够显著提升水下图像的视觉质量,并有效应对水下环境的挑战。未来工作可以进一步探索MAC-Lookup在不同水下场景和应用中的潜力,以及其在实时水下图像处理方面的优化。

....

#SewingLDM

一句话+一张草图,3分钟生成合身数字华服

  • 论文题目:Multimodal Latent Diffusion Model for Complex Sewing Pattern Generation
  • 论文地址:https://arxiv.org/abs/2412.14453
  • 项目主页:https://shengqiliu1.github.io/SewingLDM/

近日,上海交通大学人工智能研究院杨小康教授、晏轶超副教授团队联合学深智能、网易伏羲实验室的研究成果: Multimodal Latent Diffusion Model for Complex Sewing Pattern Generation被ICCV 2025收录。这项研究突破性解决了虚拟服装生成的核心难题,让"设计师输入文字描述+简单草图,三分钟生成合身虚拟服装"的愿景成为可能——通过创新框架使AI像资深服装设计师般思考,实现从基础设计到精细定制的流程智能化。​

背景介绍

传统虚拟服装生成过程往往依赖大量手动操作,个性化定制能力薄弱,难以适配高矮胖瘦等多样化体型。现有方法通常只能处理简单版型划分,导致生成的服装无法针对不同体型实现真正合身,比如宽松衣物易失真或紧身设计缺乏灵活性。这不仅拖慢设计效率,还限制了虚拟时尚的普及。

为了让模型像服装设计师一样思考,理解服装版型并生成,研究团队首先对服装版型的数字化表示进行了扩展,引入立方曲线和圆弧曲线等元素,更广泛支持多样化的衣服版型表达,让AI能像人类服装设计师一样读懂复杂设计。

图片

技术介绍

为了让模型能够便捷生成合身的数字华服,研究团队提出 SewingLDM 框架,核心在于分阶段处理多模态输入。

第一阶段让AI“听懂”文字指令,基于潜在扩散模型仅用文本训练生成基础服装版型。

第二阶段让AI“看懂”草图并适配身材,通过新增草图特征提取器和人体形态编码器,将草图形状与人体体型参数融合,再经轻量化Transformer对齐服装潜在空间;关键策略是微调扩散模型输出层参数(冻结紫色参数,仅训练橙色参数),确保文本和多模态信息平衡,最终生成精细版型。

图片

通过分阶段的训练和参数微调机制,SewingLDM框架不仅解决了体型适配问题,还显著优于之前的方法,展示了更高技术成熟度

图片

技术意义

该工作为服装设计提供了新的自动化工具,设计师可快速将草图转化为可穿戴3D模型。论文已公开在arXiv(https://arxiv.org/abs/2412.14453),更多详情可访问项目主页(https://shengqiliu1.github.io/SewingLDM/),欢迎探索AI服装设计师的无限潜力。

....

#MotionDiff

零样本、无需训练的交互式运动编辑算法

导读:

论文《MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion》已被国际计算机视觉顶级学术会议ICCV-2025收录,由中山大学智能工程学院完成。论文第一作者为2023级硕士研究生马义坤,通讯作者为其导师金枝教授。

  • 原文链接:https://arxiv.org/abs/2503.17695
  • Code:https://github.com/Mr-Ma-yikun/MotionDiff

生成式模型能够产生高质量的内容。然而其输出具有内在不确定性,实现可控的编辑,尤其涉及空间运动编辑更具有挑战性。虽然一些基于物理先验的方法尝试实现运动编辑,但它们通常适合处理单视角图像上的简单运动(如平移和拖拽)。通常难以处理复杂的旋转和拉伸运动,并且无法保证多视角一致性,往往还需要耗费大量资源重新训练。

为了解决这些问题,我们提出了MotionDiff,一种无需训练的零样本扩散方法,利用光流引导复杂的多视角运动编辑。用户可以交互选择感兴趣的物体并添加运动先验。随后,所提出多视角光流估计阶段(Multi-view Flow Estimation Stage, MFES)估算对应的多视角光流。接着,多视角运动扩散阶段(Multi-view Motion Diffusion Stage, MMDS)解耦运动表示并生成多视角运动结果。

大量实验表明,MotionDiff在生成高质量、多视角一致的运动效果方面优于其他基于物理的生成式运动编辑方法。此外,该方法无需重新训练,用户能够方便地将其应用于下游任务。

Abstract

本文提出了一种无需训练的零样本交互式运动编辑算法,称为MotionDiff。对于用户,只需要对一张单视角图像施加光流,其后算法便能生成多视角一致的运动编辑结果,并且能够保真纹理细节。

本文的贡献与创新点如下:

  • 提出了一种无需训练的零样本、光流引导的扩散框架,能够实现多种复杂的多视角运动编辑操作,如平移、缩放、旋转和拉伸。
  • 在多视角光流估计阶段MFES中开发了一个用户友好的交互式框架,并结合所提出的 点运动学模型PKM,从静态场景中推导出多视角光流。
  • 在多视角运动扩散阶段MMDS中设计了一种解耦运动表示方法,为其他相关任务(如AR/ VR,人机交互等)提供了便利。

图片

图片

Method

Network Architecture

MotionDiff 通过两个推理阶段实现运动编辑。首先,如图1,给定一个静态场景,用户可以交互式地选择需要编辑的物体并添加运动先验;随后,所提出的 PKM在MFES内估算多视角光流。接下来,MMDS(图2)利用这些光流来引导扩散模型进行运动编辑,并对运动表示进行解耦,以获得多视角一致的编辑结果。

多视角光流估计阶段MFES。与拖拽不同,光流具有表示像素级运动的能力。然而,直接从一个没有运动属性的静态场景中获取光流是非常具有挑战性的。因此,我们提出了 MFES,使用户能够交互式地获取多视角光流。如图1所示,具体而言,给定一个静态场景,包括多视角图像和重建的三维点云,我们首先使用 Mask Clustering对三维点进行分割,并通过用户交互式查询选择感兴趣的物体。在获取到感兴趣的物体之后,我们的核心思路是估算其运动后的三维点云。通过这种方式,我们可以通过将两种点云投影到二维空间来获得对应的多视角光流。

图片

然而,运动后的点云是难以获取的,因此,我们提出了点运动学模型PKM,用于估计适用于不同运动模式的点云,包括平移、缩放、旋转和拉伸。如图3所示。通过PKM,我们可以从三维点云中估计出多视角光流:

图片

图片

图片

图片

图片

图片

多视角运动扩散阶段MMDS。利用扩散模型进行运动编辑通常需要重新训练,这对计算资源和数据都有很高的要求。因此,在MMDS(如图2所示)中,我们提出了一种无需训练的零样本扩散模型,利用从MFES获得的多视角光流来指导Stable Diffusion完成运动编辑任务。我们将运动过程解耦为静态背景、运动对象和遮挡区域的组合,如图4所示。

图片

具体来说,在所有扩散步骤中,我们使用DDIM Inversion获取非移动区域的潜在变量,以防止静态背景结构被篡改。同时,我们在所有步骤中设计了流导向策略(Flow Guidance Strategy, FGS)来引导SD进行运动编辑。

从T步开始,我们引入了处理后的潜在空间融合(Latent Space Fusion, LSF)策略,以保持生成运动对象的纹理细节。为了保证生成遮挡区域的多视图一致性,我们引入了背景网格约束(Background Grid Constrain, BGC)。

最后,我们使用变分自编码器(VAE)解码预测的噪声潜在变量,从而获得多视角一致性的结果。这种方法避免了昂贵的重训练过程,并能够有效地支持多种运动编辑任务。

Experiments​

Main Results

图片

表2给出了MotionDiff和其它生成式运动编辑模型的对比,我们设计了专门用于运动编辑的评价指标。从表中可以发现,我们的方法作为一种无需训练的范式,具有较好的指标评估性能。此外,为了更全面的展示我们的方法的性能,我进行了了定性的评估:

图片

图片

如图5所示,我们分别展示了平移、缩放、旋转和拉伸的可视化对比结果。每一行展示了不同方法的编辑效果,每一列则代表来自同一场景的不同视角。为了更好地展示运动结果,我们对框选区域进行了放大显示。

结果显示,DiffEditor在一定程度上可以处理简单的运动,例如平移和缩放,但在应对更复杂的运动时存在局限(例如,在旋转中黑板的显示效果不理想)。此外,Motion Guidance因缺乏有效的纹理监督策略,在保持运动物体外观方面表现不佳,例如在平移过程中红色枕头的纹理细节丢失。

MagicFixup在单视角运动编辑中取得了令人满意的效果,但由于一致性约束不足,其在多视角运动编辑中的表现有限。

相比之下,MotionDiff在执行多样化运动的同时,能够有效保持多视角的一致性,展现出明显的优势。更多的实验结果和实验细节,欢迎阅读我们的论文原文以及补充材料。​

Ablation Studies

为了验证我们所提策略的有效性,我们设计了如下消融实验:

图片

如上图所示,分别对本文所提的策略,例如FGS,LSF等进行消融。缺失FGS无法得到合理的运动,缺失LSF无法保证运动纹理等。其余消融结果均无法取得满意的编辑效果。只有将他们组合起来才能得到高质量的编辑。这进一步证实了所提策略的有效性。

中山大学智能工程学院的前沿视觉实验室

( FVL: [https://fvl2020.framer.website/](https://fvl2020.framer.website/)  )由学院金枝教授建设并维护,实验室目前聚焦在图像/视频质量增强、视频编解码、3D 重建和无接触人体生命体征监测等领域的研究。旨在优化从视频图像的采集、传输到增强以及服务后端应用的完整周期。我们的目标是开发通用和高效的图像视频处理方法。为了应对这些挑战,我们将持之以恒地进行相关的研究,并与其他实验室进行合作,希望利用更多关键技术,解决核心问题。长期欢迎有志之士加入我们!

....

#AnyI2V

让任意图像‘活’起来,颠覆视频生成!点云、草图都能秒变动画!

本文介绍了一种名为AnyI2V的创新图像到视频生成框架,它能够将点云、草图等任意模态图像作为首帧输入,并结合用户定义的运动轨迹生成动画,无需额外训练即可实现高效灵活的视频生成,为视频创作带来了前所未有的自由度和多样性。

文章链接:​​https://arxiv.org/pdf/2507.02857​

项目链接:​​https://henghuiding.com/AnyI2V/​

图片

亮点直击

  • AnyI2V,它将首帧的空间条件与用户定义的运动轨迹相结合,分别控制内容布局和运动。此外,我们的免训练框架消除了训练负担,并简化了在不同骨干模型上的适配。
  • AnyI2V 具有极高的灵活性,支持多种类型的条件图像作为首帧输入。此外,AnyI2V 支持混合条件输入,并通过结合 LoRA 或不同的文本提示实现高效的视觉编辑,生成高度多样且视觉吸引力的结果。
  • 通过重新思考特征注入方式,并采用基于语义掩码的零样本轨迹控制,AnyI2V 在多样化场景中展现出卓越性能,大量实验验证了该方法的有效性。

总结速览解决的问题

  • 动态运动信号与空间约束的整合不足:现有文本到视频(T2V)方法依赖文本提示,缺乏对生成内容空间布局的精确控制;而图像到视频(I2V)方法受限于真实图像输入,难以灵活编辑内容。
  • 运动控制与训练成本问题:现有方法(如结合ControlNet的方案)通常缺乏显式的运动控制,且依赖计算昂贵的训练,灵活性受限。
  • 多模态输入支持不足:传统方法难以兼容非RGB模态(如点云、网格等),限制了生成视频的多样性和应用场景。​

提出的方案

AnyI2V框架

  • 训练自由的动画生成:无需额外训练,支持任意模态图像(如深度图、骨架、点云等)作为条件输入,并允许用户自定义运动轨迹。
  • 混合模态输入与编辑能力:支持多模态条件组合(如深度图+草图),并通过LoRA或文本提示实现风格迁移和内容编辑。
  • 三项核心技术
  • 结构保持的特征注入:提取输入图像的关键结构特征,抑制无关外观信息。
  • 跨帧对齐:基于空间自注意力中的查询(query)实现时序一致性。
  • 动态语义掩码生成:通过特征聚类生成自适应掩码,支持变形物体的精确运动控制。​

应用的技术

  • 扩散模型:基于现有视频扩散模型,无需额外训练模块。
  • 特征分析与PCA降维:通过主成分分析识别时序一致性强的关键特征(如空间自注意力中的query)。
  • 动态语义掩码:利用特征聚类生成随物体形变调整的掩码,提升运动控制的灵活性。
  • LoRA与文本提示:实现内容风格编辑和细节调整。​

达到的效果

  • 更灵活的控制:支持任意模态输入和用户定义的运动轨迹,实现空间布局与动态运动的协同控制。
  • 更高的生成质量:跨帧对齐和动态掩码技术保障了视频的时序一致性和物体形变的自然性。
  • 低成本与通用性:无需训练即可适配不同基模型,支持多模态混合输入和内容编辑,扩展了应用场景(如3D数据生成、风格化视频等)。
  • 实验验证:在多样化的条件输入和运动控制任务中表现优于现有方法。​

方法​

重新思考特征注入

给定一张图像,PnP 已证明扩散模型具备捕捉结构信息的能力。然而,PnP 在处理不同模态的图像时会遇到困难。本文通过替换特征进行实验,评估结构和外观的控制效果。

扩散模型通常在早期去噪阶段确定整体布局,而更精细的细节则在后期阶段建立。这一观察表明,扩散模型的特征在某个特定步骤  时,能在结构信息和纹理之间达到最佳平衡。因此,我们从 DDIM 反转的特定步骤  中提取特征用于注入。

本文研究在时间步骤  时,不同特征对生成结果的贡献。与使用 DDIM 反转末尾的噪声(保留大量外观信息)不同,本文从纯随机噪声开始,并每次仅注入一种特征。下图4直观展示了 ResBlock 和空间自注意力层特征的主要影响。值得注意的是,残差隐藏、查询和自注意力图各自都能独立实现令人满意的结构控制,其中残差隐藏尤为有效。然而,残差隐藏也包含了源图像的大部分外观信息,导致视觉保真度不佳。因此,为确保生成图像更贴合文本引导,我们对残差隐藏中的外观信息进行去偏,从而得到更符合上下文的结果。

图片

自适应实例归一化(AdaIN)是一种广泛用于保持源结构并迁移目标风格的技术。然而,原始的 AdalN专注于操作全局特征,导致局部质量较差。为解决这一问题,我们提出将注入的残差隐藏特征  和骨干网络的源残差隐藏  分块为非重叠的块  和  。随后,使用 AdalN 对这些分块特征进行操作,得到目标隐藏表示  。形式上,该操作表示为:

图片

其中  是输入特征, 是分块后的特征, 表示分块大小。AdalN操作表示为:

图片

其中  和  分别表示在空间维度上计算标准差和均值的函数。经过 AdalN 操作后,目标特征  被重新调整回原始维度以匹配输入特征图  。如前面图4所示,去偏后的残差隐藏特征展现出良好的结构保留和自然的外观表现。通过这种方式,特征注入操作能够有效处理不同模态的图像,同时防止外观信息泄露,保持结构和外观的保真度。

为了将特征注入扩展到视频扩散模型中以控制首帧,首先对单帧条件图像进行 DDIM 反转以提取其特征。基于图4的观察结果,通过注入去偏的残差隐藏状态和查询(query)来替换这些特征。为了确保空间自注意力中跨帧的内容一致性,我们通过将后续帧的键(key)和值(value)设置为与首帧匹配(即  和  )来强制时序一致性。这些策略不仅降低了获取目标特征的计算成本,还保持了首帧的结构控制和自然外观。​

零样本轨迹控制

本节将选择具有良好结构控制能力的特征,并利用 PCA 降维进一步分析它们在时间维度上的特性。这些特征通过 PCA 转换后的前三个主成分进行可视化。如下图5所示,比较了自注意力图、残差隐藏状态和注意力查询的降维特征,重点关注运动物体以评估其时序一致性和实体表示。

研究发现,自注意力图中的运动物体表现出较低的时序一致性,而残差隐藏状态和注意力查询在运动物体的时间轴上显示出强相关性。此外,残差隐藏特征捕捉了更细粒度的细节(未将物体视为连贯实体),而查询特征编码了更高层次的语义(将物体视为整体)。这一观察得出关键结论:对齐跨帧的时序一致且实体感知的特征可实现连贯的物体运动。通过将后续帧与注入的首帧对齐,实现了零样本轨迹控制。

图片

跨帧对齐:受先前工作 [29, 34] 启发,可通过优化隐空间变量实现对单图像的拖动效果。将此技术应用于轨迹控制中的跨帧对齐。基于分析结果,选择空间自注意力中的查询作为对齐目标。先前工作以点拖动方式优化隐空间变量,限制了优化区域。然而,为实现更灵活的物体控制(如移动物体的特定部分或整体位移),引入了边界框 ,其大小和位置可由用户逐帧定义。

此外,发现低秩主成分的时序一致性较差且难以定义清晰布局,因此进一步提出对齐通过 PCA 提取的查询特征的高秩主成分。最终,使用以下优化目标优化隐空间变量:

图片

其中  表示损失函数,由公式(8)定义, 表示边界框组的索引, 表示帧索引,运算符 SG 表示停止梯度操作。  表示提取的特征并通过边界框  进行裁剪。提取的特征定义为:

图片

其中 

 表示通道维度的主成分数量。值得注意的是,特征 

 对应于注入的首帧特征,且独立于 

 。​

语义掩码生成

上述边界框虽然提供了定义拖动目标区域的灵活性,但并不能始终实现精确的物体操控。许多物体具有不规则形状,这会导致非目标区域被优化,从而影响整体精度。同时,静态掩码虽能进一步限制优化区域,但也会约束自然形变,降低动态变换时的灵活性。为解决这些问题,本文提出了一种自适应语义掩码生成方法,该方法基于特征中编码的语义信息自动生成掩码。通过这种方式,可以对目标对象实现更精确、上下文敏感且自适应的控制,在保持结构完整性的同时允许自然运动。

给定注入的首帧特征  ,本文的目标是在所有特征  中生成与  语义内容对应的更精确掩码。首先,在特征  的边界框内选择显著点  以指示关键部位,其中  表示边界框的对应组索引, 表示点索引。对于所有帧,使用余弦相似度计算  与边界框  内特征之间的相似性,公式如下:

图片

其中  表示特征  在坐标  处的向量。由此可以得到第  组在第  帧上的聚合相似度图  ,其表达式如下:

图片

为了获得二值化掩码,对聚合相似度图应用K-Means聚类算法,其表达式如下:

图片

其中2表示二分类聚类。通过选择中心像素值较高的簇来确定前景。基于得到的掩码,我们将损失函数定义为:

图片

其中  表示逐像素乘法, 表示边界框组  中第1帧与第  帧间同一实例的重叠区域。

图片

实验

实现细节
基于AnimateDiff在单块Nvidia A800 GPU上实现本方法,整体流程如下图3所示。DDIM反转包含 1000步,特征提取步长  。解码器包含三个级联空间块(索引0、1、2),从up blocks. 1 和up blocks. 2注入索引为 0 和 1 的残差隐藏与查询,通过对齐up blocks. 1 的查询 1 和up blocks. 2 的查询 0 来优化隐空间变量噪声。残差隐藏去偏的块大小设为  ,PCA降维维度  。采用25步DDIM采样,每5步(  时)以 0.01 学习率优化隐空间变量。反转阶段和生成阶段在半精度模式下分别耗时约 8 秒和 35秒。

图片

定性评估

下图2展示了AnyI2V与前沿方法的对比结果。从生成图像和轨迹可视化可见,AnyI2V表现出可比性能。下图7进一步展示了AnyI2V处理自然场景和混合模态图像的能力。相比仅能处理真实RGB图像的方法,我们的方案显著提升了可编辑性与灵活性。

图片

图片

图片

图片

图片

图片

定量评估

本文从网络和VIPSeg数据集收集数据,使用Co-Tracker标注视频轨迹以确保高质量运动追踪。评估指标包括Fréchet Inception Distance (FID)、Fréchet Video Distance (FVD)和ObjMC(量化真实轨迹与生成结果的误差)。

为公平对比,将输入首帧随机转换为canny、HED、深度、法线和分割图等结构表示。AnyI2V直接使用这些表示,而其他方法需先通过ControlNet处理输入帧。如下表1所示,AnyI2V显著超越基线模型(指采用SparseCtrl的骨干模型,以零样本方式实验),并与前沿方法取得竞争性结果。

图片

消融研究

下表2、图8-10展示了不同设计选择的消融结果。表2显示,移除我们提出的组件或优化自注意力中的残差隐藏(而非查询)会降低生成视频的时序一致性(FVD指标)和目标物体控制精度(ObjMC指标)。图8折线图表明PCA维度  过小或过大均会损害性能:过小导致对齐信息不足,过大致使低秩成分一致性减弱。最终选择  为最优降维维度。

图片

图片

图9研究了不同时间步注入特征的影响:步长过小会导致过拟合低频纹理(产生伪影),过大则噪声特征阻碍布局捕捉。适当步长能平衡特征提取与结构保留。图10显示,移除残差隐藏会削弱物体细节控制(如长颈鹿腿部);未去偏会导致过拟合输入外观;未分块则去偏不彻底。我们的方案在保持布局控制的同时有效防止过拟合。

图片

图8柱状图对比了不同优化目标的效果。解码器中up blocks.i的第个查询记为Query i.j。结果显示,单独优化Query 1.1或Query 2.0效果最佳,而跨分辨率优化(如Query 1.1 & 2.0)能显著提升性能——因为多分辨率优化可同步捕获语义与结构信息(例如canny/HED条件中的空洞区域在低分辨率可能消失,而高分辨率保留纹理细节),从而增强精度与视觉保真度。​

泛化性

由于AnyI2V是免训练方法,进一步在多种T2V骨干模型(包括LaVie 和VideoCrafter2)上实现。图11所示结果凸显了其对不同架构的适应性,证明了方法的鲁棒性和强泛化能力。

图片

结论

AnyI2V——一种基于T2V骨干模型改造的免训练图像到视频(I2V)生成方法,通过整合任意模态的灵活空间条件和用户定义轨迹实现运动控制。与现有方法不同,AnyI2V无需大量训练即可跨骨干模型迁移,为实际应用提供了便利。

局限性与未来工作
尽管优势显著,AnyI2V仍存在局限:对超大运动范围和模糊遮挡物的控制不够精准,可能导致空间关系不明确;此外,由于特征注入仅发生在早期去噪阶段,首帧无法获得ControlNet等方法的精确控制效果。未来工作可聚焦于提升运动一致性、处理复杂遮挡,以及结合轻量化微调以增强适应性。​

参考文献

[1] AnyI2V: Animating Any Conditional Image with Motion Control

#PlayerOne

头号玩家来袭!香港大学与阿里达摩院联合打造自由动作控制的虚拟世界

香港大学和阿里达摩院联合提出了PlayerOne模型,该模型能够根据用户提供的图像构建一个支持自由动作控制且场景一致的真实世界虚拟环境。通过实时捕捉用户动作并将其融入虚拟场景,PlayerOne为沉浸式社交和游戏体验带来了新的可能性,具有广阔的应用前景。

香港大学和阿里达摩院联合提出头号玩家(PlayerOne)模型,该方法可以根据用户提供的图像构建一个支持用户自由动作控制且场景一致的真实世界,通过摄像设备实时捕捉用户的动作序列,PlayerOne能够将这些动态信息无缝融入到构建的虚拟世界中,使用户能够以第一人称视角,在如同顶级AAA游戏般的高质量场景中,自由地进行探索与互动。

论文标题:PlayerOne: EgocentricWorld Simulator

项目主页:https://playerone-hku.github.io/

论文链接:https://arxiv.org/abs/2506.09995

视频介绍:https://www.youtube.com/watch?v=OyvDTCIMYXU​

效果展示

论文首先展示了PlayerOne模拟的视频结果,如下所示,提出的算法可以准确的根据人物的动作生成对应场景一致的模拟视频,同时和周边环境有着良好的交互,方法的应用场景同时包含现实场景和游戏场景。该方法具有较强的应用前景,比如沉浸式社交:用户通过第一视角探索虚拟世界,动作(如手势、头部转动)实时驱动虚拟角色,增强交互自然性,同时相比传统VR预渲染场景,方法支持无限制动作控制(如自由行走、抓取物体),提升沉浸感,有着动态场景一致性。

以上所有的人物动作视频为了方便理解,均以前置相机拍摄(即模拟视频中左手与拍摄的动作视频中左侧的手部动作对应)​

方法介绍​

动机

通过弥补预测建模与交互式现实主义之间的差距,世界模拟器正成为下一代自主系统和游戏引擎的关键基础设施,尤其在需要实时适应复杂、动态交互的场景中。尽管取得了显著进展,但这一方向在现有研究中仍未得到充分探索。先前研究主要聚焦于游戏化环境中的模拟,未能复现现实场景。此外,在模拟环境中,用户仅能执行预设动作(即方向性移动)。受限于构建的世界框架,无法实现如现实场景中的无限制移动。尽管已有初步尝试致力于现实世界模拟,但其主要贡献在于世界一致性生成,而非人类动作控制。因此,用户在环境中被动地充当旁观者,而非积极参与者。这一限制显著影响用户体验,因为它阻碍了用户与模拟环境之间建立真实连接。面对这些挑战,论文旨在设计一个以第一人称视角的世界基础框架,使用户能够成为自由探索的冒险者。基于用户提供的第一人称视角的图像,该框架可让用户通过外视角摄像头实时捕捉的无限制的人体动作,在模拟的世界中进行自由的移动。

图片

算法整体框架基于DiT模型,模型的输入输出如下:

输入:1. 第一帧图像(First Frame):用户提供的初始场景图像(第一视角,如佩戴头显视角拍摄的厨房、驾驶座等)。 2. 人体动作序列(Human Motion Sequence):通过外视角摄像头捕捉的真实人体动作(如头部转动、手部抓取、腿部移动),以 SMPL-X 参数或 2D/3D 关键点形式表示。

输出:生成的模拟视频(Simulated Video):动态视频,严格对齐输入动作序列,保持场景几何一致性(如物体遮挡关系、光照变化随视角调整)。

具体而言,方法首先将第一人称视角图像转换为视觉token。同时人物动作序列被划分为多个组,并分别输入到动作编码器中以生成部件级动作潜在编码,其中头部参数被转换为仅旋转的摄像机序列。该摄像机序列随后通过摄像机编码器进行编码,其输出被注入到带噪声的视频潜伏向量中以改善视角变化对齐。接下来,论文使用原始的视频渲染一个4D 场景点云序列,该序列随后通过带适配器的点云编码器处理以生成场景潜在编码。然后论文将这些潜在编码的拼接输入到 DiT 模型中,并对视频和场景潜在编码同时进行噪声添加和去噪处理,以确保世界一致的生成。最后,通过VAE解码器对去噪后的潜变量进行解码以生成最终结果。需注意,推理仅需第一帧和人体动作序列。​

核心模块与流程​

部件解构的动作注入模块

先前研究通常将摄像机轨迹用作动作条件,或仅限于特定方向的动作。这些限制使用户只能扮演被动的“观察者”角色,阻碍了有意义的用户交互。相比之下,论文的方法通过采用现实世界中的人体动作序列(即人体姿态或关键点)作为动作条件,使用户能够成为积极的“参与者”,从而实现更自然且不受限制的动作。然而,论文的实证分析表明,从人体动作参数中整体提取潜在表示会增加精确动作对齐的复杂性。为解决这一挑战,论文提出了一种部分解耦的动作注入策略,该策略认识到身体各部分的不同作用。具体而言,手部动作对于与环境中的物体互动至关重要,而头部在维持第一人称视角的视角对齐方面发挥着关键作用。因此,论文将人体动作参数分为三类:躯干与双脚、双手和头部。每类参数均通过专属的动作编码器进行处理,该编码器由八层3D卷积网络组成,以提取相关潜在特征。这种专用处理确保了准确且同步的动作对齐。这些潜在特征随后沿通道维度进行拼接,形成最终的部件感知动作潜在表示。为了进一步增强第一人称视角对齐,论文仅将人体动作序列中的头部参数转换为仅包含旋转值的相机外参序列。论文清零相机外参中的平移值,同时假设头部参数位于相机坐标系的原点。​

场景帧共同重建

虽然上述模块能够实现对第一人称视角和动作的精确控制,但它并不能保证生成的世界中场景的一致性。为了解决这一限制,论文提出了一个联合重建框架,该框架同时建模4D场景和视频帧,确保视频全程的场景一致性和连续性。具体而言,该框架首先利用CUT3R基于原始的视频数据为每个帧生成点云图,并通过第1帧至第n帧的信息重建第n帧的点云图。随后,这些点云图通过专用点云编码器压缩为潜在表示。为将这些潜在表示与视频特征集成,论文使用一个适配器将点云图潜在表示与视频潜在表示对齐,并将其投影到共享的潜在空间中,从而实现动作数据与环境数据的无缝融合。最后,论文将第一帧的潜在表示、人体动作序列、噪声视频潜在表示以及对应的噪声点云图潜在表示进行拼接。该综合输入随后被输入到扩散变换器中进行去噪,从而生成一个连贯且视觉一致的世界。重要的是,点图仅在训练阶段需要。在推理阶段,系统通过仅使用第一帧和对应的人体动作序列来生成与世界一致的视频,从而简化了过程。这种简化的方法提高了生成效率,同时确保生成的环境在整个视频中保持稳定和现实。

图片

数据集构造

任务的理想训练样本是第一人称视角视频与对应的动作序列配对。然而,目前公开可用的数据集库中尚不存在此类数据集。作为替代方案,论文通过从现有第一人称-第三人称视角视频数据集中提取这些数据对。具体而言,对于每个同步的第一人称-第三人称视角视频对,论文首先使用SAM2在第三人称视角中检测最大的人体。随后,对背景去除后的第三人称视角视频使用SMPLest-X处理,提取识别个体的SMPL参数作为人体动作数据。为提升优化稳定性,引入L2正则化先验。接着,通过评估2D重投影一致性过滤掉低质量SMPL数据。这包括使用SMPLX从SMPL参数生成3D网格,使用相应的相机参数将3D关节投影到2D图像平面,并通过OpenPose提取2D关键点。重投影误差通过测量SMPL投影的2D关键点与OpenPose检测的关键点之间的距离来计算。将重投影误差位于前10%的数据对排除在外,确保最终数据集包含高质量的动作-视频对。精炼后的SMPL参数被分解为身体和脚部(66维)、头部方向(3维)以及手部关节(每只手45维)组件,每个帧均包含这些组件。这些组件被输入到各自的动作编码器中。数据集构建流程如上图所示。​

训练策略

尽管可以通过上述流程提取高质量的动作-视频训练数据,但该数据集的规模有限,不足以训练视频生成模型以生成高质量的自我中心视频。为解决此问题,论文利用了大规模的自我中心文本-视频数据集(即 Egovid-5M)。具体而言,论文首先使用LoRA在大型第一人称视角文本-视频数据对上对基线模型进行微调,实现粗粒度动作对齐的第一人称视角视频生成。随后,论文冻结已训练的LoRA,并使用构建的高质量数据集对模型最后六个块进行微调,以提升精细的人体动作对齐和视角不变的场景建模能力,这可有效解决成对数据匮乏的问题。最后,论文采用已有论文的不对称蒸馏策略,通过双向教师模型监督因果学生模型,实现实时生成和长时视频合成。​

实验结果

,时长00:05

图片

对于不同训练策略的消融对比

论文首先评估了提出的由粗到细的训练方案的几个变体,如视频所示,当将动作描述输入到基线模型中而未进行微调时,生成的结果会出现明显的缺陷,例如手部变形或意外出现的人员。类似的问题在仅使用动作-视频对进行训练时也能观察到。论文还探索了同时使用大规模第一人称视角视频和动作-视频对进行联合训练。具体而言,当输入第一人称视角视频时,把动作潜在编码设置为零,并提取文本描述的潜在值作为动作条件,同时采用平衡采样策略。尽管该变体能够生成第一人称视角视频,但其生成的结果与给定的人体动作条件无法准确对齐。相比之下,提出的由粗到细的训练方案相较于这些变体能产生明显更优的结果。

图片

对于部件解构的动作注入模块的消融对比

接下来,论文对解构模块进行了详细分析。具体而言,包含三种变体:基于ControlNet的动作注入、将动作序列作为统一实体输入(“耦合”方案)以及移除论文的摄像头编码器。基于ControlNet的方案存在信息丢失问题,导致其无法生成与指定动作条件准确对齐的结果。同样,纠缠方案也表现出类似的缺陷。此外,移除摄像头编码器导致模型无法生成视角准确的对齐结果。该变体无法产生与下蹲动作对应的视角变化。最终,提出的解构模块成功生成既视角对齐又动作对齐的结果。

图片

对于不同重建方式的消融对比

论文对重建模块进行了详细分析,探索了三种变体:省略重建、移除SR模块内的适配器,以及用DUStR替换CUT3R进行点云渲染。如图所示省略重建导致模型无法生成一致的模拟结果。此外,由于帧的潜在变量与点图之间的分布差异,在不使用适配器的情况下进行训练会导致损失收敛困难,从而产生明显的失真。此外,在用DUStR替换CUT3R后,算法也能生成与场景一致的输出,这表明其对不同的点云渲染技术具有鲁棒性。​

与其他方法的对比

由于没有与该人物设置相同的其他方法,论文选择了两个潜在的竞争对手进行比较:Cosmos 和 Aether。 如下方展示的样例所示(从左到右分别是PlayerOne,Cosmos-7B, Cosmos-14B, Aether),提出的方法相比于已有的方法在场景一致性以及环境交互角度有着较为明显的优势。​

未来展望

与传统模型仅限于特定游戏场景或动作不同,PlayerOne 能够捕捉一般世界环境的复杂动态,并实现模拟世界中的自由动作控制。尽管取得了一定的成果,但在游戏场景中的性能略逊于现实场景,这可能归因于现实与游戏训练数据分布的不平衡。未来研究可通过引入更多游戏场景数据集来解决这一问题。

....

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐