排名第一!NVIDIA全新开源FoundationStereo:万能立体匹配!
我们引入了FoundationStereo,这是一个用于立体深度估计的基础模型,能够在无需微调的情况下在各种领域实现强大的零样本泛化。我们设想这样的基础模型将促进立体估计模型在实际应用中的更广泛采用。尽管其泛化能力显著,但我们的方法并非没有局限性。首先,我们的模型尚未针对效率进行优化,在NVIDIA A100 GPU上对大小为375 x1242的图像进行计算需要0.7秒。未来的工作可以探索将蒸馏和
0. 论文信息
标题:FoundationStereo: Zero-Shot Stereo Matching
作者:Bowen Wen, Matthew Trepte, Joseph Aribido, Jan Kautz, Orazio Gallo, Stan Birchfield
机构:NVIDIA
原文链接:https://arxiv.org/abs/2501.09898
代码链接:https://github.com/NVlabs/FoundationStereo/tree/master
1. 导读
在深度立体匹配方面取得了巨大的进展,通过每个域的微调,在基准数据集上表现出色。然而,对于立体匹配来说,实现强大的零镜头泛化(这是其他计算机视觉任务中基础模型的一个标志)仍然具有挑战性。我们介绍了FoundationStereo,这是一个用于立体深度估计的基础模型,旨在实现强零镜头泛化。为此,我们首先构建了一个大规模(1M立体对)的合成训练数据集,其特征是大多样性和高真实感,随后是一个自动自固化管道,以去除模糊样本。然后,我们设计了许多网络架构组件来增强可扩展性,包括一个侧调功能主干,它采用来自vision foundation模型的丰富的单目先验来缩小sim-to-real差距,以及用于有效成本体积过滤的远程上下文推理。这些组件共同带来跨领域的强大鲁棒性和准确性,建立了零炮立体深度估计的新标准。
2. 效果展示
在野外图像上的零样本预测。我们的方法适用于各种场景(室内/室外)、具有挑战性属性的物体(无纹理/反射/半透明/薄结构)、复杂的照明(阴影曝光)、各种视角和感知范围。
提交时在ETH 3D排名第一
我们与SOTA单目度量深度估计方法进行比较。尽管他们最近取得了进步,我们的仍然产生最精确的公制比例点云。
用于训练立体算法的合成数据集(不包括无法获取地面真实值的测试图像)。我们的数据集包括不同的内在属性和基线。
3. 方法
ST)将来自冻结的DepthAnvthingV2的丰富单目先验数据进行调整,同时结合多级CNN的细粒度高频特征进行一元特征提取。细心的混合成本滤波(AHCF)结合了轴平面卷积(APC)滤波和视差变换(disparity Transformer,DT)模块的优点,在4D混合成本体上有效地聚集了沿空间和视差维度的特征。然后根据过滤后的成本量预测初始差异,然后通过GRU块进行细化。在每次细化步骤中,使用最新的差异来查找来自过滤后的混合成本体积和关联体积的特征,以指导下一次细化。迭代细化的差异成为最终输出。
左图:STA模块的设计选择。右图:拟议的STA和AHCF模块的效果。“W/STA”仅使用CNN提取特征。“W/0 AHCF”使用基于3DCNN的传统网络进行成本体积滤波。结果是通过零样本推理获得的,无需对目标数据集进行微调。STA利用丰富的单目先验知识,可靠地预测光照不一致和暗吉他音孔的区域。AHCF有效地聚合了空间和长距离的视差上下文,以准确预测薄重复结构。
4. 实验结果
5. 总结 & 未来工作
我们引入了FoundationStereo,这是一个用于立体深度估计的基础模型,能够在无需微调的情况下在各种领域实现强大的零样本泛化。我们设想这样的基础模型将促进立体估计模型在实际应用中的更广泛采用。尽管其泛化能力显著,但我们的方法并非没有局限性。首先,我们的模型尚未针对效率进行优化,在NVIDIA A100 GPU上对大小为375 x1242的图像进行计算需要0.7秒。未来的工作可以探索将蒸馏和剪枝技术应用于其他视觉基础模型。其次,我们的数据集FSD包含有限的透明对象集合。通过在训练期间增加更多种类的完全透明对象,可以进一步增强鲁棒性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)