【AI论文与新生技术】Lotus:预测图像中每个像素的深度和法线信息扩散模型

想象一下,你给一个AI看一张图片,然后它能够神奇地预测出图片中每个点距离你有多远。这就像是给AI装上了一双能够感知深度的眼睛。而且,Lotus这个AI非常特别,它不需要看很多图片就能学会这个技能,甚至在看一张图片的时候,它也能注意到图片中的很多小细节。这就像是你在街上看到一辆车快速开过来,你能很快地判断它的距离一样。Lotus能够迅速地给出准确的预测,而且它处理信息的速度非常快,这对于很多需要快速反应的应用来说非常有用,比如自动驾驶的汽车或者制作3D电影。

利用预先训练的文本到图像扩散模型的视觉先验提供了一种有前途的解决方案,可以增强密集预测任务中的零样本泛化。然而,现有的方法通常不加批判地使用原始的扩散公式,由于密集预测和图像生成之间的根本差异,这可能不是最佳的。

【AI论文与新生技术】Lotus:预测图像中每个像素的深度和法线信息扩散模型

在本文中,我们对密集预测的扩散公式进行了系统分析,重点关注质量和效率。我们发现用于图像生成的原始参数化类型学习预测噪声,这对于密集预测是有害的;多步噪声/去噪扩散过程也是不必要的并且优化起来具有挑战性。基于这些见解,我们引入了 Lotus,这是一种基于扩散的视觉基础模型,具有简单而有效的密集预测适应协议。具体来说,Lotus 经过训练可以直接预测注释而不是噪声,从而避免有害的方差。

我们还将扩散过程重新表述为单步过程,简化了优化并显着提高了推理速度。此外,我们引入了一种称为细节保留器的新颖调整策略,它可以实现更准确和更细粒度的预测。在不扩展训练数据或模型容量的情况下,Lotus 在零样本深度和跨各种数据集的正常估计方面实现了 SoTA 性能。它还显着提高了效率,比大多数现有的基于扩散的方法快数百倍。

(预测图像中每个像素的深度和法线信息扩散模型Lotus详情👇)

 【AI论文与新生技术】Lotus:预测图像中每个像素的深度和法线信息扩散模型

Lotus技术原理

  1. 扩散模型:Lotus基于一种叫做扩散模型的技术,这种技术最初是用来生成图像的,但Lotus的创造者们发现它可以重新调整来预测图像的几何特性。
  2. 直接预测:不同于其他模型,Lotus直接预测注释(比如深度信息),而不是像其他模型那样预测噪声。
  3. 单步扩散:Lotus将复杂的多步骤扩散过程简化为单步过程,这样不仅提高了预测的速度,还提升了效率。
  4. 细节保护:Lotus有一个特殊的机制来保护图像中的细节,这样在预测的时候能够保留更多精细的信息。

Lotus的功能

  1. 高质量的密集预测:Lotus能够预测图像中每个像素的深度和法线信息。
  2. 零样本学习:即使没有大量的训练样本,Lotus也能很好地工作。
  3. 高效快速:Lotus的预测速度非常快,比现有的大多数基于扩散的方法要快几百倍。

Lotus的应用场景

  1. 3D/4D重建:在只有一张图片的情况下,Lotus可以帮助重建出3D模型或者4D动画。
  2. 跟踪:在视频中,Lotus可以用来跟踪物体的移动。
  3. 自动驾驶:在自动驾驶汽车中,Lotus可以帮助车辆更好地理解周围的环境。
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索