【AI论文与新生技术】Shape of Motion：从单个视频进行 4D 重建通用动态场景的方法

AI+3D AIGC
来源：喜好儿网
7月19日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

由于任务的高度不适定性质，单眼动态重建是一个具有挑战性且长期存在的视觉问题。现有方法的局限性在于它们要么依赖于模板，要么仅在准静态场景中有效，要么无法显式地对 3D 运动进行建模。

在这项工作中，我们介绍了一种能够从随意捕捉的单眼视频中重建通用动态场景的方法——Shape of Motion，该场景具有明确的、全序列长的 3D 运动。我们通过两个关键见解来解决该问题的约束不足性质：首先，我们通过使用一组紧凑的 SE3 运动基础来表示场景运动，从而利用 3D 运动的低维结构。

每个点的运动都表示为这些基础的线性组合，有助于将场景软分解为多个刚性移动的组。其次，我们利用一套全面的数据驱动先验，包括单目深度图和远程 2D 轨迹，并设计一种方法来有效地整合这些噪声监控信号，从而产生动态场景的全局一致表示。实验表明，我们的方法在远程 3D/2D 运动估计和动态场景上的新颖视图合成方面均实现了最先进的性能。

（Shape of Motion项目链接在下方👇）

Shape of Motion项目链接：https://shape-of-motion.github.io/

Shape of Motion论文链接：https://huggingface.co/papers/2407.13764

AI论文与新生技术专题：
https://heehel.com/collection/topic-aipapers-jiaocheng

简单来说，就像给一个复杂的动态场景拍视频，然后用一种特殊的技术从视频中提取出每个物体在空间中移动的完整路径，并且能够从不同的角度重新渲染这个场景。这就像是在视频中“抓住”物体的运动，然后从任何你想要的视角重新“播放”这些运动。

研究人员利用两个关键的洞察来解决这个问题：

三维运动的低维结构：他们发现，尽管图像空间中的动态可能复杂且不连续，但底层的三维运动实际上是由简单、连续的刚体运动组成的。这意味着可以通过一组紧凑的运动基来表示场景的运动，每个点的运动可以表示为这些基的线性组合。
数据驱动的先验知识：他们使用包括单目深度图和长距离二维轨迹在内的一系列数据驱动的先验知识，并通过一种方法将这些嘈杂的信号整合在一起，从而得到一个全局一致的动态场景表示。

喜好儿看见通过这种方法，研究人员能够从随意拍摄的单目视频中重建出动态场景的完整三维运动轨迹。实验表明，这种方法在长距离三维/二维运动估计和动态场景的新视角合成方面都达到了最先进的性能。