4Diffusion:用于生成高质量时空一致 4D 内容的多视图视频扩散模型

TL;DR:我们提出了一种新颖的 4D 生成管道,可以使用多视图视频扩散模型从单目视频生成高质量时空一致的 4D 内容。

当前的 4D 生成方法在先进的扩散生成模型的帮助下取得了显着的效果。然而,这些方法缺乏多视图时空建模,并且在整合来自多个扩散模型的不同先验知识方面遇到挑战,导致时间外观不一致和闪烁。在本文中,我们提出了一种新颖的 4D 生成管道,即 4Diffusion,旨在从单目视频生成时空一致的 4D 内容。

我们首先设计了一个针对多视图视频生成的统一扩散模型,将可学习的运动模块合并到冻结的 3D 感知扩散模型中,以捕获多视图时空相关性。在对精选数据集进行训练后,我们的扩散模型获得了合理的时间一致性,并本质上保留了 3D 感知扩散模型的通用性和空间一致性。随后,我们提出了基于我们的多视图视频扩散模型的 4D 感知分数蒸馏采样损失,以优化动态 NeRF 参数化的 4D 表示。其目的是消除多个扩散模型引起的差异,从而生成时空一致的 4D 内容。

4Diffusion:用于生成高质量时空一致 4D 内容的多视图视频扩散模型

AIGC专区:
https://heehel.com/category/aigc

工具箱:
https://heehel.com/ai-tools#ai-3d

实现方法:

我们的方法首先通过在 ImageDream 的每个冻结空间模块的末尾插入可学习的运动模块来训练统一扩散,称为 4DM,以捕获多视图时空相关性。给定单眼视频和文本提示,4DM 可以生成一致的多视图视频。然后,我们结合 4D 感知 SDS 和基于 4DM 的锚损失来优化 Dynamic NeRF 参数化的 4D 表示。

我们在单目视频转 4D 任务上将 4Diffusion 与 4D-fy、Consistent4D 和 DreamGaussian4D 进行比较。 4Diffusion 通过我们的多视图视频扩散模型 4DM 生成高质量的 4D 内容。

方法详解:

4Diffusion的工作流程如下:

  1. 预训练的3D感知扩散模型:作为统一扩散模型的初始化,这种模型能够从多视角图像中学习空间关系。
  2. 多视角视频扩散模型(4DM):在保持空间一致性的同时,通过在3D感知扩散模型中添加运动模块来实现时间建模。
  3. 动态NeRF表示:使用神经网络或显式空间网格将6D时空坐标映射到动态场景的密度和颜色。
  4. 4D感知SDS:利用4DM生成的多视角视频来提供梯度,更新动态NeRF表示。
  5. 锚定损失:使用4DM生成的锚定视频来增强动态NeRF学习过程中的外观细节。

视频转 4D 生成:

我们在单目视频转 4D 任务上将 4Diffusion 与 4D-fy、Consistent4D 和 DreamGaussian4D 进行比较。 4Diffusion 通过我们的多视图视频扩散模型 4DM 生成高质量的 4D 内容。

多视图视频生成:

我们的多视图视频扩散模型 4DM 捕获多视图时空相关性,促进多视图视频的生成。

消融研究:

 

实验结果:
通过定性和定量实验,4Diffusion在多视角视频生成和从单目视频生成4D内容方面均取得了优于先前方法的性能。实验包括与现有方法的比较、多视角视频生成质量的评估,以及对所提出方法不同组件有效性的消融研究。

结论:
4Diffusion通过其创新的多视角视频扩散模型和优化策略,成功地从单目视频生成了高质量的空间-时间一致的4D内容。这项工作不仅展示了在4D内容创建方面的潜力,还为未来的研究和应用提供了新的方向。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索