4Diffusion：用于生成高质量时空一致 4D 内容的多视图视频扩散模型

+AI动态 AIGC
6月3日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

TL;DR：我们提出了一种新颖的 4D 生成管道，可以使用多视图视频扩散模型从单目视频生成高质量时空一致的 4D 内容。

当前的 4D 生成方法在先进的扩散生成模型的帮助下取得了显着的效果。然而，这些方法缺乏多视图时空建模，并且在整合来自多个扩散模型的不同先验知识方面遇到挑战，导致时间外观不一致和闪烁。在本文中，我们提出了一种新颖的 4D 生成管道，即 4Diffusion，旨在从单目视频生成时空一致的 4D 内容。

我们首先设计了一个针对多视图视频生成的统一扩散模型，将可学习的运动模块合并到冻结的 3D 感知扩散模型中，以捕获多视图时空相关性。在对精选数据集进行训练后，我们的扩散模型获得了合理的时间一致性，并本质上保留了 3D 感知扩散模型的通用性和空间一致性。随后，我们提出了基于我们的多视图视频扩散模型的 4D 感知分数蒸馏采样损失，以优化动态 NeRF 参数化的 4D 表示。其目的是消除多个扩散模型引起的差异，从而生成时空一致的 4D 内容。

4Diffusion：用于生成高质量时空一致 4D 内容的多视图视频扩散模型

AIGC专区：
https://heehel.com/category/aigc

工具箱：
https://heehel.com/ai-tools#ai-3d

实现方法：

我们的方法首先通过在 ImageDream 的每个冻结空间模块的末尾插入可学习的运动模块来训练统一扩散，称为 4DM，以捕获多视图时空相关性。给定单眼视频和文本提示，4DM 可以生成一致的多视图视频。然后，我们结合 4D 感知 SDS 和基于 4DM 的锚损失来优化 Dynamic NeRF 参数化的 4D 表示。

我们在单目视频转 4D 任务上将 4Diffusion 与 4D-fy、Consistent4D 和 DreamGaussian4D 进行比较。 4Diffusion 通过我们的多视图视频扩散模型 4DM 生成高质量的 4D 内容。

方法详解：

4Diffusion的工作流程如下：