【AI论文与新生技术】VD3D:驯服大型视频扩散变压器以实现 3D 摄像机控制

现代文本到视频合成模型展示了从文本描述中连贯、逼真地生成复杂视频。然而,大多数现有模型缺乏对相机移动的细粒度控制,这对于与内容创建、视觉效果和 3D 视觉相关的下游应用程序至关重要。

最近,VD3D的新方法展示了生成具有可控相机姿势的视频的能力——这些技术利用预先训练的基于 U-Net 的扩散模型,明确地解开空间和时间生成。尽管如此,现有的方法还没有能够对新的基于变压器的视频扩散模型进行相机控制,这些模型可以联合处理空间和时间信息。

在这里,我们建议使用类似 ControlNet 的调节机制来驯服视频转换器以进行 3D 相机控制,该机制结合了基于 Plucker 坐标的时空相机嵌入。该方法在 RealEstate10K 数据集上进行微调后,展示了可控视频生成的最先进性能。据我们所知,我们的工作是第一个为基于变压器的视频扩散模型启用相机控制的工作。

(VD3D项目文件资料链接在下方👇)

AI论文与新生技术专题:
https://heehel.com/collection/topic-aipapers-jiaocheng

简单来说,就像你用相机拍摄视频时可以控制镜头的远近和方向一样,AI现在也能通过学习,更好地控制生成视频中的相机运动。这使得生成的视频更自然,更符合人们观看视频时的期望。

实现方法

【AI论文与新生技术】VD3D:驯服大型视频扩散变压器以实现 3D 摄像机控制

我们采用 Snap Video FIT 架构来整合摄像机控制。我们将每个视频帧的噪声输入视频、相机外部参数和相机内部参数作为输入。使用相机参数,我们计算视频帧内每个像素的普吕克坐标。输入视频和 Plücker 坐标系都被转换为补丁标记,我们使用类似于 ControlNet 的机制来调节视频补丁标记。然后,该模型通过反复应用 FIT 块来估计去噪视频。每个块将补丁令牌中的信息读取到一小组潜在令牌中,并在其上执行计算。结果在迭代去噪扩散过程中写入补丁标记。

动态场景的 3D 摄像机控制

【AI论文与新生技术】VD3D:驯服大型视频扩散变压器以实现 3D 摄像机控制

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索