【AI论文与新生技术】L4GM:大型4D高斯重建模型,可生成高质量的动画 3D 资产

【AI论文与新生技术】L4GM:大型4D高斯重建模型,可生成高质量的动画 3D 资产

3D资产是指在三维空间中创建的数字化资源,这些资源通常包括3D模型、纹理、动画等,被广泛应用于游戏、影视、建筑、教育等多个产业。

这是第一个 4D 大型重建模型,它可以通过单视图视频输入生成动画对象,只需一秒钟的一次前馈传递。我们成功的关键是一个新颖的多视图视频数据集,其中包含来自 Objaverse 的精选、渲染的动画对象。

该数据集描绘了 44K 个不同的对象,并在 48 个视点渲染了 110K 个动画,从而生成了 1200 万个视频,总共 3 亿帧。我们保持 L4GM 的简单性以实现可扩展性,并直接构建在 LGM 之上,LGM 是一种预训练的 3D 大型重建模型,可从多视图图像输入输出 3D 高斯椭球体。

【AI论文与新生技术】L4GM:大型4D高斯重建模型,可生成高质量的动画 3D 资产

L4GM 从以低 fps 采样的视频帧中输出每帧 3D 高斯泼溅表示,然后将表示上采样到更高的 fps 以实现时间平滑性。我们向基础 LGM 添加时间自注意力层,以帮助其学习跨时间的一致性,并利用每个时间步多视图渲染损失来训练模型。通过训练产生中间 3D 高斯表示的插值模型,将表示上采样到更高的帧速率。我们展示了仅接受合成数据训练的 L4GM 在野外视频上的泛化能力非常好,可生成高质量的动画 3D 资产。

论文链接:https://huggingface.co/papers/2406.10324

官方介绍:https://research.nvidia.com/labs/toronto-ai/l4gm/

L4GM是一种新型的人工智能技术,它能让人们用一段视频快速创造出三维动画。就像有了一台神奇的相机,你只需要给它看一段视频,它就能把视频中的物体变成能在虚拟世界里动来动去的三维模型。

喜好儿认为,这项技术对于制作动画片、电子游戏或者增强现实应用非常有帮助,因为它可以节省很多时间和精力。想象一下,如果你是一个动画师,以前你可能需要花很多时间一帧一帧地画出角色的每一个动作,但现在有了L4GM,你只需要提供一段视频,它就能自动帮你完成大部分工作。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索