【AI论文与新生技术】阿里巴巴MIMO:输入角色图片替换视频中的指定人物对象

通过这个视频生成视频模型,我们可以拍摄自己的视频,并用它来为我们创建的任何角色制作动画,同时保留视频的原始背景。就像我们将自己带入任何其他新世界一样!

角色视频合成旨在在逼真的场景中生成可动画角色的逼真视频。作为计算机视觉和图形领域的一个基本问题,3D 作品通常需要多视图捕获来进行逐例训练,这严重限制了它们在短时间内建模任意角色的适用性。最近的 2D 方法通过预先训练的扩散模型打破了这一限制,但它们在姿势通用性和场景交互方面存在困难。

为此,我们提出了 MIMO,一种新颖的框架,它不仅可以合成具有由简单用户输入提供的可控属性(即角色、动作和场景)的角色视频,而且还可以同时实现对任意角色的高级可扩展性、对新颖 3D 的通用性动作以及在统一框架中对交互式现实世界场景的适用性。其核心思想是考虑到视频发生的固有 3D 性质,将 2D 视频编码为紧凑的空间代码。

具体来说,我们使用单目深度估计器将 2D 帧像素提升为 3D,并根据 3D 深度将视频剪辑分解为分层中的三个空间分量(即主要人物、底层场景和浮动遮挡)。这些成分进一步被编码为规范的身份代码、结构化运动代码和全场景代码,用作合成过程的控制信号。空间分解建模的设计实现了灵活的用户控制、复杂的运动表达以及场景交互的3D感知合成。实验结果证明了该方法的有效性和鲁棒性。

(阿里巴巴MIMO输入角色图片替换视频中的指定人物对象项目详情👇)

AI论文与新生技术专题:
https://heehel.com/collection/topic-aipapers-jiaocheng

简单来说,MIMO可以让用户通过简单的输入,比如一张图片、一个姿势序列或一段视频,来控制和生成具有特定特征(如角色、动作和场景)的动画视频。

MIMO技术原理

  1. 空间分解建模:MIMO通过将2D视频转换成3D空间代码,将视频中的主要人物、背景场景和遮挡物体分开处理。
  2. 层次化空间层分解:它将视频分解成三个主要部分:人物、场景和遮挡物,然后分别对它们进行编码。
  3. 人体编码:MIMO进一步将人体组件的属性(如身份和动作)进行分离,并编码成身份代码和动作代码。
  4. 场景和遮挡编码:使用共享的VAE编码器来处理场景和遮挡物,并将它们重新组织成完整的场景代码。
  5. 合成解码:将分解出的属性代码重新组合,作为扩散式解码器的条件,用于视频重构。

MIMO功能

  1. 任意角色控制:MIMO可以让用户控制视频中的人物,无论是真实人物、卡通角色还是拟人化角色。
  2. 新颖3D动作控制:MIMO能够处理新的3D动作,如跳舞、打球等。
  3. 交互式场景控制:MIMO可以将角色无缝地插入到真实场景中,即使场景中有复杂的物体交互和遮挡。

MIMO应用场景

  1. 电影制作:可以用来创造电影中的动画角色。
  2. 虚拟现实:在虚拟环境中创建动态人物。
  3. 动画:制作动画片时,为角色设计动作和场景。

如果你想要创造一个视频,里面有你喜欢的卡通角色在一个真实的世界里跳舞。你只需要给MIMO一张这个卡通角色的图片,一段舞蹈的动作序列,还有一段真实的世界视频。MIMO会把这些信息混合在一起,创造出一个新的视频,视频中卡通角色在真实的世界里跳舞,就像它真的在那里一样。这个技术很厉害,因为它可以处理很多复杂的事情,比如角色跳舞时衣服的摆动,或者它在视频中遮挡了背景物体。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索