【AI论文与新生技术】阿里巴巴MIMO：输入角色图片替换视频中的指定人物对象

AIGC AI+视频生成
来源：喜好儿网
9月26日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

通过这个视频生成视频模型，我们可以拍摄自己的视频，并用它来为我们创建的任何角色制作动画，同时保留视频的原始背景。就像我们将自己带入任何其他新世界一样！

角色视频合成旨在在逼真的场景中生成可动画角色的逼真视频。作为计算机视觉和图形领域的一个基本问题，3D 作品通常需要多视图捕获来进行逐例训练，这严重限制了它们在短时间内建模任意角色的适用性。最近的 2D 方法通过预先训练的扩散模型打破了这一限制，但它们在姿势通用性和场景交互方面存在困难。

为此，我们提出了 MIMO，一种新颖的框架，它不仅可以合成具有由简单用户输入提供的可控属性（即角色、动作和场景）的角色视频，而且还可以同时实现对任意角色的高级可扩展性、对新颖 3D 的通用性动作以及在统一框架中对交互式现实世界场景的适用性。其核心思想是考虑到视频发生的固有 3D 性质，将 2D 视频编码为紧凑的空间代码。

具体来说，我们使用单目深度估计器将 2D 帧像素提升为 3D，并根据 3D 深度将视频剪辑分解为分层中的三个空间分量（即主要人物、底层场景和浮动遮挡）。这些成分进一步被编码为规范的身份代码、结构化运动代码和全场景代码，用作合成过程的控制信号。空间分解建模的设计实现了灵活的用户控制、复杂的运动表达以及场景交互的3D感知合成。实验结果证明了该方法的有效性和鲁棒性。

文章目录

(阿里巴巴MIMO输入角色图片替换视频中的指定人物对象项目详情👇)

AI论文与新生技术专题：
https://heehel.com/collection/topic-aipapers-jiaocheng

简单来说，MIMO可以让用户通过简单的输入，比如一张图片、一个姿势序列或一段视频，来控制和生成具有特定特征（如角色、动作和场景）的动画视频。

MIMO技术原理

空间分解建模：MIMO通过将2D视频转换成3D空间代码，将视频中的主要人物、背景场景和遮挡物体分开处理。
层次化空间层分解：它将视频分解成三个主要部分：人物、场景和遮挡物，然后分别对它们进行编码。
人体编码：MIMO进一步将人体组件的属性（如身份和动作）进行分离，并编码成身份代码和动作代码。
场景和遮挡编码：使用共享的VAE编码器来处理场景和遮挡物，并将它们重新组织成完整的场景代码。
合成解码：将分解出的属性代码重新组合，作为扩散式解码器的条件，用于视频重构。

MIMO功能

任意角色控制：MIMO可以让用户控制视频中的人物，无论是真实人物、卡通角色还是拟人化角色。
新颖3D动作控制：MIMO能够处理新的3D动作，如跳舞、打球等。
交互式场景控制：MIMO可以将角色无缝地插入到真实场景中，即使场景中有复杂的物体交互和遮挡。

MIMO应用场景

电影制作：可以用来创造电影中的动画角色。
虚拟现实：在虚拟环境中创建动态人物。
动画：制作动画片时，为角色设计动作和场景。

如果你想要创造一个视频，里面有你喜欢的卡通角色在一个真实的世界里跳舞。你只需要给MIMO一张这个卡通角色的图片，一段舞蹈的动作序列，还有一段真实的世界视频。MIMO会把这些信息混合在一起，创造出一个新的视频，视频中卡通角色在真实的世界里跳舞，就像它真的在那里一样。这个技术很厉害，因为它可以处理很多复杂的事情，比如角色跳舞时衣服的摆动，或者它在视频中遮挡了背景物体。