MOFA-Video 是一种图像动画技术,能够通过各种控制信号(轨迹、关键点序列及其组合)对单个图像进行动画处理。该技术基于冻结视频扩散模型,采用稀疏到密集(S2D)运动生成和基于流的运动自适应。
AIGC专区:
https://heehel.com/category/aigc
更多消息:
https://heehel.com/category/ai-news
项目介绍:https://myniuuu.github.io/MOFA_Video/
论文链接:https://huggingface.co/papers/2405.20222
我们提出了 MOFA-Video,一种先进的可控图像动画方法,它使用各种附加可控信号(例如人类地标参考、手动轨迹和另一个甚至提供的视频)或其组合从给定图像生成视频。这与以前的方法不同,以前的方法只能在特定的运动域上工作,或者在扩散先验的情况下表现出较弱的控制能力。
为了实现我们的目标,我们设计了几个领域感知运动场适配器(即 MOFA 适配器)来控制视频生成管道中生成的运动。对于 MOFA-Adapters,我们考虑视频的时间运动一致性,首先从给定的稀疏控制条件生成密集运动流,然后将给定图像的多尺度特征包装为稳定视频扩散的引导特征一代。
我们天真地分别为手动轨迹和人类地标训练两个运动适配器,因为它们都包含有关控制的稀疏信息。经过训练,不同领域的 MOFA-Adapter 还可以协同工作,以实现更可控的视频生成。
在训练阶段,我们通过稀疏运动采样生成稀疏控制信号,然后训练不同的 MOFA-Adapter 通过预训练的 SVD 生成视频。在推理阶段,可以组合不同的MOFA-Adapter来共同控制冻结的SVD。
功能模块:
- 基于轨迹的图像动画:
- 利用图像和轨迹数据生成动画输出。
- 基于关键点的面部图像动画:
从驱动视频和驱动音频中提取关键点进行动画制作。
- 零射击功能(Zero-Shot Functionalities):
- 混合控制(Hybrid Control): 结合图像、控制信号和地标生成动画。
- 运动画笔(Motion Brush): 通过轨迹和画笔工具直接对图像进行动画处理。
- 通过光流直接控制(Direct Control via Optical Flow): 使用光流数据直接控制动画输出。