MOFA-Video MOFA-视频:通过冻结图像到视频扩散模型中的生成运动场适应实现可控图像动画

MOFA-Video 是一种图像动画技术,能够通过各种控制信号(轨迹、关键点序列及其组合)对单个图像进行动画处理。该技术基于冻结视频扩散模型,采用稀疏到密集(S2D)运动生成和基于流的运动自适应。

AIGC专区:
https://heehel.com/category/aigc

更多消息:
https://heehel.com/category/ai-news

项目介绍:https://myniuuu.github.io/MOFA_Video/

论文链接:https://huggingface.co/papers/2405.20222

我们提出了 MOFA-Video,一种先进的可控图像动画方法,它使用各种附加可控信号(例如人类地标参考、手动轨迹和另一个甚至提供的视频)或其组合从给定图像生成视频。这与以前的方法不同,以前的方法只能在特定的运动域上工作,或者在扩散先验的情况下表现出较弱的控制能力。

为了实现我们的目标,我们设计了几个领域感知运动场适配器(即 MOFA 适配器)来控制视频生成管道中生成的运动。对于 MOFA-Adapters,我们考虑视频的时间运动一致性,首先从给定的稀疏控制条件生成密集运动流,然后将给定图像的多尺度特征包装为稳定视频扩散的引导特征一代。

我们天真地分别为手动轨迹和人类地标训练两个运动适配器,因为它们都包含有关控制的稀疏信息。经过训练,不同领域的 MOFA-Adapter 还可以协同工作,以实现更可控的视频生成。

在训练阶段,我们通过稀疏运动采样生成稀疏控制信号,然后训练不同的 MOFA-Adapter 通过预训练的 SVD 生成视频。在推理阶段,可以组合不同的MOFA-Adapter来共同控制冻结的SVD。

功能模块:

  1. 基于轨迹的图像动画:
  2. 利用图像和轨迹数据生成动画输出。
  3. 基于关键点的面部图像动画

从驱动视频和驱动音频中提取关键点进行动画制作。

  1. 零射击功能(Zero-Shot Functionalities):
  2. 混合控制(Hybrid Control): 结合图像、控制信号和地标生成动画。
  3. 运动画笔(Motion Brush): 通过轨迹和画笔工具直接对图像进行动画处理。
  4. 通过光流直接控制(Direct Control via Optical Flow): 使用光流数据直接控制动画输出。
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索