【AI论文与新生技术】Still-Moving：通过静态图片来定制生成视频内容

AI+视频生成 AIGC
来源：喜好儿网
7月15日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

定制文本到图像 (T2I) 模型最近取得了巨大进展，特别是在个性化、风格化和条件生成等领域。然而，将这一进展扩展到视频生成仍处于起步阶段，这主要是由于缺乏定制视频数据。在这项工作中，我们引入了 Still-Moving，这是一种新颖的通用框架，用于自定义文本到视频 (T2V) 模型，而不需要任何自定义视频数据。

该框架适用于著名的 T2V 设计，其中视频模型是基于文本到图像 (T2I) 模型构建的（例如，通过通货膨胀）。我们假设可以访问 T2I 模型的定制版本，仅在静态图像数据上进行训练（例如，使用 DreamBooth 或 StyleDrop）。天真地将定制 T2I 模型的权重插入 T2V 模型通常会导致严重的伪影或对定制数据的遵守不足。

【AI论文与新生技术】Still-Moving：通过静态图片来定制生成视频内容

为了克服这个问题，我们训练了轻量级空间适配器来调整注入的 T2I 层产生的特征。重要的是，我们的适配器接受了“冻结视频”（即重复图像）的训练，这些视频是根据定制 T2I 模型生成的图像样本构建的。这种训练是由一个新颖的运动适配器模块促进的，它允许我们在此类静态视频上进行训练，同时保留视频模型的运动先验。

在测试时，我们删除了运动适配器模块，只保留经过训练的空间适配器。这恢复了 T2V 模型的运动先验，同时遵循定制 T2I 模型的空间先验。我们展示了我们的方法在各种任务上的有效性，包括个性化、风格化和条件生成。在所有评估的场景中，我们的方法将定制 T2I 模型的空间先验与 T2V 模型提供的运动先验无缝集成。