【AI论文与新生技术】Still-Moving:通过静态图片来定制生成视频内容

定制文本到图像 (T2I) 模型最近取得了巨大进展,特别是在个性化、风格化和条件生成等领域。然而,将这一进展扩展到视频生成仍处于起步阶段,这主要是由于缺乏定制视频数据。在这项工作中,我们引入了 Still-Moving,这是一种新颖的通用框架,用于自定义文本到视频 (T2V) 模型,而不需要任何自定义视频数据。

该框架适用于著名的 T2V 设计,其中视频模型是基于文本到图像 (T2I) 模型构建的(例如,通过通货膨胀)。我们假设可以访问 T2I 模型的定制版本,仅在静态图像数据上进行训练(例如,使用 DreamBooth 或 StyleDrop)。天真地将定制 T2I 模型的权重插入 T2V 模型通常会导致严重的伪影或对定制数据的遵守不足。

【AI论文与新生技术】Still-Moving:通过静态图片来定制生成视频内容

为了克服这个问题,我们训练了轻量级空间适配器来调整注入的 T2I 层产生的特征。重要的是,我们的适配器接受了“冻结视频”(即重复图像)的训练,这些视频是根据定制 T2I 模型生成的图像样本构建的。这种训练是由一个新颖的运动适配器模块促进的,它允许我们在此类静态视频上进行训练,同时保留视频模型的运动先验。

在测试时,我们删除了运动适配器模块,只保留经过训练的空间适配器。这恢复了 T2V 模型的运动先验,同时遵循定制 T2I 模型的空间先验。我们展示了我们的方法在各种任务上的有效性,包括个性化、风格化和条件生成。 在所有评估的场景中,我们的方法将定制 T2I 模型的空间先验与 T2V 模型提供的运动先验无缝集成。

(Still-Moving项目介绍链接在下方👇)

想象一下,你有一张图片,想让它动起来,变成一个视频,而且希望视频中的对象按照你的想象来移动。以前,这需要大量的视频数据来训练电脑,让它学会如何让图片动起来。但现在,Still-Moving技术让这个过程变得简单了。

喜好儿认为,通过Still-Moving,用户可以轻松地将个性化或风格化的静态图像转换成视频,无论是个性化视频生成、风格化视频生成,还是条件视频生成,都能实现。这意味着,即使是没有专业视频制作技能的人,也能创造出具有个性化和风格化特征的视频内容。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索