【AI论文与新生技术】FancyVideo：走向动态和一致通过跨帧文本指导生成视频

AI+视频生成 AIGC
来源：喜好儿网
8月16日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

喜好儿小斥候消息，在人工智能领域，合成具有丰富运动和时间一致性的视频一直是一个挑战，尤其是在处理较长时间跨度的场景时。现有的文本到视频（T2V）模型大多依赖于空间交叉注意力机制来控制文本，这相当于在没有特定于帧的文本指导的情况下，分别指导每一帧的生成。因此，这些模型在理解提示中的时间逻辑以及生成连贯运动视频方面存在局限。

一只戴着墨镜主持脱口秀的熊

一张柯基犬在时代广场骑自行车的照片。它戴着太阳镜和沙滩帽。

印象派风格，日落时波浪上漂浮的黄色橡皮鸭

文章目录

(FancyVideo项目文件资料链接在下方👇)

为了克服这一限制，研究者们推出了FancyVideo，这是一种创新的视频生成器。它通过一个精心设计的跨帧文本引导模块（CTGM）来改进现有的文本控制机制。CTGM在交叉注意力的开始、中间和结束阶段分别集成了时间信息注入器（TII）、时间亲和优化器（TAR）和时间特征增强器（TFB），以实现对每一帧的文本指导。

TII首先将特定于帧的信息注入到文本条件中，以获得跨帧的文本条件。接着，TAR沿着时间维度细化跨帧文本条件和潜在特征之间的相关性。最后，TFB提升了潜在特征的时间一致性。通过包括定量和定性评估在内的大量实验，证明了FancyVideo的有效性。该方法在EvalCrafter基准测试上实现了最先进的T2V生成结果，并推动了动态且一致视频合成的发展。

实现方法

【AI论文与新生技术】FancyVideo：走向动态和一致通过跨帧文本指导生成视频

简单来说，FancyVideo可以读取你给出的文本描述，然后创作出一段视频，视频中的动作会随着时间自然变化，就像真实世界中发生的那样。无论是想要看到夕阳下漂浮的黄色橡皮鸭，还是一个在咖啡热气中慢慢显现的慢动作场景，FancyVideo都能够帮你实现。喜好儿认为这项技术的出现，不仅展示了AI在视频生成领域的进步，也为未来的创意内容制作提供了新的可能性。