【AI论文与新生技术】Zero-shot:精细增益零样本视频采样

将时间维度纳入用于视频生成的预训练图像扩散模型中是一种流行的方法。然而,这种方法计算量要求较高,并且需要大规模视频数据集。更重要的是,图像和视频数据集之间的异构性通常会导致图像专业知识的灾难性遗忘。最近从图像扩散模型中直接提取视频片段的尝试在一定程度上缓解了这些问题。

然而,这些方法只能生成具有简单运动的简短视频片段,无法捕获细粒度运动或非网格变形。在本文中,我们提出了一种新颖的零样本视频采样算法,表示为ZS^2,能够直接从现有图像合成方法(例如稳定扩散)中采样高质量视频片段,而无需任何训练或优化。

具体来说,ZS^2 利用依赖噪声模型和时间动量注意力来分别确保内容一致性和动画连贯性。这种能力使其能够在相关任务中表现出色,例如条件和上下文专门的视频生成以及指令引导的视频编辑。实验结果表明,ZS^2 在零镜头视频生成方面实现了最先进的性能,有时甚至优于最近的监督方法。

(Zero-shot项目和论文链接👇)

AI论文与新生技术专题:
https://heehel.com/collection/topic-aipapers-jiaocheng

【AI论文与新生技术】Zero-shot:精细增益零样本视频采样

ZS^2 算法的核心在于它能够直接从现有的图像合成方法(例如Stable Diffusion)中采样出高质量的视频片段,而无需任何训练或优化。这一突破性进展得益于算法中两个关键技术的融合:依赖噪声模型和时间动量注意力机制。依赖噪声模型确保了视频帧之间的内容一致性,而时间动量注意力机制则维持了动画的连贯性。

Zero-shot这项技术的优势在于它的通用性和灵活性。ZS^2 算法不仅能够处理文本到视频的合成任务,还能够适应条件视频生成、专业视频生成以及文本指导的视频编辑等多种应用场景。实验结果表明,ZS2在零样本视频生成方面达到了最先进的性能,有时甚至超过了最近一些监督学习方法。

比如“一个宇航员骑着马在月球上奔跑”。在ZS^2 算法出现之前,你要画出一系列连贯的动画,可能需要很多参考资料和多次尝试。

但有了ZS^2 算法,这个过程变得简单了。就像你突然获得了一种魔法,只需要那个描述,你就可以一次性创作出一系列流畅且高质量的动画,而不需要任何额外的练习或修改。ZS2算法通过一种特殊的“噪声”来确保每一幅画面都和前一幅有关联,同时保持画面的一致性和流畅性。这样,无论是创造一个梦幻般的场景,还是制作一段复杂的视频,都变得轻而易举。

【AI论文与新生技术】Zero-shot:精细增益零样本视频采样

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索