【AI论文与新生技术】ExVideo:通过参数高效的后期调整扩展视频扩散模型

最近,视频合成的进步引起了人们的广泛关注。 AnimateDiff 和 Stable Video Diffusion 等视频合成模型已经证明了扩散模型在创建动态视觉内容方面的实际适用性。

SORA的出现进一步凸显了视频生成技术的潜力。尽管如此,视频长度的扩展受到计算资源的限制。大多数现有的视频合成模型只能生成短视频片段。在本文中,我们提出了一种新颖的视频合成模型后调整方法,称为 ExVideo。这种方法旨在增强当前视频合成模型的能力,使它们能够在较长的时间内生成内容,同时减少训练支出。特别是,我们分别设计了跨常见时间模型架构的扩展策略,包括 3D 卷积、时间注意力和位置嵌入。

为了评估我们提出的后调整方法的有效性,我们对稳定视频扩散模型进行了扩展训练。我们的方法增强了模型生成帧数最多 5 倍的能力,仅需要在包含 40k 视频的数据集上进行 1.5k GPU 小时的训练。重要的是,视频长度的大幅增加并没有损害模型固有的泛化能力,并且该模型展示了其在生成不同风格和分辨率的视频方面的优势。我们将公开发布源代码和增强模型。

AIGC专区:
https://heehel.com/category/aigc

论文链接:https://huggingface.co/papers/2406.14130

项目介绍:https://ecnu-cilab.github.io/ExVideoProjectPage/

喜好儿了解到,ExVideo是一种新技术,它能让电脑用更少的资源做出更长、更流畅的视频。想象一下,以前电脑只能做出几秒钟的小视频,而且做起来还挺费劲。现在有了ExVideo,电脑可以做出原来五倍长的视频,而且学起来更快,用起来也不那么卡了。

这个技术特别聪明,它知道怎么让视频里的物体动起来更自然,比如云朵慢慢飘,人走来走去。而且,它还能理解不同的风格,不管是真实的画面还是卡通的样子,都能做得很像。

虽然ExVideo很厉害,但它在做一些特别细致的东西,比如人的脸部,还是有点儿难。研究者们说,他们会把怎么做ExVideo的方法分享给大家,这样别人也可以用,或者做得更好。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索