【AI论文与新生技术】ZeroSmooth:无需训练的漫射器适应高帧率视频生成

由中国科学院大学人工智能学院, 中国科学院自动化研究所模式识别新实验室,腾讯AI实验室联合研发。近年来,视频生成取得了显着的进步,特别是自从视频扩散模型出现以来。许多视频生成模型可以生成合理的合成视频,例如稳定视频扩散(SVD)。然而,由于 GPU 内存有限以及对大量帧进行建模的困难,大多数视频模型只能生成低帧率视频。

论文链接:https://huggingface.co/papers/2406.00908

项目链接:https://ssyang2020.github.io/zerosmooth.github.io/

AIGC专区:
https://heehel.com/category/aigc

【AI论文与新生技术】ZeroSmooth:无需训练的漫射器适应高帧率视频生成

训练视频始终以指定的时间间隔均匀采样,以进行时间压缩。以前的方法通过在像素空间中训练视频插值模型作为后处理阶段或在潜在空间中为特定的基础视频模型训练插值模型来提高帧速率。在本文中,我们提出了一种用于生成视频扩散模型的免训练视频插值方法,该方法可以以即插即用的方式推广到不同的模型。

我们研究了视频扩散模型特征空间中的非线性,并结合设计的隐藏状态校正模块将视频模型转换为自级联视频扩散模型。提出自级联架构和校正模块来保持关键帧和插值帧之间的时间一致性。对多种流行的视频模型进行了广泛的评估,以证明该方法的有效性,特别是我们的免训练方法甚至可以与由巨大计算资源和大规模数据集支持的训练插值模型相媲美。

传统的视频生成模型,如Stable Video Diffusion (SVD)和VideoCrafter,虽然能够生成逼真的视频,但它们通常只能生成帧率较低的视频。这是因为模型在训练时使用的是均匀采样的视频数据,这样做是为了避免超出GPU内存限制。此外,捕捉长视频的分布也是一个挑战。

为了解决这个问题,作者提出了一种无需训练的视频插帧方法,适用于不同的生成视频扩散模型,并且可以作为一种即插即用的工具。这种方法通过研究视频扩散模型特征空间的非线性,将视频模型转换为自级联的视频扩散模型,并引入了设计好的隐藏状态校正模块。自级联架构和校正模块的目的是保持关键帧和插值帧之间的时间一致性。

论文中的实验表明,ZeroSmooth方法在多个流行的视频模型上都表现出了有效性,特别是在无需训练的情况下,其性能甚至可以与使用大量计算资源和大规模数据集训练的插值模型相媲美。

总的来说,这项工作的贡献包括:

  • 提出了一种无需训练的方法,可以提高生成视频模型的帧率,生成视觉上更平滑的视频。
  • 提出了自级联架构和隐藏状态校正模块,以确保帧间的一致性。

通过广泛的实验,证明了所提出方法的有效性,包括在SVD、VideoCrafter和LaVie等流行模型上的应用。
这项技术的应用前景广阔,可以用于虚拟现实、游戏和电影制作等行业,提高视频质量和实现慢动作效果等。然而,它也引发了一些伦理问题,比如可能被用于创建误导性的深度伪造视频,因此需要谨慎使用。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索