基于扩散模型的属性,图像生成的不稳定性,导致大部分视频生成ai最终效果都很混乱,而且时长局限性很大。Sora增加了空间扩散和大预言模型联想的能力,所以模型的理解更加深刻,生成的视频也更加接近完美。
北京大学,香港中文大学及腾讯AI研究室的这个技术(DynamiCrafter)也很有意思,相当于给生成模型增加了落地(定版)画面,指定了方向,让模型只需要联想中间的信息。有点像动画的关键帧,电脑自动补中间帧。
Github开源代码:https://github.com/Doubiiu/DynamiCrafter
官方介绍页面:https://doubiiu.github.io/projects/DynamiCrafter/
以下视频演示
前半部分为中间帧联想,后半部分为循环联想