//再不认真就输了!
//致力于发现AIGC动态与教程。

WorldDreamer无缝逐帧AI模型: 基于Transformer生成高质量电影级别视频的通用世界模型"

WorldDreamer是一个基于Transformer的通用世界模型,能够完成自然场景和自动驾驶场景多种视频生成任务,如文生视频、图生视频、视频编辑、动作序列生视频等。该模型从20亿数据中学习物理世界,通过预测Token的方式建立通用场景世界模型,将视频生成转换为序列预测任务,从而对物理世界的变化和运动规律进行充分地学习。可视化实验证明,WorldDreamer深刻理解了通用世界的动态变化规律。

论文地址:https://arxiv.org/abs/2401.09985

项目主页:https://world-dreamer.github.io/

更多作品:https://heehel.com/category/ai-works

AIGC专区:https://heehel.com/category/aigc

WorldDreamer是一个基于Transformer的通用世界模型,能够完成多种视频生成任务,包括但不限于图像生成视频、文本生成视频、视频修改、视频风格化和基于动作合成视频等。该模型从20亿数据中学习物理世界,通过预测Token的方式建立通用场景世界模型,将视频生成转换为序列预测任务,从而对物理世界的变化和运动规律进行充分地学习。可视化实验证明,WorldDreamer已经深刻理解了通用世界的动态变化规律。

WorldDreamer的原理是将视频生成转换为一个序列预测任务,通过预测被掩码的视觉Token来生成视频。它采用Transformer架构,借鉴大型语言模型的成功经验,将世界模型建模框架转换为一个无监督的视觉Token预测问题。

WorldDreamer的特点是能够完成多种视频生成任务,包括但不限于图像生成视频、文本生成视频、视频修改、视频风格化和基于动作合成视频等。它具有生成高质量电影级别视频的能力,其生成的视频呈现出无缝的逐帧运动,类似于真实电影中流畅的摄像机运动。而且,这些视频严格遵循原始图像的约束,确保帧构图的显著一致性。

WorldDreamer的用途包括但不限于:

  1. 自动驾驶场景下的驾驶动作到视频的生成
  2. 从文本生成视频、从单一图像预测未来的帧
  3. 根据语言的输入可以更改被mask区域的视频内容、以及改变视频的风格等。
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《WorldDreamer无缝逐帧AI模型: 基于Transformer生成高质量电影级别视频的通用世界模型"》
文章链接:https://heehel.com/aigc/worlddreamer-ai-model.html
本站资源仅供个人学习交流,未经许可不得用于商业用途,自行承担法律责任。
如有疑问,请联系微信:heehelcom

喜好儿——再不认真就输了!

致力于发现ai人工智能应用的新世界, 长期更新目前热门AI教程与动态!期待在这个工业变革时代中,希望你我都能发出一点光。

登录

找回密码

注册