【AI论文与新生技术】腾讯GameGen-O:开放世界视频游戏生成ai模型

腾讯GameGen-O是一个先进的人工智能模型,专门为创建开放世界视频游戏而设计。它通过模拟游戏中的各种元素,如角色、环境、动作和事件,来生成高质量的游戏内容。这个模型的特别之处在于它不仅能生成游戏内容,还能让用户通过简单的指令来控制和交互。

我们介绍了 GameGen-O,这是第一个为开放世界视频游戏的生成量身定制的扩散转换器模型。此模型通过模拟各种游戏引擎功能(例如创新角色、动态环境、复杂动作和各种事件)来促进高质量的开放域生成。此外,它还提供交互式可控性,从而允许进行游戏模拟。GameGen-O 的开发涉及从头开始的全面数据收集和处理工作。

我们收集并构建了第一个开放世界视频游戏数据集 (OGameData),从一百多款下一代开放世界游戏中积累了大量数据,采用专有数据管道进行高效排序、评分、过滤和解耦字幕。这个强大而广泛的 OGameData 构成了我们模型训练过程的基础。

GameGen-O 经历了两个阶段的训练过程,包括基础模型预训练和指令调整。在第一阶段,该模型通过文本到视频和视频延续在 OGameData 上进行预训练,使 GameGen-O 具有生成开放域视频游戏的能力。在第二阶段,预先训练的模型被冻结,我们使用可训练的 InstructNet 进行微调,从而能够基于多模态结构指令生成后续帧。整个训练过程赋予模型生成和交互控制内容的能力。

总之,GameGen-O 代表了通过生成模型在开放世界视频游戏生成领域向前迈出的显着第一步。 它强调了生成模型作为渲染技术的替代方案的潜力,渲染技术可以有效地将创意生成与交互功能相结合。

(腾讯GameGen-O开放世界视频游戏生成ai模型详情👇)

GameGen-O技术原理

  1. 数据集构建:腾讯首先收集了来自100多款游戏的大量视频数据,经过专家筛选和处理,形成了一个专门的游戏数据集(OGameData)。
  2. 模型训练:GameGen-O通过两个阶段的训练来学习如何生成游戏内容。第一阶段是基础预训练,模型学习如何从文本生成视频和延续视频内容。第二阶段是指令调整,通过一个名为InstructNet的网络来微调模型,使其能够根据指令生成特定的游戏内容。
  3. 交互式控制:GameGen-O能够理解并响应用户的指令,允许用户控制游戏内容的生成方向。

GameGen-O功能

  1. 内容生成:自动生成游戏角色、环境和动作。
  2. 交互性:用户可以通过指令影响游戏内容的生成,实现个性化体验。
  3. 数据集构建:构建了一个包含多种游戏类型的大型数据集,支持模型训练和创新。

GameGen-O应用场景

  1. 游戏开发:帮助游戏开发者快速生成游戏内容,提高开发效率。
  2. 玩家体验:玩家可以通过简单的指令来定制自己的游戏体验。
  3. 研究和教育:为研究人员和学生提供丰富的数据资源,支持游戏AI和交互式技术的研究。

GameGen-O概述

【AI论文与新生技术】腾讯GameGen-O:开放世界视频游戏生成ai模型

 OGameData 结构:我们通过从互联网上收集 32,000 个原始视频开始构建 OGameData。人类专家仔细识别和过滤了这些视频,产生了大约 15000 个可用视频。然后,通过场景检测将选定的视频平铺到剪辑中。这些剪辑经过了基于美学、光流和语义内容的严格排序和过滤过程。在此之后,使用专家模型和多模态大型模型应用了结构化注释。此外,为了实现交互式可控性,我们从这个带注释的数据集中选择了最高质量的剪辑并进行了解耦标记。此标签旨在描述剪辑内容状态的变化,确保为训练模型提供更精细和交互式的数据集。

【AI论文与新生技术】腾讯GameGen-O:开放世界视频游戏生成ai模型

基础预备培训:在基础预训练阶段,我们采用了 2+1D VAE (Magvit-v2) 来压缩剪辑。为了针对游戏领域定制 VAE,我们通过调整 VAE 解码器进行了特定领域的调整。我们采用了一种混合训练策略,该策略会改变帧速率和分辨率,以鼓励跨帧速率和跨分辨率泛化。该模型的整体架构遵循 Latte 和 OpenSora V1.2 框架的原则。通过利用掩蔽注意力机制,我们赋予了 GameGen-O 文本到视频生成和视频连续的双重功能。这种训练方法与 OGameData 相结合,生成了稳定且高质量的开放域视频游戏。此外,它还为后续的交互式可控性建立了必要的基础功能。

指令调整:GameGen-O 中的交互式可控性是通过根据当前内容预测和修改未来内容来实现的。基于基础预训练中的视频延续功能,GameGen-O 包含一个额外的分支 InstructNet 来控制延续的内容。InstructNet 旨在接受各种多模态输入,包括结构化文本、操作信号和视频提示。在 InstructNet 分支的调优过程中,以当前内容为条件,从而在多模态控制信号下建立当前 Clip 内容和未来 Clip 内容的映射关系。在推理时,GameGen-O 使用户能够根据当前剪辑持续生成和控制下一个生成的剪辑。

【AI论文与新生技术】腾讯GameGen-O:开放世界视频游戏生成ai模型

OGameData 摘要

OGameData 是一个全面的多类型开放世界视频游戏数据集,其中包含生成和控制子集。从本地引擎和互联网获取超过 32,000 个视频,每个视频的长度从几分钟到几个小时不等。该数据集包含 150 多款不同类型的下一代游戏,包括开放世界 RPG、FPS、赛车游戏、动作益智游戏等。它还涵盖了不同的视角(第一人称、第三人称)和风格(现实主义、东方传统、赛博朋克、后世界末日、西方奇幻等)。经过为期六个月的严格筛选过程,涉及多名人类专家和高级模型算法,我们策划了超过 4,000 小时的高质量视频剪辑,分辨率从 720p 到 4k 不等。这些片段由 GPT-4O 精心注释,为训练和验证目的提供了丰富的标记数据源。OGameData 有望成为研究人员和开发人员的宝贵资源,支持探索各种应用,例如视频游戏生成式 AI 开发、交互式控制和沉浸式虚拟环境。其即将发布的开源版本将为科学界提供前所未有的广泛视频游戏数据,促进跨学科的创新和协作。

人物生成

环境生成

气候生成

玩法生成

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索