Google谷歌通过文本、图像从而生成音频和视频的多模态学习模型：VideoPoet

+AI动态 AIGC
2月22日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

VideoPoet是一种多模态学习模型，本身是一个大型语言模型（LLM），能够理解和处理文本、图像、音频等多种信息，并将其融合到视频生成过程中。它不仅能够根据文字描述生成视频，还能给视频添加风格化效果、修复和扩展视频，甚至从视频中生成音频。此外，VideoPoet还能理解和生成音频，并编写用于视频处理的代码。

这种多模态学习能力使得VideoPoet在视频生成方面更加灵活和强大，能够处理更复杂和多样化的任务。与其他基于扩散模型的生成方法不同，以后可以通过歌词生成视频画面啦，后面不知道用一首歌能不能生成视频。

详细介绍：
https://heehel.com/Google-VideoPoet

演示：
https://sites.research.google/videopoet/

VideoPoet模型默认生成竖屏视频，适应短视频需求。Google Research团队利用Bard编写浣熊旅行故事，并通过VideoPoet生成与故事匹配的视频片段，展示其多样性和创造力。这种结合不同技术的方法为视频制作和故事叙述提供新可能，特别适合短视频和社交媒体内容创作。

工作原理：

VideoPoet的工作原理基于大型语言模型（LLM），它结合了多模态学习和自回归模型来生成视频。LLM使VideoPoet能够处理文本，并经过训练后也能生成视频和音频。多模态学习使VideoPoet能够融合不同类型的信息，如文本描述和图像内容，以创造新的视频内容。自回归模型确保视频生成的连贯性和一致性，每一步都基于之前的步骤。为了处理视频和音频，VideoPoet使用特定的编码器和解码器进行内容的转换。

Google谷歌通过文本、图像从而生成音频和视频的多模态学习模型：VideoPoet

VideoPoet 的主要功能特点：

广泛的适用性：VideoPoet能够灵活应对多种视频生成挑战，无论是将文本转化为生动视频，将静态图像变为动态视频，还是为视频添加独特风格、进行修复和扩展，甚至从视频中提取音频，它都能游刃有余。
卓越的多模态处理能力：不同于那些主要依赖扩散模型的视频生成方法，VideoPoet以其大型语言模型的身份，展现了在语言、代码和音频等多种模态上的出色学习能力。
一体化的解决方案：VideoPoet将多种视频生成功能集成于一个大型语言模型之中，无需为每个特定任务单独训练不同的组件，从而提供了更加高效和统一的解决方案。
任务导向的生成：VideoPoet能够根据不同的任务需求调整其生成策略。通过特定的任务标记，模型能够明确知道是执行文本到视频的转换、图像到视频的转化，还是其他类型的视频生成任务。
长视频的流畅生成：通过连续预测的方式，VideoPoet能够生成持续时间更长的视频。它只需关注视频的最近部分（如最后1秒），然后预测接下来的内容，从而确保视频的连贯性和流畅性。
交互式的视频编辑体验：VideoPoet允许用户以更加直观和交互的方式编辑视频。用户可以通过添加新的文本提示来改变视频中对象的动作或行为，从而实现个性化的视频创作。
图像动画化的创新应用：VideoPoet能够根据文本提示将静态图像转化为动态视频，并允许用户编辑其中的内容。这一功能为用户提供了更多的创作空间，使他们能够以前所未有的方式呈现图像。
精细的相机运动控制：通过在文本提示中加入特定的相机运动描述，如缩放、平移或弧形拍摄等，VideoPoet能够在生成的视频中实现这些复杂的相机运动，为视频增添更多的动感和视觉效果。