巴黎的 VivaTech 大会上OpenAl展示了Sora模型15秒声音样本就能克隆个人声音

巴黎VivaTech大会是一个专注于科技创新和初创企业的国际性盛会，每年在法国巴黎举行。2024年的VivaTech大会将于5月22日至25日在巴黎举行。这次大会是欧洲最大的科技创新盛会之一，自2016年创办以来已至第八届。VivaTech大会吸引了来自世界各地的参与者，包括谷歌、微软、IBM、三星、特斯拉等科技巨头的高管，以及超过150,000名访客、11,000家初创企业和450位演讲者参加。这表明VivaTech不仅是一个展示最新科技成果的平台，也是一个促进全球科技界交流与合作的重要场合。

更多消息：
https://heehel.com/category/ai-news

AIGC专区：
https://heehel.com/category/aigc

在最近的巴黎VivaTech大会上，OpenAI带来了令人瞩目的新技术演示，通过其最新的Sora模型，展示了声音与脚本结合直接生成视频的能力。

这次演示中，观众目睹了仅需15秒声音样本，OpenAI就成功克隆了个人声音，并结合ChatGPT生成的脚本，实时创建了一段讲述1889年巴黎世界博览会历史的视频。更令人惊奇的是，Sora还能即时地为不同语言配音并自动生成字幕，展示了其跨语言处理的能力。

Sora，作为OpenAI开发的先进视频生成模型，具备将文本描述转化为高质量视频内容的独特功能。用户只需通过简单的文本指令，就能轻松创建长达60秒、内容丰富且视觉效果逼真的视频。从复杂的场景、生动的角色表情到镜头运动的精准控制，Sora都能轻松应对。同时，它还支持视频合成、图像转视频等多种功能，为用户提供了极大的创作空间。

Sora的技术实现依赖于Diffusion模型和Transformer模型的结合。通过视频压缩网络，Sora能够将输入的图片或视频压缩成低维度表示，再利用空间时间补丁技术将其分解为基本构建块，从而高效生成视频。这种技术的应用不仅提高了视频生成的效率，还保证了视频的质量。

除了视频生成，Sora还展示了在实时翻译、情感识别和个性化推荐等方面的潜力。这些功能使得Sora不仅是一个视频生成工具，更是一个智能化的多模态交互平台。尽管Sora目前仍处于研究阶段，但其展现出的技术实力和广泛的应用前景已经引起了业界的广泛关注。