OpenAI视频生成模型Sora的核心技术居然是来自两位科研人员的早期作品！-喜好儿网

这是一个2022年12月由伯克利和纽约大学两位研究人员提出的模型，目前这两位一个在Meta AI，一个在OpenAI…

根据其中一个作者@sainingxie（目前就职于Meta AI），根据他他提供的深入分析，Sora是一个基于DiT的混合模型，包含VAE、ViT、DDPM。

Sora的视频压缩网络实质上是一个在原始视频数据上训练的变分自编码器（VAE）。这种网络的关键在于标记化，它对于保持视频的时间一致性至关重要。在DiT项目中，重点在于保持模型的简单性和可扩展性。而Sora展示了DiT的缩放定律在视频处理方面的适用性，突显了ViT模型的灵活性。此外，Sora的关键进展在于其“新兴模拟能力”，特别是在生成长视频方面的显著突破。然而，关于训练数据的来源和构建方面的讨论在现有资料中尚显不足。

SiT论文：https://arxiv.org/pdf/2401.08740.pdf

变分自编码器（VAE）：这种自编码器被用于处理视频数据，其设计确保了生成的视频在时间维度上保持连贯性。

视觉变换器（ViT）：这种模型赋予了Sora在处理视频数据时的高灵活性，使其能够聚焦于视频中的关键部分，从而更有效地提取和处理信息。

扩散概率模型（DDPM）：这一技术对于生成高质量的视频至关重要，它帮助Sora在视频生成过程中实现更精细、更真实的细节表现。

DiT项目地址：
https://wpeebles.com/DiT

论文：
https://arxiv.org/abs/2212.09748

GitHub：
https://github.com/facebookresearch/DiT

技术细节与推测

Sora可能运用了名为Patch n’ Pack（或NaViT）的先进技术，这项技术能够突破传统图像处理的限制，灵活应对不同分辨率、持续时间和宽高比的输入。

NaViT模型是一种创新的视觉变换器，其特点在于能够处理任意尺寸和比例的图像，从而大大提高了处理速度和灵活性。与此同时，它在监督学习和图像-文本对比学习中展现出卓越的训练效率，使得Rabbit R1能够快速学习和适应各种任务。

此外，NaViT模型还具备强大的跨任务应用能力，能够轻松应对图像分类、对象检测、语义分割等多种视觉任务，为用户提供全面的视觉处理服务。在推理阶段，Sora可以根据实际需求调整输入分辨率，以平衡计算成本和模型性能，确保在各种场景下都能提供稳定的服务。

总的来说，NaViT技术为Sora提供了强大的支持，使其在灵活性、训练效率、跨任务应用能力和推理灵活性等方面表现出色。这些技术细节和推测为我们揭示了Sora的核心竞争力和市场潜力。

Patch NaViT论文：https://arxiv.org/abs/2307.06304

基于模型大小和计算量的估算，Sora可能拥有约30亿参数，这意味着训练该模型可能不需要大量的GPU资源，从而有望实现快速的迭代。在Sora中，DiT的应用效果显著。最近，NYU团队推出了新的DiT模型——SiT，其架构与DiT相同但性能更高，收敛速度更快。这引发了人们对SiT在视频生成方面潜力的浓厚兴趣。

https://heehel.com/aigc/sora-minecraft.html

OpenAI视频生成模型Sora的核心技术居然是来自两位科研人员的早期作品！

相关推荐

【央视网】绝了！AI视角下的神州大地每一帧都是屏保

热门专题

快讯

热门文章

喜好儿——再不认真就输了！

致力于发现ai人工智能应用的新世界，长期更新目前热门AI教程与动态！期待在这个工业变革时代中，希望你我都能发出一点光。

切换注册登录

切换登录注册