这是一个2022年12月由伯克利和纽约大学两位研究人员提出的模型,目前这两位一个在Meta AI,一个在OpenAI…
根据其中一个作者@sainingxie(目前就职于Meta AI),根据他他提供的深入分析,Sora是一个基于DiT的混合模型,包含VAE、ViT、DDPM。
Sora的视频压缩网络实质上是一个在原始视频数据上训练的变分自编码器(VAE)。这种网络的关键在于标记化,它对于保持视频的时间一致性至关重要。在DiT项目中,重点在于保持模型的简单性和可扩展性。而Sora展示了DiT的缩放定律在视频处理方面的适用性,突显了ViT模型的灵活性。此外,Sora的关键进展在于其“新兴模拟能力”,特别是在生成长视频方面的显著突破。然而,关于训练数据的来源和构建方面的讨论在现有资料中尚显不足。
SiT论文:https://arxiv.org/pdf/2401.08740.pdf
变分自编码器(VAE):这种自编码器被用于处理视频数据,其设计确保了生成的视频在时间维度上保持连贯性。
视觉变换器(ViT):这种模型赋予了Sora在处理视频数据时的高灵活性,使其能够聚焦于视频中的关键部分,从而更有效地提取和处理信息。
扩散概率模型(DDPM):这一技术对于生成高质量的视频至关重要,它帮助Sora在视频生成过程中实现更精细、更真实的细节表现。
DiT项目地址:
https://wpeebles.com/DiT
论文:
https://arxiv.org/abs/2212.09748
GitHub:
https://github.com/facebookresearch/DiT
技术细节与推测
Sora可能运用了名为Patch n’ Pack(或NaViT)的先进技术,这项技术能够突破传统图像处理的限制,灵活应对不同分辨率、持续时间和宽高比的输入。
NaViT模型是一种创新的视觉变换器,其特点在于能够处理任意尺寸和比例的图像,从而大大提高了处理速度和灵活性。与此同时,它在监督学习和图像-文本对比学习中展现出卓越的训练效率,使得Rabbit R1能够快速学习和适应各种任务。
此外,NaViT模型还具备强大的跨任务应用能力,能够轻松应对图像分类、对象检测、语义分割等多种视觉任务,为用户提供全面的视觉处理服务。在推理阶段,Sora可以根据实际需求调整输入分辨率,以平衡计算成本和模型性能,确保在各种场景下都能提供稳定的服务。
总的来说,NaViT技术为Sora提供了强大的支持,使其在灵活性、训练效率、跨任务应用能力和推理灵活性等方面表现出色。这些技术细节和推测为我们揭示了Sora的核心竞争力和市场潜力。
Patch NaViT论文:https://arxiv.org/abs/2307.06304
基于模型大小和计算量的估算,Sora可能拥有约30亿参数,这意味着训练该模型可能不需要大量的GPU资源,从而有望实现快速的迭代。在Sora中,DiT的应用效果显著。最近,NYU团队推出了新的DiT模型——SiT,其架构与DiT相同但性能更高,收敛速度更快。这引发了人们对SiT在视频生成方面潜力的浓厚兴趣。
https://heehel.com/aigc/sora-minecraft.html
相关推送:OpenAI力压群雄,sora第一批内测作品曝光,AI视频生成质量非常高!-喜好儿aigc (heehel.com)