OpenAI-Sora-Plan v1.3.0 发布:五大改进与 AI 创意短片展示

OpenAI-Sora-Plan项目近日发布了其最新版本v1.3.0,进一步推动了人工智能技术在视频处理和语言模型优化方面的应用。新版本的核心亮点包括更高效且成本效益更高的WFVAE技术,该技术通过小波变换将视频分解为多个子带,以自然捕获不同频域的信息,从而实现更高效稳健的VAE学习过程。

OpenAI-Sora-Plan v1.3.0复原Sora技术项目报告和链接👇

为了展示新版本的潜力,作者还在B站发布了一个名为《黑神话悟空第三结局AI创意短片》的演示视频。虽然该视频与商业模型还有一定差距,但它成功地展示了项目的潜力和未来的可能性。

Open-Sora-Plan v1.3.0新版本五大显著改进

  1. 更强大且更具成本效益的WFVAE。我们使用小波变换将视频分解为多个子带,自然地捕获不同频域的信​​息,从而实现更高效、更稳健的 VAE 学习。
  2. 快速精炼机。旨在优化短文本输入的大型语言模型。
  3. 高质量的数据清洗策略。清理后的 panda70m 数据集仅保留原始数据的 27%。
  4. DiT 具有新的稀疏注意力。更具成本效益和效率的学习方法。
  5. 动态分辨率和动态持续时间。这可以更有效地利用不同长度的视频(将单个帧视为图像)。

此外,项目团队还引入了快速精炼机,这一机制专门针对大型语言模型进行了优化,以处理短文本输入。在数据清洗方面,项目采用了高质量的策略,对panda70m数据集进行了彻底的清理,最终仅保留了原始数据的27%,以确保数据集的质量和准确性。

DiT模型也得到了更新,新引入的稀疏注意力机制使得学习过程更具成本效益和效率。同时,动态分辨率和动态持续时间的支持,使得系统能够更有效地处理不同长度的视频,甚至可以将单个帧视为图像进行处理。

OpenAI-Sora-Plan项目的目标是创建一个简单且可扩展的存储库,以复现Sora技术。该项目由北大-兔展AIGC联合实验室共同发起,旨在通过开源社区的力量,共同推动项目的发展。当前版本虽然与目标还有差距,但项目团队期待通过持续的完善和快速迭代,逐步接近目标。项目代码支持在华为Ascend AI计算系统上进行完整的训练和推理,且基于该系统训练出的模型能够输出与行业标准相当的视频质量。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索