豆包Pixel Dance视频生成模型终结Sora时代！AI视频领域大变天【不辣说AI】

+AI动态 +AI工具视频生成
来源：喜好儿网
9月25日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

豆包发布全新Pixel Dance模型，多镜头连续人物稳定输出，10s讲完整故事，DiT架构的基础远胜其他模型。

豆包Pixel Dance视频生成模型是由字节跳动开发的一款高动态视频生成模型，旨在通过结合文本指令和图像指令来生成具有高度一致性和丰富动态性的视频内容。该模型基于扩散模型，利用模拟数据的扩散过程来生成新的数据样本，从而提升视频的动态效果。

文章目录

豆包Pixel Dance视频生成模型使用申请链接：

豆包Pixel Dance视频生成模型终结Sora时代！AI视频领域大变天【不辣说AI】

豆包Pixel Dance在多个方面展现了其创新性：首先，它具备精准的语义理解能力，能够处理复杂的交互画面和多主体运动。其次，该模型能够在镜头切换时保持主体、风格和氛围的一致性，这在以往的视频生成模型中是难以实现的。此外，豆包Pixel Dance还突破了多主体互动和一致性难题，显著提高了视频内容创作的效率。

豆包Pixel Dance视频生成模型主要特点

语义理解精准：能够深度理解复杂的指令。比如输入 “特写一个女人的面部，有些生气，戴上了一副墨镜，这时一个男人从画面右侧走进来抱住了她” 这样的复杂描述，模型可以准确地按照指令的时序去完成连续的动作，并且人物的表情能较为准确地传达指令所描述的情绪。这显示出模型在语义理解方面达到了较高的水平。
多主体互动自然：可以实现自然连贯的多拍动作与多主体复杂交互。在生成的视频中，不同人物能够完成多个动作指令的互动，并且动作流畅自然，相比之前大多只能完成简单指令的视频生成模型有了显著的提升。
细节呈现出色：人物样貌、服装细节甚至头饰等在不同运镜下都能保持高度一致，接近实拍效果，这体现了模型在细节处理方面的强大能力。
运镜切换流畅：基于 dit 架构，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力，让视频在大动态与运镜中可以自由切换，为视频创作带来了更多的可能性和创意空间。
风格比例多样：支持 3d 动画、2d 动画、国画、黑白、厚涂等多种风格，以及 1:1、4:3、16:9 等多个比例，能够适配电影、电视、电脑、手机等各种设备的比例和不同的画幅，满足了多样化的创作需求。
画面视觉优质：经过剪映、即梦 ai 等业务场景的打磨和持续迭代，具备专业级的光影布局和色彩调和，画面具有美感和真实感。