微软发布Pix2Gif：图像自动生成转换 GIF 格式文件的运动引导扩散模型

论文链接：https://arxiv.org/pdf/2403.04634.pdf

AIGC专区：
https://heehel.com/category/aigc

微软推出的Pix2GIF图像动画AI工具,声称可以根据文字提示为静态图片添加2秒动画效果,但结果表现不佳,更像一个玩具而不是实用工具。视频后介绍了Anthropic推出的Follow Your Click工具,它允许用户通过单击图片特定部分并添加文字提示来生成动画视频,实现了更精细化和用户交互式的图像动画功能,表现出一种更成熟和实用的AI视频生成方法。

Pix2Gif，一种用于生成图像到 GIF（视频）的运动引导扩散模型。他们以不同的方式解决这个问题，将任务制定为由文本和运动幅度提示引导的图像翻译问题，如图 1 所示。为了确保模型遵循运动引导，他们提出了一种新的运动引导变形模块，以根据两种类型的提示对源图像的特征进行空间变换。

此外，他们引入了感知损失，以确保转换后的特征图与目标图像保持在同一空间内，从而确保内容的一致性和连贯性。在准备模型训练时，他们通过从 TGIF 视频字幕数据集中提取连贯的图像帧来精心整理数据，Pix2Gif数据集提供了有关对象时间变化的丰富信息。预训练后，他们以零样本的方式将他们的模型应用于多个视频数据集。大量的定性和定量实验证明了他们模型的有效性——它不仅捕获了文本中的语义提示，而且还捕获了运动引导中的空间提示。他们使用 16xV100 GPU 的单个节点训练所有模型。