微软发布Pix2Gif:图像自动生成转换 GIF 格式文件的运动引导扩散模型

论文链接:https://arxiv.org/pdf/2403.04634.pdf

AIGC专区:
https://heehel.com/category/aigc

工具箱:
https://heehel.com/ai-tools#ai-3d

微软推出的Pix2GIF图像动画AI工具,声称可以根据文字提示为静态图片添加2秒动画效果,但结果表现不佳,更像一个玩具而不是实用工具。视频后介绍了Anthropic推出的Follow Your Click工具,它允许用户通过单击图片特定部分并添加文字提示来生成动画视频,实现了更精细化和用户交互式的图像动画功能,表现出一种更成熟和实用的AI视频生成方法。

Pix2Gif,一种用于生成图像到 GIF(视频)的运动引导扩散模型。他们以不同的方式解决这个问题,将任务制定为由文本和运动幅度提示引导的图像翻译问题,如图 1 所示。为了确保模型遵循运动引导,他们提出了一种新的运动引导变形模块,以根据两种类型的提示对源图像的特征进行空间变换。

此外,他们引入了感知损失,以确保转换后的特征图与目标图像保持在同一空间内,从而确保内容的一致性和连贯性。在准备模型训练时,他们通过从 TGIF 视频字幕数据集中提取连贯的图像帧来精心整理数据,Pix2Gif数据集提供了有关对象时间变化的丰富信息。预训练后,他们以零样本的方式将他们的模型应用于多个视频数据集。大量的定性和定量实验证明了他们模型的有效性——它不仅捕获了文本中的语义提示,而且还捕获了运动引导中的空间提示。他们使用 16xV100 GPU 的单个节点训练所有模型。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索