本文来源:AI产品汇
原文来链接:https://mp.weixin.qq.com/s/U7ni9AdcuSPzD_SOWCCpdQ
StoryDiffusion是由字节跳动和南开大学合作推出的AI工具,专注于长范围图像和视频生成。该工具利用一致性自注意力机制来实现图像和视频内容的连续性和一致性。
此外,StoryDiffusion还被应用于漫画生成和图像转视频等多种场景,通过Consistent self-attention机制生成的图像,可以顺利过渡为视频,实现两者的无缝连接。该项目是一个开源的研究项目,旨在通过一致性的自我关注机制来进行长距离序列上的图像和视频生成。
虽然扩散模型得到了快速发展,并在内容生成方面显示出了非凡的潜力。但是,生成主题一致性(例如:具有一致身份和服装的角色)图像和视频来描述一个故事对于现有的模型来说仍然是一个具有挑战性的问题。本文作者提出了一种新的自注意计算方法,称为一致自注意,该方法显著提高了生成图像之间的一致性,并以零样本的方式增强了普遍的基于预训练扩散的文生图模型。为了将该方法扩展到视频生成任务中,作者进一步引入了一个新的语义时空运动预测模块,称为语义运动预测器。它被训练来估计语义空间中两个所提供的图像之间的运动条件。通过合并这两个新颖的组件,StoryDiffusion框架可以可以准确生成一个基于文本的故事,其中包含一致的图像或视频,包含丰富的内容。”
项目主页:https://storydiffusion.github.io/
代码链接:https://github.com/HVision-NKU/StoryDiffusion
论文链接:https://arxiv.org/pdf/2405.01434.pdf
Pinokio客户端夸克网盘下载链接:https://pan.quark.cn/s/6e1037e8787a
Pinokio客户端迅雷云盘下载链接:https://pan.xunlei.com/s/VNxBmlUkbBd-yNIBPexrr7R-A1?pwd=shh2#
01-StoryDiffusion算法背景
最近,扩散模型得到了快速发展,并在内容生成方面显示出了非凡的潜力,凭借广泛的预训练和先进的架构,与之前基于生成对抗性网络的方法相比,扩散模型在生成非常高质量的图像和视频方面表现出卓越的性能。然而,生成主题一致性(例如:具有一致身份和服装的角色)图像和视频来描述一个故事对于现有的模型来说仍然是一个具有挑战性的问题。
另一方面,最近最先进的身份保护方法,如InstantID和PhotoMaker,专注于身份可控性,但仍然无法保证服装和场景的一致性。因此,本文的目标是找到一种方法,可以生成在身份和着装方面具有一致特征的图像和视频,同时通过文本提示最大限度地提高用户的可控性。
保持不同图像(或视频生成背景下的帧)之间一致性的常用方法是使用时间模块。然而,这需要大量的计算资源和数据。不同的是,本文的目标是探索一种数据和计算成本最小的轻量级方法,甚至以零样本的方式。
02-StoryDiffusion算法简介
对于扩散生成模型而言,在一系列生成的图像中保持一致的内容,尤其是在那些包含主题和复杂细节的图像上保持一致性是一个重大的挑战。
本文作者提出了一种新的自注意计算方法,称为一致自注意,该方法显著提高了生成图像之间的一致性,并以零样本的方式增强了普遍的基于预训练扩散的文生图模型。与对表示单个图像的标记进行操作的标准自注意不同,在标记相似性矩阵计算和标记合并期间,一致自注意合并了来自参考图像的采样参考标记。采样的令牌共享相同的Q-K-V权重集合,因此不需要额外的训练。
为了将该方法扩展到视频生成任务中,作者进一步引入了一个新的语义时空运动预测模块,称为语义运动预测器。它被训练来估计语义空间中两个所提供的图像之间的运动条件。该模块将生成的图像序列转换为具有平滑过渡和一致主题的视频,这些视频比仅基于潜在空间的模块要稳定得多,尤其是在长视频生成的情况下。
通过合并这两个新颖的组件,StoryDiffusion框架可以可以准确生成一个基于文本的故事,其中包含一致的图像或视频,包含丰富的内容。StoryDiffusion是一项通过图像和视频的呈现在视觉故事生成方面进行的开创性探索工作。
AIGC专区:
https://heehel.com/category/aigc
教程专区:
https://heehel.com/category/ai-tutorial
工具箱:
https://heehel.com/ai-tools#ai-3d
03-StoryDiffusion算法流程
03.01-一致性图像生成流程
上图展示了StoryDiffusion生成主题一致图像的整体流程。为了创建主题一致的图像来描述故事,作者将一致的自我注意力纳入预训练的文生图扩散模型中。作者将一个故事文本拆分为多个提示,并使用这些提示来批量生成图像。一致的自我注意力机制在一批图像中建立多个图像之间的连接,从而实现主题的一致性。
03.02-一致性视频生成流程
上图展示了StoryDiffusion生成过渡视频从而获得主题一致性图像的方法的整体流程。详细的步骤如下所述:
首先,将生成的一致性图片或者用户的输入图片输入到一个语义空间运动预测模块中,从而获得针对每一帧的控制信号。运动预测模块由一个图像编码器、语义空间插值模块和一个带有残差连接的Transformer块组成。
然后,将Xt和每一帧的控制信号同时输入到一个视频扩散模型中;
最后,视频扩散模型经过编解码操作获得一致性的视频输出。
04-StoryDiffusion算法应用场景
04.01-漫画生成
上图展示了StoryDiffusion算法可以创作出令人印象深刻且风格各异的漫画。
04.02-卡通人物生成
上图展示了StoryDiffusion算法可以创造出令人惊叹的一致卡通风格的人物,图中展示了一只鸟、一只松鼠和一只刺猬生成的卡通风格。
04.03-多人物角色生成
上图展示了StoryDiffusion算法可以同时维护多个角色的身份,并在一系列图像中生成一致的角色。
04.04-视频生成
05-StoryDiffusion算法环境搭建与运行
05.01-环境搭建
# 创建conda虚拟环境 conda create --name storydiffusion python=3.10 # 激活虚拟环境 conda activate storydiffusion pip install -U pip # 安装python三方依赖库 pip install -r requirements.txt
05.02-运行Demo
# 方式1 在jupyter中打开 Comic_Generation.ipynb # 方式2-在本地运行gradio demo python gradio_app_sdxl.py
06-StoryDiffusion算法性能评估
06.01-主观效果性能评估
上面两张图展示了该算法与多个SOTA算法(IP-Adapter与PhotoMaker)在相同的文本输入条件下一致性图片的生成效果。通过仔细的观察与分析,我们可以得出以下的初步结论:StoryDiffusion可以生成高度一致的图像,而其它方法可能会生成服装不一致或文本可控性降低的图像。StoryDiffusion可以准确生成主题一致的图像,具有相同的脸和相同的服装,并且符合提示中的描述。
上图展示了StoryDiffusion算法与多个SOTA的视频生成算法(SEINE、SparseCtrl)算法生成的一致性视频效果展示。通过仔细观察与分析,我们可以得出以下的初步结论:StoryDiffusion可以生成具有出色连续性的一致视频。在最后一个例子中,该算法生成的视频遵循物理空间关系,不像SEINE和SparseCtrl那样,它们只会改变转换中的外观。
06.02-客观指标性能评估
该算法与多个SOTA的文生图算法(IP-Adapter、Photo Maker)生成的一致性图像的客观指标评估结果。评估的指标包括:文本与图像的相似度和字符相似度。通过观察我们可以发现:StoryDiffusion在两项评估指标上面都取得了最高的分数。
该算法与多个SOTA的文生视频算法(SEINE、SparseCtrl)生成的一致性视频的客观指标评价结果。评估的指标包括:LPIPS与CLIPSIM等。通过观察我们可以发现:StoryDiffusion在多项评估指标上面获得了最高的分数,与其它算法拉开了较大的差距。
07-StoryDiffusion算法效果展示