StoryMaker 是一种人物一致解决方案,不仅可以保留多个角色场景中面部的一致性,还可以保留服装、发型和身体的一致性,从而可以制作由一系列图像组成的故事。
免调整个性化图像生成方法在保持面部一致性(即身份)方面取得了巨大成功,即使是多个角色。然而,多个角色的场景缺乏整体一致性,阻碍了这些方法创造连贯叙事的能力。在本文中,我们介绍了 StoryMaker,这是一种个性化解决方案,不仅可以保持面部一致性,还可以保持服装、发型和身体的一致性,从而促进通过一系列图像创建故事。 StoryMaker 结合了基于面部身份和裁剪的角色图像的条件,其中包括服装、发型和身体。
具体来说,我们使用位置感知感知器重采样器(PPR)将面部身份信息与裁剪的角色图像集成,以获得不同的角色特征。为了防止多个字符和背景混合,我们使用带有分割掩模的 MSE 损失分别约束不同字符和背景的交叉注意力影响区域。此外,我们还训练以姿势为条件的生成网络,以促进与姿势的解耦。 LoRA 还用于提高保真度和质量。实验强调了我们方法的有效性。 StoryMaker 支持众多应用程序,并与其他社交插件兼容。
StoryMaker 生成的图像的可视化。前三行讲述的是“上班族”一天的生活,后两行讲述的是电影《爱在黎明破晓前》的故事。
(人物一致救星StoryMaker项目介绍、代码和模型下载链接👇)
StoryMaker通过结合人脸信息和裁剪后的角色图像(包括衣着、发型和身体),使用一种叫做位置感知感知器重采样器(Positional-aware Perceiver Resampler,简称PPR)的技术,来提取和融合这些特征,从而生成具有独特特征的角色图像。此外,它还通过一种称为MSE损失与分割掩码的技术,来防止多个角色和背景相互干扰。StoryMaker还能通过一种名为ControlNet的技术,根据预测的姿势来训练模型,使得生成的角色姿势多样化。最后,它还使用LoRA的技术来提高图像的保真度和质量。
StoryMaker技术原理
- 信息提取:首先从参考图像中提取角色的面部信息和衣着、发型、身体的细节。
- 特征融合:使用PPR技术将提取的面部特征和角色特征融合,形成独特的角色嵌入。
- 区域约束:通过MSE损失和分割掩码,控制不同角色和背景的交叉注意力影响区域,防止它们相互干扰。
- 姿势解耦:利用ControlNet根据预测的姿势来训练模型,使得生成的角色姿势可以多样化。
- 质量提升:通过LoRA技术提高生成图像的保真度和质量。
StoryMaker功能
- 生成一系列具有一致面部、衣着、发型和身体特征的角色图像。
- 允许通过文本提示改变背景、角色姿势和风格,以创造叙事。
- 支持多种应用,如服装交换、图像变化,并可与其他社会插件兼容。
StoryMaker应用场景
- 数字故事讲述:通过一系列图像讲述连贯的故事。
- 漫画创作:生成具有一致角色特征的漫画序列。
- 个性化图像生成:根据用户描述生成具有特定特征的角色图像。
- 虚拟试衣:在虚拟环境中为角色试穿不同的服装。