【AI论文与新生技术】人物一致救星StoryMaker：在文本生成图像的生成中实现一致的角色

AIGC AI+图片生成
来源：喜好儿网
9月23日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

StoryMaker 是一种人物一致解决方案，不仅可以保留多个角色场景中面部的一致性，还可以保留服装、发型和身体的一致性，从而可以制作由一系列图像组成的故事。

免调整个性化图像生成方法在保持面部一致性（即身份）方面取得了巨大成功，即使是多个角色。然而，多个角色的场景缺乏整体一致性，阻碍了这些方法创造连贯叙事的能力。在本文中，我们介绍了 StoryMaker，这是一种个性化解决方案，不仅可以保持面部一致性，还可以保持服装、发型和身体的一致性，从而促进通过一系列图像创建故事。 StoryMaker 结合了基于面部身份和裁剪的角色图像的条件，其中包括服装、发型和身体。

具体来说，我们使用位置感知感知器重采样器（PPR）将面部身份信息与裁剪的角色图像集成，以获得不同的角色特征。为了防止多个字符和背景混合，我们使用带有分割掩模的 MSE 损失分别约束不同字符和背景的交叉注意力影响区域。此外，我们还训练以姿势为条件的生成网络，以促进与姿势的解耦。 LoRA 还用于提高保真度和质量。实验强调了我们方法的有效性。 StoryMaker 支持众多应用程序，并与其他社交插件兼容。

【AI论文与新生技术】人物一致救星StoryMaker：在文本生成图像的生成中实现一致的角色

StoryMaker 生成的图像的可视化。前三行讲述的是“上班族”一天的生活，后两行讲述的是电影《爱在黎明破晓前》的故事。

文章目录

(人物一致救星StoryMaker项目介绍、代码和模型下载链接👇)

StoryMaker通过结合人脸信息和裁剪后的角色图像（包括衣着、发型和身体），使用一种叫做位置感知感知器重采样器（Positional-aware Perceiver Resampler，简称PPR）的技术，来提取和融合这些特征，从而生成具有独特特征的角色图像。此外，它还通过一种称为MSE损失与分割掩码的技术，来防止多个角色和背景相互干扰。StoryMaker还能通过一种名为ControlNet的技术，根据预测的姿势来训练模型，使得生成的角色姿势多样化。最后，它还使用LoRA的技术来提高图像的保真度和质量。