【AI论文与新生技术】人物一致救星StoryMaker:在文本生成图像的生成中实现一致的角色

StoryMaker 是一种人物一致解决方案,不仅可以保留多个角色场景中面部的一致性,还可以保留服装、发型和身体的一致性,从而可以制作由一系列图像组成的故事。

免调整个性化图像生成方法在保持面部一致性(即身份)方面取得了巨大成功,即使是多个角色。然而,多个角色的场景缺乏整体一致性,阻碍了这些方法创造连贯叙事的能力。在本文中,我们介绍了 StoryMaker,这是一种个性化解决方案,不仅可以保持面部一致性,还可以保持服装、发型和身体的一致性,从而促进通过一系列图像创建故事。 StoryMaker 结合了基于面部身份和裁剪的角色图像的条件,其中包括服装、发型和身体。

具体来说,我们使用位置感知感知器重采样器(PPR)将面部身份信息与裁剪的角色图像集成,以获得不同的角色特征。为了防止多个字符和背景混合,我们使用带有分割掩模的 MSE 损失分别约束不同字符和背景的交叉注意力影响区域。此外,我们还训练以姿势为条件的生成网络,以促进与姿势的解耦。 LoRA 还用于提高保真度和质量。实验强调了我们方法的有效性。 StoryMaker 支持众多应用程序,并与其他社交插件兼容。

【AI论文与新生技术】人物一致救星StoryMaker:在文本生成图像的生成中实现一致的角色

StoryMaker 生成的图像的可视化。前三行讲述的是“上班族”一天的生活,后两行讲述的是电影《爱在黎明破晓前》的故事。

(人物一致救星StoryMaker项目介绍、代码和模型下载链接👇)

StoryMaker通过结合人脸信息和裁剪后的角色图像(包括衣着、发型和身体),使用一种叫做位置感知感知器重采样器(Positional-aware Perceiver Resampler,简称PPR)的技术,来提取和融合这些特征,从而生成具有独特特征的角色图像。此外,它还通过一种称为MSE损失与分割掩码的技术,来防止多个角色和背景相互干扰。StoryMaker还能通过一种名为ControlNet的技术,根据预测的姿势来训练模型,使得生成的角色姿势多样化。最后,它还使用LoRA的技术来提高图像的保真度和质量。

StoryMaker技术原理

  1. 信息提取:首先从参考图像中提取角色的面部信息和衣着、发型、身体的细节。
  2. 特征融合:使用PPR技术将提取的面部特征和角色特征融合,形成独特的角色嵌入。
  3. 区域约束:通过MSE损失和分割掩码,控制不同角色和背景的交叉注意力影响区域,防止它们相互干扰。
  4. 姿势解耦:利用ControlNet根据预测的姿势来训练模型,使得生成的角色姿势可以多样化。
  5. 质量提升:通过LoRA技术提高生成图像的保真度和质量。

StoryMaker功能

  1. 生成一系列具有一致面部、衣着、发型和身体特征的角色图像。
  2. 允许通过文本提示改变背景、角色姿势和风格,以创造叙事。
  3. 支持多种应用,如服装交换、图像变化,并可与其他社会插件兼容。

StoryMaker应用场景

  1. 数字故事讲述:通过一系列图像讲述连贯的故事。
  2. 漫画创作:生成具有一致角色特征的漫画序列。
  3. 个性化图像生成:根据用户描述生成具有特定特征的角色图像。
  4. 虚拟试衣:在虚拟环境中为角色试穿不同的服装。

【AI论文与新生技术】人物一致救星StoryMaker:在文本生成图像的生成中实现一致的角色

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索