【AI论文与新生技术】Generative Photomontage图像蒙太奇:将生成图像的各个部分进行合成

【AI论文与新生技术】Generative Photomontage图像蒙太奇:将生成图像的各个部分进行合成

文本到图像模型是图像创建的强大工具。 然而,生成过程类似于掷骰子,很难获得单个图像 捕获用户想要的一切。 在本文中,我们提出了一个用于创建所需图像的框架——Generative Photomontage图像蒙太奇,通过将生成图像的各个部分进行合成,本质上形成了生成蒙太奇。

给定 ControlNet 使用相同输入条件和不同种子生成的一堆图像, 研究人员让用户使用画笔描边界面从生成的结果中选择所需的部分。 他们引入了一种吸收用户笔触的新技术, 对生成的图像进行分割 在扩散特征空间中使用基于图的优化, 然后通过新的特征空间混合方法合成分割区域。 他们的方法忠实地保留了用户选择的区域,同时将它们和谐地合成。

研究人员证明Generative Photomontage图像蒙太奇可用于许多应用程序, 包括生成新的外观组合、修复不正确的形状和伪影, 并改进提示对齐。 他们为每个应用程序展示了令人信服的结果,并证明他们的方法优于现有的图像混合方法 以及各种基线。

(Generative Photomontage项目文件资料链接在下方👇)

AI论文与新生技术专题:
https://heehel.com/collection/topic-aipapers-jiaocheng

【AI论文与新生技术】Generative Photomontage图像蒙太奇:将生成图像的各个部分进行合成

实现方法

Generative Photomontage图像蒙太奇接收一堆生成的图像,并根据稀疏的用户笔画生成最终图像。

  • (a) 在我们的图像堆栈中,图像通常是通过 ControlNet 使用一个或多个提示生成的。生成的图像共享共同的空间结构,因为它们是使用相同的输入条件(例如,边缘图或深度图)生成的。
  • (b) 在浏览图像堆栈时,用户通过图像上的粗笔触选择所需的对象和区域。在下面的示例中,用户希望移除第一张图像中苹果咬伤处的岩石,并添加第三张图像中的红叶。为此,用户在第一幅图像中的基岩、第二幅图像中的一片草以及第三幅图像中的红叶上绘制笔画。他们的系统接受用户输入,并在自注意力特征空间(K 个特征)中执行多标签图切割优化,以找到堆栈中图像区域的分割,从而最大限度地减少接缝。
  • (c) 然后使用图切割结果形成复合 Q、K、V 特征,然后将其注入到自注意力层中。最终图像是用户选择区域的和谐组合。

【AI论文与新生技术】Generative Photomontage图像蒙太奇:将生成图像的各个部分进行合成

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索