可编辑图像元素图像生成模型：自动在输出图像中执行对象收缩和去遮挡以尊重编辑的元素-喜好儿网

扩散模型在文本引导的合成任务中取得了重大进展。然而，编辑用户提供的图像仍然具有挑战性，因为扩散模型的高维噪声输入空间并不自然适合图像反演或空间编辑。在这项工作中，我们提出了一种图像表示，可以使用扩散模型促进输入图像的空间编辑。具体来说，我们学习将输入编码为可以忠实地重建输入图像的“图像元素”。这些元素可以由用户直观地编辑，并通过扩散模型解码为逼真的图像。我们展示了我们的表示在各种图像编辑任务上的有效性，例如对象调整大小、重新排列、拖动、去遮挡、移除、变化和图像合成。

项目页面：https://jitengmu.github.io/Editable_Image_Elements/

AIGC专区：
https://heehel.com/category/aigc

更多消息：
https://heehel.com/category/ai-news

介绍

针对文本条件图像合成任务训练的高容量扩散模型正在达到照片级真实感。这些模型先学习到的强图像对于下游图像合成任务也很有效，例如从空间调节或从自定义对象的一些示例照片生成新场景。

然而，虽然扩散模型经过训练可以“从头开始”生成图像，但对其进行改造以进行图像编辑仍然具有惊人的挑战性。一种范例是从图像空间反转到噪声空间。然而，忠实地重建图像和遵循训练分布的可编辑表示之间存在天然的张力，导致在添加什么类型以及多少噪声和正则化方面面临挑战。另一种方法是调整扩散模型以适应图像的表示，

图 1：我们提出可编辑图像元素，这是一种灵活的表示形式，可以忠实地重建输入图像，同时启用各种空间编辑操作。（上）用户只需识别有趣的图像元素（红点）并编辑它们的位置和大小（绿点）。我们的模型自动在输出图像中执行对象收缩和去遮挡以尊重编辑的元素。例如，对汽车缺失的角落进行修补。（底部）显示了更多编辑输出：对象替换、对象删除、重新排列和图像合成。

例如以边缘图为条件的 ControlNet。然而，虽然扩散模型将遵循引导，但它可能无法捕获引导信号中不存在的输入图像的属性。最后，一个选项是在一组概念图像上调整网络。尽管此类方法在新情况下生成该概念的新实例，但这些是全新的图像，而不是原始图像的修改。此外，在这些现有的工作流程中，表示（输入噪声图或边缘图）不适合精确的空间控制。我们的目标是探索一种互补的表示形式，以实现输入图像的空间编辑。

为此，我们提出了一种图像编辑框架，不仅可以快速实现输入图像的忠实重建而无需优化循环，而且还允许对输入图像进行空间编辑。我们的编辑过程首先将输入图像的每个内容划分为补丁区域（图 1）并分别对每个补丁进行编码。我们将图像表示为补丁嵌入、大小和质心位置的集合，这些集合直接暴露给用户作为编辑控件。补丁可视化为编辑提供了直观的控制点，因为补丁是可移动的、可调整大小的、可删除的，最重要的是用语义上有意义的边界来描绘。编辑后的补丁属性由强大的基于扩散的解码器解码为逼真的图像。特别是，虽然我们的解码器经过训练以尽可能保留输入内容，但即使某些补丁嵌入丢失或冲突，它仍然能够将编辑的属性协调为真实的图像。

我们的方法分享即使某些补丁嵌入丢失或与图像“标记化”方法（例如 VQGAN [9] 或潜在扩散模型的 KLautoencoder [33]）相同的目标相冲突，因为它的目标是将输入图像自动编码为空间嵌入的集合可以忠实地重建原始图像。然而，我们的标记化并没有遵循卷积网格，而是在空间上灵活，而是与输入图像的语义上有意义的片段对齐。

可编辑图像元素图像生成模型：自动在输出图像中执行对象收缩和去遮挡以尊重编辑的元素

相关推荐

【央视网】绝了！AI视角下的神州大地每一帧都是屏保

热门专题

快讯

热门文章

喜好儿——再不认真就输了！

致力于发现ai人工智能应用的新世界，长期更新目前热门AI教程与动态！期待在这个工业变革时代中，希望你我都能发出一点光。

切换注册登录

切换登录注册