【AI论文与新生技术】Diffree:输入提示词描述词自动匹配正确位置并添加对象

本文解决了仅使用文本引导的图像的对象添加的重要问题。这是具有挑战性的,因为新对象必须无缝集成到图像中,并具有一致的视觉上下文,例如照明、纹理和空间位置。虽然现有的文本引导图像修复方法可以添加对象,但它们要么无法保持背景一致性,要么在指定边界框或用户乱写的蒙版时涉及繁琐的人工干预。

为了应对这一挑战,我们引入了 Diffree,一种文本到图像 (T2I) 模型,可以仅通过文本控制来实现文本引导的对象添加。为此,我们通过使用先进的图像修复技术删除对象来策划 OABench,这是一个精致的合成数据集。 OABench 包含 74K 个真实世界的原始图像元组、删除了对象的修复图像、对象蒙版和对象描述。

Diffree 使用带有附加掩模预测模块的稳定扩散模型在 OABench 上进行训练,可以独特地预测新对象的位置,并仅在文本的指导下实现对象添加。大量实验表明,Diffree 擅长以高成功率添加新对象,同时保持背景一致性、空间适当性以及对象相关性和质量。

(Diffree项目文件资料和论文链接在下方👇)

AI论文与新生技术专题:
https://heehel.com/collection/topic-aipapers-jiaocheng

Overview 概述

【AI论文与新生技术】Diffree:输入提示词描述词自动匹配正确位置并添加对象 Diffree 经过训练,可以在给定原始图像和对象文本描述的情况下预测包含新对象的掩模和图像。得益于 OABench 中对自然场景中物体的广泛覆盖,Diffree 可以将各种物体添加到同一张图像中,同时很好地匹配视觉上下文。此外,Diffree 可以迭代地将对象插入到单个图像中,同时使用生成的掩模保持背景一致性。

实现过程

【AI论文与新生技术】Diffree:输入提示词描述词自动匹配正确位置并添加对象

为了实现高质量的文本引导对象添加,我们策划了一个名为“对象添加基准”(OABench) 的合成数据集,该数据集由 74K 个真实世界元组组成,其中包括原始图像、修复图像、对象的掩模图像和对象描述。数据整理流程如下图所示。注意,对象添加可以被视为对象移除的逆过程。我们通过使用先进的图像修复算法删除图像中的对象来构建 OABench。这样,我们就可以获得包含物体的原始图像、去除物体的修复图像、物体掩模和物体描述。

Visualization 可视化

【AI论文与新生技术】Diffree:输入提示词描述词自动匹配正确位置并添加对象

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索