【AI论文与新生技术】TurboEdit:基于文本的即时图像编辑

研究人员在少步扩散模型的背景下解决了精确图像反演和解缠结图像编辑的挑战。他们引入基于编码器的迭代反转技术。反演网络以输入图像和上一步的重建图像为条件,允许对输入图像进行下一次重建校正。

他们证明,TurboEdit可以通过调节(自动生成的)详细文本提示,可以在几步扩散模型中轻松实现解缠结控制。为了操纵倒置图像,他们冻结噪声图并修改文本提示中的一个属性(手动或通过由一个驱动程序驱动的基于指令的编辑)LLM ),从而生成与输入图像相似的新图像,仅更改一个属性。TurboEdit可以进一步控制编辑强度并接受指导性文本提示。

研究人员的方法促进了实时的真实文本引导图像编辑,仅需要 8 次反演功能评估 (NFE)(一次性成本)和每次编辑 4 次 NFE。TurboEdit不仅速度快,而且显着优于最先进的多步扩散编辑技术。

(TurboEdit项目文件链接在下方👇)

AI论文与新生技术专题:
https://heehel.com/collection/topic-aipapers-jiaocheng

现实方法

【AI论文与新生技术】TurboEdit:基于文本的即时图像编辑

给定输入真实图像 x0,他们利用 LLaVA 生成详细的标题 c。用户可以修改c来创建新的文本提示c′。反演过程首先将 x0, c、当前时间步长 t 和先前重建的图像 x0,t+1(初始化为零矩阵)输入反演网络。然后,该网络预测噪声 ϵt,随后将其输入到冻结的 SDXL-Turbo 模型中以生成新的重建图像 x0,t。给定最终的反演噪声 ϵt 和 c,他们可以使用 SDXL-Turbo 创建反演轨迹并重建 x0,0,这与 x0 非常相似。使用相同的噪声 ϵt 和稍微不同的文本提示 c ′,从 t = T 开始到较小的 t,编辑轨迹将与反转轨迹非常相似,并且生成的图像将与输入图像非常相似,仅在指定c'. 中的属性

想象一下,你有一张风景照片,但你想让照片中的小狗变成一只小猫。使用TurboEdit,你只需要输入一个描述,比如“把狗变成小猫”,它就能理解你的需求,并在照片中做出相应的改变,而且几乎不会影响到照片的其他部分。

这项技术之所以强大,是因为它使用了一种特殊的AI模型,这个模型经过训练,可以理解复杂的文本提示,并将这些提示转换成图片上的具体变化。无论是改变照片中物体的颜色、添加或删除某个元素,还是将整个场景的风格从夏天变为冬天,TurboEdit都能够实现。

而且,TurboEdit的编辑过程非常快,几乎可以做到实时编辑。这意味着你可以立刻看到输入的文本指令如何在图片上产生效果。此外,它不需要大量的计算资源,使得这项技术更容易被普及和使用。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索