PuLID:文本到图像生成的新颖的免调整 ID 定制通过对比对齐 Pure 和 Lightning ID

PuLID:文本到图像生成的新颖的免调整 ID 定制通过对比对齐 Pure 和 Lightning ID

我们提出了 Pure 和 Lightning ID 定制(PuLID),这是一种用于文本到图像生成的新颖的免调整 ID 定制方法。通过将 Lightning T2I 分支与标准扩散分支相结合,PuLID 引入了对比对准损失和精确 ID 损失,最大限度地减少对原始模型的破坏并确保高 ID 保真度。实验表明,PuLID 在 ID 保真度和可编辑性方面均取得了优异的性能。 PuLID 的另一个吸引人的特性是 ID 插入前后的图像元素(例如背景、灯光、构图和风格)尽可能保持一致。

代码和模型:https://github.com/ToTheBeginning/PuLID

AIGC专区:
https://heehel.com/category/aigc

更多消息:
https://heehel.com/category/ai-news

PuLID:文本到图像生成的新颖的免调整 ID 定制通过对比对齐 Pure 和 Lightning ID

简介————

PuLID作为定制文本到图像生成的特殊类别,身份 (ID) 定制允许用户调整预先训练的T2I扩散模型以与其个性化 ID 保持一致。其中一项工作对用户提供的具有相同 ID 的几张图像上的某些参数进行微调,从而将 ID 嵌入到生成模型中。这些方法催生了许多流行的AI人像应用,例如PhotoAI和EPIK。

虽然基于调整的解决方案取得了值得称赞的成果,但针对每个 ID 进行定制需要数十分钟的微调,从而使个性化过程在经济上变得昂贵。另一项工作放弃了对每个 ID 进行微调的必要性,而是诉诸于在庞大的肖像数据集上预训练 ID 适配器。这些方法通常利用编码器(例如 CLIP 图像编码器)来提取 ID 特征。然后,提取的特征以特定方式集成到基础扩散模型中(例如,嵌入到交叉注意层中)。尽管效率很高,但这些免调优方法面临两个重大挑战。

ID 的插入会破坏原始模型的行为。纯ID信息嵌入应该具有两个特征。首先,理想的ID插入应该只改变与ID相关的方面,例如面部、发型和肤色,而与特定身份不直接相关的图像元素,例如背景、灯光、构图和风格,应该与特定身份一致。原始模型的行为。据我们所知,这一点在之前的作品中并未得到关注。虽然一些研究 已经显示了风格化 ID 生成的能力,但与 ID 插入之前的图像相比,出现了显着的风格退化(如图 1 所示)。 ID 保真度较高的方法往往会导致更严重的风格退化。

PuLID:文本到图像生成的新颖的免调整 ID 定制通过对比对齐 Pure 和 Lightning ID

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索