PuLID：文本到图像生成的新颖的免调整 ID 定制通过对比对齐 Pure 和 Lightning ID

+AI动态 AIGC 网站公告
4月26日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

PuLID：文本到图像生成的新颖的免调整 ID 定制通过对比对齐 Pure 和 Lightning ID

我们提出了 Pure 和 Lightning ID 定制（PuLID），这是一种用于文本到图像生成的新颖的免调整 ID 定制方法。通过将 Lightning T2I 分支与标准扩散分支相结合，PuLID 引入了对比对准损失和精确 ID 损失，最大限度地减少对原始模型的破坏并确保高 ID 保真度。实验表明，PuLID 在 ID 保真度和可编辑性方面均取得了优异的性能。 PuLID 的另一个吸引人的特性是 ID 插入前后的图像元素（例如背景、灯光、构图和风格）尽可能保持一致。

代码和模型：https://github.com/ToTheBeginning/PuLID

AIGC专区：
https://heehel.com/category/aigc

更多消息：
https://heehel.com/category/ai-news

PuLID：文本到图像生成的新颖的免调整 ID 定制通过对比对齐 Pure 和 Lightning ID

简介————

PuLID作为定制文本到图像生成的特殊类别，身份 (ID) 定制允许用户调整预先训练的T2I扩散模型以与其个性化 ID 保持一致。其中一项工作对用户提供的具有相同 ID 的几张图像上的某些参数进行微调，从而将 ID 嵌入到生成模型中。这些方法催生了许多流行的AI人像应用，例如PhotoAI和EPIK。

虽然基于调整的解决方案取得了值得称赞的成果，但针对每个 ID 进行定制需要数十分钟的微调，从而使个性化过程在经济上变得昂贵。另一项工作放弃了对每个 ID 进行微调的必要性，而是诉诸于在庞大的肖像数据集上预训练 ID 适配器。这些方法通常利用编码器（例如 CLIP 图像编码器）来提取 ID 特征。然后，提取的特征以特定方式集成到基础扩散模型中（例如，嵌入到交叉注意层中）。尽管效率很高，但这些免调优方法面临两个重大挑战。

ID 的插入会破坏原始模型的行为。纯ID信息嵌入应该具有两个特征。首先，理想的ID插入应该只改变与ID相关的方面，例如面部、发型和肤色，而与特定身份不直接相关的图像元素，例如背景、灯光、构图和风格，应该与特定身份一致。原始模型的行为。据我们所知，这一点在之前的作品中并未得到关注。虽然一些研究已经显示了风格化 ID 生成的能力，但与 ID 插入之前的图像相比，出现了显着的风格退化（如图 1 所示）。 ID 保真度较高的方法往往会导致更严重的风格退化。

PuLID：文本到图像生成的新颖的免调整 ID 定制通过对比对齐 Pure 和 Lightning ID