扩散模型的快速发展引发了多样化的应用。身份保留文本到图像生成(ID-T2I)因其广泛的应用场景(例如人工智能肖像和广告)而受到广泛关注。
虽然现有的 ID-T2I 方法已经展示了令人印象深刻的结果,但仍然存在一些关键挑战:(1)很难准确地保持参考肖像的身份特征,(2)生成的图像缺乏审美吸引力,特别是在执行身份保留时,以及(3) )存在无法同时兼容基于LoRA和基于Adapter的方法的限制。为了解决这些问题,我们提出了 ID-Aligner,这是一个用于增强 ID-T2I 性能的通用反馈学习框架。为了解决身份特征丢失的问题,我们引入了身份一致性奖励微调,以利用人脸检测和识别模型的反馈来改善生成的身份保留。
此外,我们提出身份美学奖励微调,利用人类注释的偏好数据的奖励和自动构建的角色结构生成反馈来提供美学调整信号。得益于其通用反馈微调框架,我们的方法可以轻松应用于 LoRA 和 Adapter 模型,从而实现一致的性能增益。 SD1.5 和 SDXL 扩散模型的大量实验验证了我们方法的有效性。
项目页面:https://huggingface.co/papers/2404.15449
AIGC专区:
https://heehel.com/category/aigc