【AI论文与新生技术】自回归模型击败扩散:用于可扩展图像生成的 Llama

我们介绍了 LlamaGen,这是一个新的图像生成模型系列,它将大型语言模型的原始“下一个标记预测”范式应用于视觉生成领域。对于视觉信号上没有归纳偏差的普通自回归模型(例如 Llama)是否可以在适当缩放的情况下实现最先进的图像生成性能,这是一个肯定的答案。

【AI论文与新生技术】自回归模型击败扩散:用于可扩展图像生成的 Llama

我们重新检查图像标记器的设计空间、图像生成模型的可扩展性属性及其训练数据质量。

这一探索的成果包括:

  1. 图像标记器,在 ImageNet 基准上下采样率为 16,重建质量为 0.94 rFID,码本使用率为 97%。
  2. 一系列从111M到3.1B参数的类条件图像生成模型,在ImageNet 256x256基准上实现2.18 FID,优于LDM、DiT等流行的扩散模型。
  3. 具有 775M 参数的文本条件图像生成模型,来自 LAION-COCO 和高美学质量图像的两阶段训练,展示了视觉质量和文本对齐的竞争性能。
  4. 我们验证了LLM服务框架在优化图像生成模型的推理速度方面的有效性,并实现了326% - 414%的加速。

项目链接:https://github.com/FoundationVision/LlamaGen

论文链接:https://huggingface.co/papers/2406.06525

AIGC专区:
https://heehel.com/category/aigc

LlamaGen模型通过适当扩展,无需对视觉信号进行特定的归纳偏差,就能实现最先进的图像生成性能。

【AI论文与新生技术】自回归模型击败扩散:用于可扩展图像生成的 Llama

研究团队重新审视了图像分词器的设计、图像生成模型的可扩展性以及训练数据质量。他们开发了一种图像分词器,能够在ImageNet基准测试中以16倍的下采样比例达到0.94的rFID重建质量,并高效利用码本。此外,他们还创建了一系列从111M到3.1B参数不等的条件图像生成模型,这些模型在256×256的ImageNet基准测试中实现了2.18的FID,超越了流行的扩散模型如LDM和DiT。

LlamaGen还包括一个基于文本条件的图像生成模型,该模型在经过两阶段训练后,能够在视觉上和文本对齐方面展现出竞争力。此外,研究者们还验证了大型语言模型服务框架(如vLLM)在优化图像生成模型推理速度方面的有效性,实现了326% - 414%的加速。

【AI论文与新生技术】自回归模型击败扩散:用于可扩展图像生成的 Llama

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索