SANA：英伟达联手MIT和清华打造，图像生成领域的革命性突破

AIGC
来源：喜好儿网
4小时前
🍔喜好值+
编辑

HeeHel喜好儿官方小编

SANA，由英伟达、麻省理工学院和清华大学联合打造，是一款突破性的生图模型，它在图像生成的速度和质量上树立了新的行业标准。这款模型有两种配置——0.6B和1.6B版本，以适应不同用户的需求。SANA在生成高分辨率图像时的速度是FLUX-Dev的100倍，同时图像质量与SDXL相当，这显示了其卓越的性能。

文章目录

英伟达联手MIT和清华打造SANA图像生成模型项目详情👇

超级无敌AI绘画AI音频AI视频模型下载分享专题：
https://heehel.com/collection/topic-aigcmod-download

SANA的亮点在于它能够快速生成高分辨率且文本对齐精确的图像，并且可以在笔记本电脑GPU上运行，这让它在便携性和易用性上具有明显优势。它采用了深度压缩自动编码器，能够将图像压缩32倍，大大减少了潜在标记的数量。此外，SANA使用了线性注意力机制，提高了高分辨率图像生成的效率，同时保持了图像质量。

SANA还采用了仅解码器文本编码器，用现代小型LLM替换了T5，并通过上下文学习进行复杂的人工指导，以增强图像文本对齐。它还提出了Flow-DPM-Solver，减少了采样步骤，并通过高效的标题标记和选择来加速训练和采样过程。

在性能上，Sana-0.6B虽然吞吐量比现代巨型扩散模型小20倍，但速度却快了100倍以上，显示出其强大的竞争力。Sana-0.6B能在16GB的笔记本电脑GPU上运行，不到1秒就能生成1024×1024分辨率的图像。这意味着SANA能够以低成本快速创建内容，其高效性能和便携性使其成为图像生成领域的有力竞争者。随着AI技术的不断进步，SANA的出现预示着图像生成技术的新纪元。