字节跳动与旷视科技联手推出HiDiffusion，一键提升图像生成清晰度和速度-喜好儿网

近日，科技巨头字节跳动与人工智能领域的领先企业旷视科技携手合作，共同推出了一款名为HiDiffusion的创新框架。该框架无需任何额外训练，仅凭一行代码，便能显著增强扩散模型（SD）生成图像的清晰度，并大幅提升图像生成速度。

旷视科技是一家成立于2011年的人工智能企业，由印奇、唐文斌和杨沐三位创始人成立。公司以深度学习为核心竞争力，融合算法、算力和数据，打造了"三位一体"的新一代AI生产力平台旷视Brain++，并开源其核心——深度学习框架"天元"。旷视科技的技术主要应用于消费物联网、城市物联网和供应链物联网三大场景，并在这些领域提供了包括算法、软件和硬件产品在内的全栈式、一体化解决方案。

AIGC专区：
https://heehel.com/category/aigc

更多消息：
https://heehel.com/category/ai-news

HiDiffusion官方介绍：https://hidiffusion.github.io/

github项目文件：https://github.com/megvii-research/HiDiffusion

论文链接：https://arxiv.org/abs/2311.17528

HiDiffusion框架的推出，无疑为图像生成领域带来了一股强大的新动力。在实际应用中，它支持将图像生成的分辨率提升至惊人的4096×4096，为用户呈现出更为细腻、逼真的视觉效果。同时，通过优化算法，HiDiffusion还能将图像生成速度提升1.5至6倍，极大地提高了工作效率。

值得一提的是，HiDiffusion框架具有极强的兼容性。它不仅支持所有SD模型，同时也适用于SD模型的下游模型，如Playground等。这一特点使得HiDiffusion能够轻松融入现有的图像生成工作流程中，为用户带来无缝的升级体验。

那么，HiDiffusion究竟是如何实现这一神奇的效果的呢？据悉，该框架由分辨率感知U-Net（RAU-Net）和改进的移位窗口多头自注意力（MSW-MSA）两部分组成。其中，RAU-Net通过动态调整特征图尺寸，有效避免了图像中对象重复的问题；而MSW-MSA则通过优化自注意力机制，大幅减少了计算量，提高了生成速度。

在图像生成过程中，预训练的扩散模型在生成超出训练图像分辨率的图像时，往往会遇到不合理的对象重复问题。HiDiffusion框架通过引入RAU-Net，成功解决了这一难题。RAU-Net能够动态调整特征图大小，以匹配U-Net深层块中卷积的感受野，从而有效避免了图像中对象的重复出现。

另一方面，HiDiffusion还通过引入MSW-MSA机制，显著提升了图像生成速度。传统的U-Net模型在生成高分辨率图像时，顶部块中的全局自注意力表现出强烈的局部性，但计算资源消耗巨大。MSW-MSA机制通过采用更大的窗口大小并动态移动窗口，更好地适应了扩散模型的需求，大幅减少了计算量，从而提高了生成速度。

通过大量的实验验证，HiDiffusion框架在生成高分辨率图像方面展现出了卓越的性能。无论是1024×1024、2048×2048还是4096×4096的分辨率，HiDiffusion都能轻松应对，同时保持出色的生成速度和图像质量。这一成果无疑为图像生成领域树立了新的标杆。

字节跳动与旷视科技联手推出HiDiffusion，一键提升图像生成清晰度和速度

相关推荐

【央视网】绝了！AI视角下的神州大地每一帧都是屏保

热门专题

快讯

热门文章

喜好儿——再不认真就输了！

致力于发现ai人工智能应用的新世界，长期更新目前热门AI教程与动态！期待在这个工业变革时代中，希望你我都能发出一点光。

切换注册登录

切换登录注册