//再不认真就输了!
//致力于发现AIGC动态与教程。

字节跳动与旷视科技联手推出HiDiffusion,一键提升图像生成清晰度和速度

近日,科技巨头字节跳动与人工智能领域的领先企业旷视科技携手合作,共同推出了一款名为HiDiffusion的创新框架。该框架无需任何额外训练,仅凭一行代码,便能显著增强扩散模型(SD)生成图像的清晰度,并大幅提升图像生成速度。

旷视科技是一家成立于2011年的人工智能企业,由印奇、唐文斌和杨沐三位创始人成立。公司以深度学习为核心竞争力,融合算法、算力和数据,打造了"三位一体"的新一代AI生产力平台旷视Brain++,并开源其核心——深度学习框架"天元"。旷视科技的技术主要应用于消费物联网、城市物联网和供应链物联网三大场景,并在这些领域提供了包括算法、软件和硬件产品在内的全栈式、一体化解决方案。

AIGC专区:
https://heehel.com/category/aigc

更多消息:
https://heehel.com/category/ai-news

HiDiffusion官方介绍:https://hidiffusion.github.io/

github项目文件:https://github.com/megvii-research/HiDiffusion

论文链接:https://arxiv.org/abs/2311.17528

HiDiffusion框架的推出,无疑为图像生成领域带来了一股强大的新动力。在实际应用中,它支持将图像生成的分辨率提升至惊人的4096×4096,为用户呈现出更为细腻、逼真的视觉效果。同时,通过优化算法,HiDiffusion还能将图像生成速度提升1.5至6倍,极大地提高了工作效率。

值得一提的是,HiDiffusion框架具有极强的兼容性。它不仅支持所有SD模型,同时也适用于SD模型的下游模型,如Playground等。这一特点使得HiDiffusion能够轻松融入现有的图像生成工作流程中,为用户带来无缝的升级体验。

那么,HiDiffusion究竟是如何实现这一神奇的效果的呢?据悉,该框架由分辨率感知U-Net(RAU-Net)和改进的移位窗口多头自注意力(MSW-MSA)两部分组成。其中,RAU-Net通过动态调整特征图尺寸,有效避免了图像中对象重复的问题;而MSW-MSA则通过优化自注意力机制,大幅减少了计算量,提高了生成速度。

在图像生成过程中,预训练的扩散模型在生成超出训练图像分辨率的图像时,往往会遇到不合理的对象重复问题。HiDiffusion框架通过引入RAU-Net,成功解决了这一难题。RAU-Net能够动态调整特征图大小,以匹配U-Net深层块中卷积的感受野,从而有效避免了图像中对象的重复出现。

另一方面,HiDiffusion还通过引入MSW-MSA机制,显著提升了图像生成速度。传统的U-Net模型在生成高分辨率图像时,顶部块中的全局自注意力表现出强烈的局部性,但计算资源消耗巨大。MSW-MSA机制通过采用更大的窗口大小并动态移动窗口,更好地适应了扩散模型的需求,大幅减少了计算量,从而提高了生成速度。

通过大量的实验验证,HiDiffusion框架在生成高分辨率图像方面展现出了卓越的性能。无论是1024×1024、2048×2048还是4096×4096的分辨率,HiDiffusion都能轻松应对,同时保持出色的生成速度和图像质量。这一成果无疑为图像生成领域树立了新的标杆。

版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《字节跳动与旷视科技联手推出HiDiffusion,一键提升图像生成清晰度和速度》
文章链接:https://heehel.com/aigc/bytedance-megvii-hidiffusion.html
本站资源仅供个人学习交流,未经许可不得用于商业用途,自行承担法律责任。
如有疑问,请联系微信:heehelcom

喜好儿——再不认真就输了!

致力于发现ai人工智能应用的新世界, 长期更新目前热门AI教程与动态!期待在这个工业变革时代中,希望你我都能发出一点光。

登录

找回密码

注册