一致性模型在促进高效图像/视频生成、以最少的采样步骤进行合成方面表现出了卓越的能力。事实证明,它有利于减轻与扩散模型相关的计算负担。然而,一致性模型在音乐生成中的应用在很大程度上仍未得到探索。
原文链接:https://huggingface.co/papers/2404.14219
AIGC专区:
https://heehel.com/category/aigc
更多消息:
https://heehel.com/category/ai-news
为了解决这一差距,我们提出了音乐一致性模型(\texttt{MusicCM}),它利用一致性模型的概念来有效地合成音乐剪辑的梅尔频谱图,在保持高质量的同时最大限度地减少采样步骤的数量。 \texttt{MusicCM} 模型以现有的文本到音乐扩散模型为基础,结合了一致性蒸馏和对抗性鉴别器训练。
此外,我们发现通过将多个扩散过程与共享约束相结合来生成扩展的连贯音乐是有益的。实验结果揭示了我们的模型在计算效率、保真度和自然度方面的有效性。值得注意的是, \texttt{MusicCM} 只需四个采样步骤即可实现无缝音乐合成,例如音乐剪辑每分钟仅一秒,展示了实时应用的潜力。