Music ControlNet:时变控制的创新音乐生成模型

随着文本到音乐生成模型的发展,如今我们能够欣赏到各种风格的高质量AI人工智能生成的音乐音频。然而,目前的文本控制主要局限于处理全局音乐属性,如流派、情绪和速度,对于时变属性的精确控制,例如节拍在时间中的位置或音乐的动态变化,存在一定的不足。为了弥补这一缺陷,Music ControlNet的团队提出了一种创新的音乐生成模型,称之为Music ControlNet,它基于扩散技术,可以对生成的音频进行多种精确、时变的控制。

在给文本到AI音乐模型注入时变控制的过程中,他们引入了一种类似于图像域ControlNet方法的像素控制策略。具体而言,他们从训练音频中提取控制数据,并在给定旋律、力度和节奏控制的情况下,在音频频谱图上微调基于扩散的条件生成模型。与传统的图像域Uni-ControlNet方法不同,他们设计了一种新的策略,允许创作者仅在时间上部分指定控制,从而更灵活地定制音乐的时变属性。

通过评估从音频中提取的控制和创作者提供的控制,他们证明了他们的模型能够生成与这两种设置中的控制输入相对应的逼真音乐。与最新的模型 MusicGen 相比,该模型接受文本和旋律输入,他们的Music ControlNet在提高音乐对输入旋律的忠实度方面取得了显著的进步,增加了49%。更令人印象深刻的是,尽管参数减少了35倍,训练数据减少了11倍,他们的模型还启用了两种额外的时变控制形式,展现了其高效和灵活的性能。这一创新AI模型为音乐生成领域注入了新的活力,为创作者提供了更多个性化和精确控制的可能性。

Github 开源文件:https://musiccontrolnet.github.io/web/

论文地址:https://arxiv.org/abs/2311.07069

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索