谷歌DeepMind最近公布了其创新的音频技术——NotebookLM,这项技术旨在为AI播客生成高质量的音频内容。NotebookLM技术主要包含两个核心部分:SoundStream神经音频编解码器和AudioLM框架。
谷歌DeepMind NotebookLM 技术详细介绍👇
SoundStream神经音频编解码器
SoundStream是一种先进的神经音频编解码器,它能够高效地压缩和解压音频输入,同时保持音频质量不受影响。在训练过程中,SoundStream能够学习到音频的韵律和音色等关键属性,使其能够更好地理解和处理音频数据。
AudioLM框架
AudioLM框架是一个灵活的音频生成系统,它不对生成的音频类型或组成做出任何假设,能够处理各种声音,无需对架构进行调整。这一框架在TPU V5E上展现出惊人的效率,仅需3秒即可生成长达2分钟的语音内容。此外,DeepMind还研发了一种专门的Transformer架构,用于高效处理信息的层次结构,与声学Token的结构相匹配。
预训练与微调
为了教导模型如何生成多个发言者之间的真实对话,DeepMind对模型进行了数十万小时的语音数据预训练。随后,在包含高音质和准确发言者注释的对话数据集上进行微调,这些对话由多位配音演员进行非脚本和真实的不流畅语言对话组成。
视频转音频(V2A)技术
视频生成模型的发展速度令人难以置信,但许多系统只能生成无声输出。V2A技术是将生成的电影变为现实的关键一步,它能够为无声视频创建配乐。V2A技术结合视频像素与自然语言文本提示,为屏幕上的动作生成丰富的音景。这项技术可以与视频生成模型如Veo配合使用,创建具有戏剧性配乐、逼真音效或与视频人物和语气相匹配的对话的镜头。
增强创意控制
V2A技术允许为任何视频输入生成无限数量的音轨,同时用户可以定义“积极提示”以引导生成的输出朝向所需的声音,或定义“消极提示”以引导其远离不需要的声音。这种灵活性使用户能够更好地控制V2A的音频输出,从而可以快速试验不同的音频输出并选择最佳匹配。
NotebookLM工作原理
V2A系统通过自回归和扩散方法工作,将视频输入编码为压缩表示,然后扩散模型迭代地从随机噪声中细化音频。该过程由视觉输入和自然语言提示引导,生成与提示紧密结合的同步、真实的音频。最后,音频输出被解码,转换为音频波形并与视频数据组合。
进一步研究
DeepMind的研究团队正在解决音频输出质量依赖于视频输入质量的问题,以及视频中的伪像或失真可能导致音频质量明显下降的问题。此外,他们还在改进涉及语音的视频的口型同步问题,以提高音频与视频的匹配度。
谷歌DeepMind的NotebookLM技术展示了AI在音频生成领域的巨大潜力,为未来的多媒体内容创作提供了新的可能性。