谷歌DeepMind公布了用来生成 NotebookLM AI播客的音频技术

AIGC AI+文本/音频生成 AI音频
来源：喜好儿网
16小时前
🍔喜好值+
编辑

HeeHel喜好儿官方小编

谷歌DeepMind最近公布了其创新的音频技术——NotebookLM，这项技术旨在为AI播客生成高质量的音频内容。NotebookLM技术主要包含两个核心部分：SoundStream神经音频编解码器和AudioLM框架。

文章目录

谷歌DeepMind NotebookLM 技术详细介绍👇

SoundStream神经音频编解码器

SoundStream是一种先进的神经音频编解码器，它能够高效地压缩和解压音频输入，同时保持音频质量不受影响。在训练过程中，SoundStream能够学习到音频的韵律和音色等关键属性，使其能够更好地理解和处理音频数据。

AudioLM框架

AudioLM框架是一个灵活的音频生成系统，它不对生成的音频类型或组成做出任何假设，能够处理各种声音，无需对架构进行调整。这一框架在TPU V5E上展现出惊人的效率，仅需3秒即可生成长达2分钟的语音内容。此外，DeepMind还研发了一种专门的Transformer架构，用于高效处理信息的层次结构，与声学Token的结构相匹配。

预训练与微调

为了教导模型如何生成多个发言者之间的真实对话，DeepMind对模型进行了数十万小时的语音数据预训练。随后，在包含高音质和准确发言者注释的对话数据集上进行微调，这些对话由多位配音演员进行非脚本和真实的不流畅语言对话组成。

视频转音频(V2A)技术

视频生成模型的发展速度令人难以置信，但许多系统只能生成无声输出。V2A技术是将生成的电影变为现实的关键一步，它能够为无声视频创建配乐。V2A技术结合视频像素与自然语言文本提示，为屏幕上的动作生成丰富的音景。这项技术可以与视频生成模型如Veo配合使用，创建具有戏剧性配乐、逼真音效或与视频人物和语气相匹配的对话的镜头。

增强创意控制

V2A技术允许为任何视频输入生成无限数量的音轨，同时用户可以定义“积极提示”以引导生成的输出朝向所需的声音，或定义“消极提示”以引导其远离不需要的声音。这种灵活性使用户能够更好地控制V2A的音频输出，从而可以快速试验不同的音频输出并选择最佳匹配。

NotebookLM工作原理

谷歌DeepMind公布了用来生成 NotebookLM AI播客的音频技术

V2A系统通过自回归和扩散方法工作，将视频输入编码为压缩表示，然后扩散模型迭代地从随机噪声中细化音频。该过程由视觉输入和自然语言提示引导，生成与提示紧密结合的同步、真实的音频。最后，音频输出被解码，转换为音频波形并与视频数据组合。

进一步研究

DeepMind的研究团队正在解决音频输出质量依赖于视频输入质量的问题，以及视频中的伪像或失真可能导致音频质量明显下降的问题。此外，他们还在改进涉及语音的视频的口型同步问题，以提高音频与视频的匹配度。

谷歌DeepMind的NotebookLM技术展示了AI在音频生成领域的巨大潜力，为未来的多媒体内容创作提供了新的可能性。

AI播客 DeepMind NotebookLM 谷歌音频技术

0 条回复 A文章作者 M管理员

暂无讨论，说说你的看法吧

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{data.mission.credit}}积分

今日签到

连续签到

TOP1

游戏美术AI落地应用教程3:Krita AI辅助游戏UI icon设计【在下AI阿伟】
6月14日
TOP2

【叫我四胖子】SD插件教程（附安装包）：EasyPhoto人脸训练、AI换装、Stable Diffusion电商实战
2月26日
TOP3

【晃悠的程序员】AI2Apps使用演示教程：功能更完善的AI小说文章Agent，还能生成小说插画！
2月27日
【图文教程#74】教你用midjourney制作节日海报：AI商业应用案例之重阳节海报（附关键词可复制）
9月19日
三星首款智能戒指穿戴健身设备 Galaxy Ring 将于7月24日上市，售价399美元
7月11日
AI提示词（第8辑）midjourney生成大卫·芬奇电影风格AI剧照图
23年11月8日
特斯拉公开自主研发擎天柱（Optimus）机器人的最新训练成果
5月6日
【AI论文与新生技术】阿里巴巴FunAudioLLM：人类与LLMs之间自然交互的语音理解和生成基础模型
7月8日
Music Consistency Models：音乐一致性模型
4月23日
关于（亲朋好友）数字人复活，看这里就够了！！！2024，人工智能+数字生命将是一个大需求
3月16日
国外小气鬼UP主制作的AI人工智能延时摄影动画视频
23年12月20日
【指鹿AI】最新SD Animatediff视频动画(手把手教做LOGO动效)告别建模、特效，AI一键做酷炫视频，图片也能动起来
23年12月14日

❯

今日签到

有新私信私信列表

搜索

客服

扫码打开当前页
联系客服
公众号

返回顶部

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部