【AI论文与新生技术】Seed-TTS:字节跳动研发的一系列高质量多功能语音生成模型

我们介绍 Seed-TTS,这是一系列大规模自回归文本转语音 (TTS) 模型,能够生成与人类语音几乎没有区别的语音。 Seed-TTS 作为语音生成的基础模型,在语音上下文学习方面表现出色,在说话者相似度和自然度方面的表现在客观和主观评估方面都与真实人类语音相匹配。

官方演示:https://bytedancespeech.github.io/seedtts_tech_report

论文链接:https://huggingface.co/papers/2406.02430

AIGC专区:
https://heehel.com/category/aigc

通过微调,我们在这些指标上获得了更高的主观得分。 Seed-TTS 对各种语音属性(例如情感)提供卓越的可控性,并且能够为野外说话者生成高度表现力和多样化的语音。此外,我们提出了一种用于语音分解的自蒸馏方法,以及一种强化学习方法来增强模型的鲁棒性、说话人相似性和可控性。

我们还提出了 Seed-TTS 模型的非自回归 (NAR) 变体,名为 Seed-TTS_DiT,它采用完全基于扩散的架构。与之前基于 NAR 的 TTS 系统不同,Seed-TTS_DiT 不依赖于预先估计的音素持续时间,并通过端到端处理执行语音生成。我们证明该变体实现了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。

【AI论文与新生技术】Seed-TTS:字节跳动研发的一系列高质量多功能语音生成模型

Seed-TTS 推理管道概述。 (1) 语音标记器从参考语音中学习标记。 (2)自回归语言模型根据条件文本和语音生成语音标记。 (3) 扩散变换器模型以从粗到细的方式生成给定生成的语音标记的连续语音表示。 (4) 声学声码器从扩散输出中产生更高质量的语音。

这些模型能够生成与人类语音几乎无法区分的语音,具有很高的自然度和表现力。Seed-TTS模型在无需额外训练数据的情况下,就能生成具有特定说话人特征的语音,这在虚拟助手、有声读物、视频配音等领域具有广泛的应用潜力。

Seed-TTS模型采用了自回归的变换器架构,包括语音分词器、令牌语言模型、令牌扩散模型和声学声码器四个主要部分。模型在大量数据上进行训练,以提高泛化能力和生成能力。Seed-TTS在三个任务上进行了评估:零样本上下文学习(In-context Learning, ICL)、说话人微调和情感控制。实验结果显示,Seed-TTS在客观和主观评价中,都能生成与真实人类语音相似度极高的语音。

【AI论文与新生技术】Seed-TTS:字节跳动研发的一系列高质量多功能语音生成模型

为了进一步提升模型性能,Seed团队提出了两种新颖的扩展技术:一种是基于自我蒸馏的语音分解方法,另一种是通过强化学习(Reinforcement Learning, RL)进行偏好偏置。这些技术能够显著提高模型的稳健性、说话人相似性和可控性。

此外,Seed团队还提出了Seed-TTS的一个非自回归变体,名为Seed-TTSDiT,它采用了完全基于扩散的架构,不依赖预先估计的音素持续时间,能够通过端到端处理生成语音。实验表明,Seed-TTSDiT在语音编辑任务中表现出色,并且与基于语言模型的变体相比具有可比的性能。

2 条回复 A文章作者 M管理员
  1. 龙哥

    牛1

    • 明

      😁😁再不认真就输了~

今日签到
有新私信 私信列表
搜索