【AI论文与新生技术】Seed-TTS：字节跳动研发的一系列高质量多功能语音生成模型

我们介绍 Seed-TTS，这是一系列大规模自回归文本转语音 (TTS) 模型，能够生成与人类语音几乎没有区别的语音。 Seed-TTS 作为语音生成的基础模型，在语音上下文学习方面表现出色，在说话者相似度和自然度方面的表现在客观和主观评估方面都与真实人类语音相匹配。

官方演示：https://bytedancespeech.github.io/seedtts_tech_report

论文链接：https://huggingface.co/papers/2406.02430

AIGC专区：
https://heehel.com/category/aigc

通过微调，我们在这些指标上获得了更高的主观得分。 Seed-TTS 对各种语音属性（例如情感）提供卓越的可控性，并且能够为野外说话者生成高度表现力和多样化的语音。此外，我们提出了一种用于语音分解的自蒸馏方法，以及一种强化学习方法来增强模型的鲁棒性、说话人相似性和可控性。

我们还提出了 Seed-TTS 模型的非自回归 (NAR) 变体，名为 Seed-TTS_DiT，它采用完全基于扩散的架构。与之前基于 NAR 的 TTS 系统不同，Seed-TTS_DiT 不依赖于预先估计的音素持续时间，并通过端到端处理执行语音生成。我们证明该变体实现了与基于语言模型的变体相当的性能，并展示了其在语音编辑中的有效性。

【AI论文与新生技术】Seed-TTS：字节跳动研发的一系列高质量多功能语音生成模型

Seed-TTS 推理管道概述。 (1) 语音标记器从参考语音中学习标记。 (2)自回归语言模型根据条件文本和语音生成语音标记。 (3) 扩散变换器模型以从粗到细的方式生成给定生成的语音标记的连续语音表示。 (4) 声学声码器从扩散输出中产生更高质量的语音。

这些模型能够生成与人类语音几乎无法区分的语音，具有很高的自然度和表现力。Seed-TTS模型在无需额外训练数据的情况下，就能生成具有特定说话人特征的语音，这在虚拟助手、有声读物、视频配音等领域具有广泛的应用潜力。

Seed-TTS模型采用了自回归的变换器架构，包括语音分词器、令牌语言模型、令牌扩散模型和声学声码器四个主要部分。模型在大量数据上进行训练，以提高泛化能力和生成能力。Seed-TTS在三个任务上进行了评估：零样本上下文学习（In-context Learning, ICL）、说话人微调和情感控制。实验结果显示，Seed-TTS在客观和主观评价中，都能生成与真实人类语音相似度极高的语音。

【AI论文与新生技术】Seed-TTS：字节跳动研发的一系列高质量多功能语音生成模型