//再不认真就输了!
//致力于发现AIGC动态与教程。

10款顶级开源TTS模型传送门,语音合成炼丹师必备

TTS是Text To Speech的缩写,即“从文本到语音”,是人机对话的一部分,让机器能够说话。TTS技术是语音合成应用的一种,它将储存于电脑中的文件,如帮助文件或者网页,转换成自然语音输出。TTS利用自然语言处理和语音合成技术,将文本转化为语音,并可以通过音频播放设备输出语音。TTS技术的应用非常广泛,包括教育、娱乐、语音导航和广播、电话自动应答系统等领域。

1、XTTS
XTTS 是一种语音生成模型,让您只需使用 6 秒的快速音频剪辑即可将语音克隆为不同的语言。不需要跨越无数小时的大量训练数据。
XTTS使用地址:https://huggingface.co/coqui/XTTS-v2

2、YourTTS
它是面向所有人的零样本多扬声器 TTS 和零样本语音转换,在 VCTK 数据集上的零样本多说话者 TTS 中取得了最先进的 (SOTA) 结果,并且在零样本语音转换中取得了与 SOTA 相当的结果。
YourTTS下载地址:https://github.com/Edresson/YourTTS

3、FastSpeech2
它是一个用于教学、培训和使用最先进的语音合成模型的工具包,由德国斯图加特大学自然语言处理研究所 (IMS) 开发。一切都是基于纯 Python 和 PyTorch 的,以使其尽可能简单且对初学者友好,但又尽可能强大。2代还将声码器的采样率从 48kHz 降低到 24kHz。虽然理论上的质量上限降低了,但实际上,声码器产生的伪影要少得多。
FastSpeech2下载链接:https://github.com/DigitalPhonetics/IMS-Toucan

4、VITS
VITS(端到端文本到语音的对抗性学习的变分推理)是一种端到端语音合成模型,可根据输入文本序列预测语音波形。它是一种条件变分自动编码器(VAE),由后验编码器、解码器和条件先验组成。
VITS使用地址:https://huggingface.co/docs/transformers/model_doc/vits

5、TorToiSe
Tortoise 是一个文本转语音程序,拥有强大的多语音功能和高度真实的韵律和语调。
TorToiSe下载地址:https://github.com/neonbjb/tortoise-tts

6、Pheme
该存储库包含用于训练 Pheme TTS 模型的配方和模型。可以用比 VALL-E 或 SoundStorm 等少得多的训练数据来训练基于 Transformer 的会话 TTS 模型(例如,数据少 10 倍)。可以使用对话数据、播客数据和 GigaSpeech 等噪声数据来执行训练。效率至关重要,包括参数效率(紧凑模型)、数据效率(更少的训练数据)和推理效率(减少延迟)。一个基本要素是语义和声学标记的分离以及适当的语音标记器。推理可以通过 MaskGit 风格的推理并行运行,与类似大小的自回归模型相比,速度提高了 15 倍。可以通过使用第三方提供商生成的(合成)数据进行师生培训来提高单说话人的质量。
Pheme下载地址:https://github.com/PolyAI-LDN/pheme

7、EmotiVoice
EmotiVoice 是一款功能强大且现代的开源文本转语音引擎,您可以免费使用。 EmotiVoice 提供中英文两种语言,超过 2000 种不同的AI语音。最突出的功能是情感合成,允许您创建具有多种情感的语音,包括快乐、兴奋、悲伤、愤怒等。
EmotiVoice下载地址:https://github.com/netease-youdao/EmotiVoice

8、StyleTTS 2
它是通过大型语音语言模型的风格扩散和对抗性训练实现人类水平的文本转语音工具,通过扩散模型将风格建模为潜在随机变量,无需参考语音即可生成最适合文本的风格,实现高效的潜在扩散,同时受益于扩散模型提供的多样化语音合成。这项工作在单说话人和多说话人数据集上首次实现了人类水平的 TTS 合成,展示了大型 SLM 风格扩散和对抗训练的潜力。
StyleTTS 2下载地址:https://github.com/yl4579/StyleTTS2

9、pflowtts_pytorch
P-Flow是通过语音提示实现快速、数据高效的零样本 TTS的模型。通过使用连续语音提示的训练方法,P-Flow 以少两个数量级的训练数据匹配大规模零样本 TTS 模型的说话者相似度性能,并且采样速度快了 20 倍以上。
pflowtts_pytorch下载地址:https://github.com/p0p4k/pflowtts_pytorch

10、VALL-E
基于 EnCodec 标记器的非官方 PyTorch VALL-E 实现语音训练。训练器基于 DeepSpeed,因此您需要拥有 DeepSpeed 开发和测试过的 GPU,以及预安装的 CUDA 或 ROCm 编译器才能安装此软件包。
VALL-E下载地址:https://github.com/enhuiz/vall-e

 

版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《10款顶级开源TTS模型传送门,语音合成炼丹师必备》
文章链接:https://heehel.com/aigc/tts.html
本站资源仅供个人学习交流,未经许可不得用于商业用途,自行承担法律责任。
如有疑问,请联系微信:heehelcom

评论 抢沙发

喜好儿——再不认真就输了!

致力于发现ai人工智能应用的新世界, 长期更新目前热门AI教程与动态!期待在这个工业变革时代中,希望你我都能发出一点光。

登录

找回密码

注册