一个非常棒的TTS模型:MaskGCT

该方法无需显式对齐和持续时间预测,通过掩码学习在声音克隆、跨语种合成等方面表现优异。它支持语速、情感和语气控制,支持零样本合成和声音转换。
项目地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
官方文档:https://maskgct.github.io/
论文地址:https://arxiv.org/abs/2409.00750

群主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x
今日签到
有新私信 私信列表
搜索