在短短 6 个月的时间里,Kyutai 研究实验室与一个 8 人的团队一起从零开始开发了一种具有前所未有的发声能力的人工智能 (AI) 模型,称为 Moshi。
该团队今天在巴黎公开展示了其实验原型。在演讲结束时,参与者——研究人员、开发人员、企业家、投资者和记者——自己能够与Kyutai Moshi互动。人工智能的交互式演示将在一天结束时从Kyutai网站访问。因此,从今天开始,它可以免费在线测试,这构成了生成式语音人工智能的世界首创。
(登录后查看Kyutai官网和体验链接👇)
这种新型技术首次使得与人工智能以流畅、自然和富有表现力的方式进行交流成为可能。在演示过程中,Kyutai 团队与 Moshi 进行了互动,展示了其作为教练或伙伴的潜力,以及通过角色扮演中的角色化身所展现的创造力。
1、Kyutai Moshi 技术特点
- 模型规模:7B(70亿参数)
- 功能:实时语音交互,低延迟(160ms),多模态处理能力
- 技术融合:结合Helium 7B模型与音频编解码器,创建Mimi音频压缩模型,压缩比达300倍
- 训练方法:使用10万份带有情感和风格标注的对话文本
- 文本转语音:仅用20小时授权音频完成训练
2、技术优化与部署
- 硬件要求:24GB显存,支持4位和8位量化,跨平台兼容
- 代码重写:使用Rust重写推理代码,提高效率
- Kyutai Moshi 使用体验
3、实时性能:几乎没有延迟,可打断说话者
- 回答速度:快速响应
- 开源承诺:代码将开源发布
- 音质问题:输出音质有待提升
更广泛地说,Moshi有可能彻底改变数字世界中语音的使用。
例如,它的文本转语音功能在情感和多种声音之间的交互方面非常出色。
结构紧凑的Moshi也可以在本地安装,因此可以在未连接的设备上安全运行。
通过Moshi,Kyutai打算为AI的开放研究和整个生态系统的发展做出贡献。模型的代码和权重将很快被自由共享,这对于此类技术来说也是前所未有的。它们对该领域的研究人员和从事基于语音的产品和服务的开发人员都很有用。因此,可以根据需要对该技术进行深入研究、修改、扩展或专业化。特别是,社区将能够扩展Moshi的知识库和事实性,这些目前在这样一个轻量级模型中被故意限制,同时利用其无与伦比的语音交互能力。
Kyutai 是一个致力于人工智能开放研究的非营利性实验室,由 iliad Group、CMA CGM 和 Schmidt Sciences 于 2023 年 11 月创立。喜好儿了解到Kyutai 最初的团队由六名顶尖科学家组成,他们都曾与美国的大型科技实验室合作过,Kyutai 继续在最高水平上招聘,并为研究硕士学位的学生提供实习机会。该团队现在由十几名成员组成,将在今年年底推出第一篇博士论文。所进行的研究探索了具有高性能的新型通用模型。该实验室目前正在特别研究多模态性,即模型利用不同类型的内容(文本、声音、图像等)进行学习和推理的可能性。所有开发的模型都旨在免费共享,以及使它们成为可能创建的软件和专有技术。为了开展工作和训练模型,Kyutai 特别依赖 iliad Group 的子公司 Scaleway 提供的 Nabu 23 超级足舱进行计算。