阿里团队马不停蹄,与清华大学,华中科技大学共同发布了肖像生成口型同步AI模型DreamTalk,迄今为止没对手

超级口型同步AI模型DreamTalk发布,迄今为止没对手
随着技术的不断进步,人工智能在各个领域都取得了令人瞩目的成果。而在富有表现力的口语生成中,这个重要而具有挑战性的任务中,扩散模型的应用却尚未被充分探索。为了填补这一空白,清华大学、阿里集团和华中科技大学共同开发了名为DreamTalk的口型同步AI模型。

DreamTalk 框架包含三个关键组件:降噪网络、风格感知唇部专家和风格预测器。首先,通过基于扩散的降噪网络,可以稳定地合成高质量的音频驱动面部运动,实现音频和面部表情的同步。其次,为了增强唇部动作的表现力和准确性,引入了风格感知唇部专家,它可以指导唇部同步,同时注意到说话的风格差异。最后,为了避免需要参考视频或文本的表情信息,还使用了基于扩散的风格预测器,可以直接从音频中预测目标表情。通过这些组件的协作,DreamTalk 能够有效地生成富有表现力的面部,同时减少对昂贵的风格参考的依赖。

实验结果表明,DreamTalk 能够生成逼真的说话图像,具有多样的说话风格,并且能够准确地同步唇部动作,超过了现有的最先进的方法。DreamTalk 还展示了良好的泛化能力,可以处理不同语言的演讲、嘈杂的音频以及域外肖像等情况。通过调整无分类器指导的尺度和样式代码的插值,还可以灵活地操纵说话风格。

DreamTalk项目展示地址:
https://dreamtalk-project.github.io/

DreamTalk项目论文链接:
https://arxiv.org/abs/2312.09767

DreamTalk项目代码下载地址:
https://github.com/ali-vilab/dreamtalk

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索