//再不认真就输了!
//致力于发现AIGC动态与教程。

阿里团队马不停蹄,与清华大学,华中科技大学共同发布了肖像生成口型同步AI模型DreamTalk,迄今为止没对手

超级口型同步AI模型DreamTalk发布,迄今为止没对手
随着技术的不断进步,人工智能在各个领域都取得了令人瞩目的成果。而在富有表现力的口语生成中,这个重要而具有挑战性的任务中,扩散模型的应用却尚未被充分探索。为了填补这一空白,清华大学、阿里集团和华中科技大学共同开发了名为DreamTalk的口型同步AI模型。

DreamTalk 框架包含三个关键组件:降噪网络、风格感知唇部专家和风格预测器。首先,通过基于扩散的降噪网络,可以稳定地合成高质量的音频驱动面部运动,实现音频和面部表情的同步。其次,为了增强唇部动作的表现力和准确性,引入了风格感知唇部专家,它可以指导唇部同步,同时注意到说话的风格差异。最后,为了避免需要参考视频或文本的表情信息,还使用了基于扩散的风格预测器,可以直接从音频中预测目标表情。通过这些组件的协作,DreamTalk 能够有效地生成富有表现力的面部,同时减少对昂贵的风格参考的依赖。

实验结果表明,DreamTalk 能够生成逼真的说话图像,具有多样的说话风格,并且能够准确地同步唇部动作,超过了现有的最先进的方法。DreamTalk 还展示了良好的泛化能力,可以处理不同语言的演讲、嘈杂的音频以及域外肖像等情况。通过调整无分类器指导的尺度和样式代码的插值,还可以灵活地操纵说话风格。

DreamTalk项目展示地址:
https://dreamtalk-project.github.io/

DreamTalk项目论文链接:
https://arxiv.org/abs/2312.09767

DreamTalk项目代码下载地址:
https://github.com/ali-vilab/dreamtalk

版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《阿里团队马不停蹄,与清华大学,华中科技大学共同发布了肖像生成口型同步AI模型DreamTalk,迄今为止没对手》
文章链接:https://heehel.com/aigc/dreamtalk.html
本站资源仅供个人学习交流,未经许可不得用于商业用途,自行承担法律责任。
如有疑问,请联系微信:heehelcom

评论 抢沙发

喜好儿——再不认真就输了!

致力于发现ai人工智能应用的新世界, 长期更新目前热门AI教程与动态!期待在这个工业变革时代中,希望你我都能发出一点光。

登录

找回密码

注册