//再不认真就输了!
//致力于发现AIGC动态与教程。

阿里巴巴集团智能计算研究院大宝贝EMO: Emote Portrait Alive,输入图片和音频就可以生成新的视频,而且嘴型与声音高度匹配

支持多语言、谈话、唱歌以及快语速的适配,这东西出来之后估计又有很多不明真相的小朋友上当了。。。可以根据输入视频的长度生成任意持续时间的视频。

项目链接:https://humanaigc.github.io/emote-portrait-alive/

EMO ( Emote Portrait Alive)是一种富有表现力的音频驱动肖像视频生成框架,通过输入单个参考图像和语音,例如说话和唱歌,可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频。该方法还能根据输入音频的长度生成任意持续时间的视频,同时保持角色的身份。该方法主要分为两个阶段:帧编码阶段和扩散过程阶段。

在帧编码阶段中,使用 ReferenceNet 从参考图像和运动帧中提取特征,然后在扩散过程阶段中,预训练的音频编码器处理音频嵌入,面部区域掩模与多帧噪声结合,通过主干网络实现去噪操作,其中应用了参考注意力和音频注意力机制。此外,还使用时间模块操纵时间维度和调整运动速度。

该框架支持多语言歌曲和不同的肖像风格,能够直观识别音频中的音调变化,生成动态、表情丰富的化身。在快节奏的歌曲中,驱动的化身能够与节奏同步,确保即使是最快的歌词也能呈现出富有表现力和动态的角色动画。

除了唱歌,该方法还能处理各种语言的口语音频,以及从过去时代的肖像、绘画到 3D 模型和人工智能生成内容,为它们注入生动的动作和真实感。该方法还可以应用于电影角色在不同语言和风格中进行独白或表演,扩展了多语言和多文化背景下人物塑造的可能性。

版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《阿里巴巴集团智能计算研究院大宝贝EMO: Emote Portrait Alive,输入图片和音频就可以生成新的视频,而且嘴型与声音高度匹配》
文章链接:https://heehel.com/aigc/ali-emo.html
本站资源仅供个人学习交流,未经许可不得用于商业用途,自行承担法律责任。
如有疑问,请联系微信:heehelcom

喜好儿——再不认真就输了!

致力于发现ai人工智能应用的新世界, 长期更新目前热门AI教程与动态!期待在这个工业变革时代中,希望你我都能发出一点光。

登录

找回密码

注册