阿里巴巴集团智能计算研究院大宝贝EMO： Emote Portrait Alive,输入图片和音频就可以生成新的视频，而且嘴型与声音高度匹配-喜好儿网

支持多语言、谈话、唱歌以及快语速的适配，这东西出来之后估计又有很多不明真相的小朋友上当了。。。可以根据输入视频的长度生成任意持续时间的视频。

项目链接：https://humanaigc.github.io/emote-portrait-alive/

EMO ( Emote Portrait Alive)是一种富有表现力的音频驱动肖像视频生成框架，通过输入单个参考图像和语音，例如说话和唱歌，可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频。该方法还能根据输入音频的长度生成任意持续时间的视频，同时保持角色的身份。该方法主要分为两个阶段：帧编码阶段和扩散过程阶段。

在帧编码阶段中，使用 ReferenceNet 从参考图像和运动帧中提取特征，然后在扩散过程阶段中，预训练的音频编码器处理音频嵌入，面部区域掩模与多帧噪声结合，通过主干网络实现去噪操作，其中应用了参考注意力和音频注意力机制。此外，还使用时间模块操纵时间维度和调整运动速度。

该框架支持多语言歌曲和不同的肖像风格，能够直观识别音频中的音调变化，生成动态、表情丰富的化身。在快节奏的歌曲中，驱动的化身能够与节奏同步，确保即使是最快的歌词也能呈现出富有表现力和动态的角色动画。

除了唱歌，该方法还能处理各种语言的口语音频，以及从过去时代的肖像、绘画到 3D 模型和人工智能生成内容，为它们注入生动的动作和真实感。该方法还可以应用于电影角色在不同语言和风格中进行独白或表演，扩展了多语言和多文化背景下人物塑造的可能性。

阿里巴巴集团智能计算研究院大宝贝EMO： Emote Portrait Alive,输入图片和音频就可以生成新的视频，而且嘴型与声音高度匹配

相关推荐

【央视网】绝了！AI视角下的神州大地每一帧都是屏保

热门专题

快讯

热门文章

喜好儿——再不认真就输了！

致力于发现ai人工智能应用的新世界，长期更新目前热门AI教程与动态！期待在这个工业变革时代中，希望你我都能发出一点光。

切换注册登录

切换登录注册