支持多语言、谈话、唱歌以及快语速的适配,这东西出来之后估计又有很多不明真相的小朋友上当了。。。可以根据输入视频的长度生成任意持续时间的视频。
项目链接:https://humanaigc.github.io/emote-portrait-alive/
EMO ( Emote Portrait Alive)是一种富有表现力的音频驱动肖像视频生成框架,通过输入单个参考图像和语音,例如说话和唱歌,可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频。该方法还能根据输入音频的长度生成任意持续时间的视频,同时保持角色的身份。该方法主要分为两个阶段:帧编码阶段和扩散过程阶段。
在帧编码阶段中,使用 ReferenceNet 从参考图像和运动帧中提取特征,然后在扩散过程阶段中,预训练的音频编码器处理音频嵌入,面部区域掩模与多帧噪声结合,通过主干网络实现去噪操作,其中应用了参考注意力和音频注意力机制。此外,还使用时间模块操纵时间维度和调整运动速度。
该框架支持多语言歌曲和不同的肖像风格,能够直观识别音频中的音调变化,生成动态、表情丰富的化身。在快节奏的歌曲中,驱动的化身能够与节奏同步,确保即使是最快的歌词也能呈现出富有表现力和动态的角色动画。
除了唱歌,该方法还能处理各种语言的口语音频,以及从过去时代的肖像、绘画到 3D 模型和人工智能生成内容,为它们注入生动的动作和真实感。该方法还可以应用于电影角色在不同语言和风格中进行独白或表演,扩展了多语言和多文化背景下人物塑造的可能性。