【AI论文与新生技术】ReSyncer:重新布线基于风格的生成器,用于统一视听同步换脸虚拟角色

对口型视频是各种应用的基础,包括创建虚拟演示者或表演者。虽然最近的研究探索了使用不同技术的高保真口型同步,但他们的面向任务的模型要么需要长期视频进行特定剪辑的训练,要么保留可见的伪影。

在本文中,我们提出了一个统一且有效的框架ReSyncer,用于同步广义的视听面部信息。关键设计是重新审视和重新连接基于样式的生成器,以有效地采用由原则性的样式注入 Transformer 预测的 3D 面部动态。

通过简单地重新配置噪声和风格空间内的信息插入机制,我们的框架将运动和外观与统一训练融合在一起。大量实验表明 ReSyncer 不不仅根据音频生成高保真口型同步视频,还支持多种适合创建虚拟演示者和表演者的有吸引力的属性,包括快速个性化微调、视频驱动的口型同步、说话风格的转换以及甚至换脸。

(ReSyncer论文资料链接在下方👇)

AI论文与新生技术专题:
https://heehel.com/collection/topic-aipapers-jiaocheng

通常,当制作视频时,尤其是虚拟角色的视频,角色的口型需要与配音完美匹配,这样看起来才自然。但是,要达到这样的效果通常很困难,因为需要大量的训练和调整。ReSyncer通过一种新颖的方法解决了这个问题,它能够根据声音来自动调整角色的面部动作,让口型与声音同步。

ReSyncer的核心是重新配置了一种叫做“基于样式的生成器”的技术,这种技术可以预测并生成3D面部动作。通过这种方式,ReSyncer能够生成高保真的口型同步视频,而且它还支持一些很酷的功能,比如快速个性化调整、根据视频来驱动口型同步、改变说话风格,甚至还能换脸。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索