TalkinNeRF可以创建一个虚拟的你,这个虚拟形象不仅会模仿你的动作,连你的手势和面部表情都能复制。不管你做什么,这个虚拟形象都能以假乱真地跟着做。这就像是有了你自己的数字双胞胎,但它不仅限于模仿,还能根据你的声音来控制它的口型和表情。
我们引入了一种新颖的框架,可以从单眼视频中学习用于全身说话的人类的动态神经辐射场(NeRF)。之前的作品仅代表身体姿势或面部。然而,人类通过全身进行交流,结合身体姿势、手势和面部表情。在这项工作中,我们提出了 TalkinNeRF,一个基于 NeRF 的统一网络,代表整体 4D 人体运动。
给定一个主题的单眼视频,我们学习身体、面部和手部的相应模块,将它们组合在一起生成最终结果。为了捕捉复杂的手指关节,我们学习了手的额外变形场。我们的多身份表示可以同时训练多个受试者,并在完全看不见的姿势下提供强大的动画。
仅以短视频作为输入,它还可以推广到新颖的身份。我们展示了最先进的动画全身说话人类的性能,具有精细的手部发音和面部表情。
(TalkinNeRF:创建一个会模仿你的动作、手势和面部表情的虚拟形象详情👇)
TalkinNeRF实现方法
TalkinNeRF 概述。给定一个对象的单眼视频,我们学习一个基于 NeRF 的统一网络来代表其整体 4D 运动。将身体、面部、手部相应的模块组合在一起,合成最终的全身会说话的人。通过学习每个视频的身份代码,我们的方法可以同时针对多个身份进行训练。
TalkinNeRF技术原理
- 动态神经辐射场(Dynamic Neural Radiance Fields):这是该技术的核心,它通过学习视频中人物的动作来创建一个三维的动态模型。
- 多身份表示(Multi-Identity Representation):这项技术可以同时学习多个人物的动作,即使他们的动作风格各不相同。
- 条件表示(Conditional Representation):通过分析视频中的每一帧,推断出人物的姿势、表情等,并据此生成相应的3D动态。
TalkinNeRF功能
- 高质量动画生成:TalkinNeRF能够生成具有复杂手势和精细面部表情的动画。
- 多身份动画:它可以对多个不同的人物进行动画处理,甚至可以对完全新的人进行动画处理,只需一段简短的视频。
- 语音驱动动画:它可以将语音转换成视频中人物的口型和表情,实现声音和图像的同步。
TalkinNeRF应用场景
- 增强现实(AR)/虚拟现实(VR):在游戏或虚拟环境中创建逼真的数字角色。
- 电影和娱乐:用来生成或增强电影中的3D人物动画。
- 虚拟通信:创建虚拟形象用于视频会议或社交媒体。
- 教育和培训:模拟真实人物动作进行教学。