微软VASA-1:实时生成逼真的音频驱动人物说话视频的项目,拥有表情细微差以及自然的头部动作

微软VASA-1:实时生成逼真的音频驱动人物说话视频的项目,拥有表情细微差以及自然的头部动作

他们介绍了 VASA,这是一个框架,可以在给定单个静态图像和语音音频剪辑的情况下生成具有吸引人的视觉情感技能 (VAS) 的逼真说话面孔。他们的首屈一指的模型 VASA-1 不仅能够产生与音频完美同步的嘴唇运动,还能捕捉大量面部细微差别和自然头部运动,有助于感知真实性和活力。

VASA-1核心创新包括在面部潜在空间中工作的整体面部动态和头部运动生成模型,以及使用视频开发这种富有表现力和解开的面部潜在空间。通过广泛的实验,包括对一组新指标的评估,他们表明他们的方法在各个维度上都显着优于以前的方法。他们的方法VASA-1不仅提供具有逼真的面部和头部动态的高视频质量,而且还支持高达 40 FPS 的在线生成 512x512 视频,并且启动延迟可以忽略不计。它为与模仿人类对话行为的逼真化身进行实时互动铺平了道路。

从显示成效来看,当前视频生成技术已近乎完美,VASA-1又成功攻克了一个技术难关:

  1. VASA-1项目能精准捕捉情感、表情细微差别及自然头部动作,增强视频真实感和生动感。
  2. VASA-1支持根据主眼注视方向、头部距离和情绪偏移等可选信号进行调整。
  3. VASA-1可处理超出训练范畴的照片和音频输入,包括艺术照片、歌唱音频和非英语语音。
  4. VASA-1支持表情和姿势的编辑功能,提供创作空间。
  5. VASA-1在离线批处理模式和在线流模式下,能以高速率生成高清视频帧,减少延迟,提升用户体验。

微软VASA-1:实时生成逼真的音频驱动人物说话视频的项目,拥有表情细微差以及自然的头部动作

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索