【AI论文与新生技术】复旦开源 Hallo2：音频驱动数字人头视频生成

AIGC AI+视频生成
来源：喜好儿网
10月19日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

Hallo2，这是一项音频驱动的数字人头技术，能够生成长达 1 小时的 4K 分辨率视频。简单来说，Hallo2能把你的照片变成会动会说话的视频，而且看起来非常真实。这对于那些需要创造虚拟角色或者想让照片中的人物“活”起来的人来说，是一个非常有用的工具。与 Hallo 相比，Hallo2 支持更高分辨率和更长的视频生成，也同样支持如雕像、绘画、卡通等多种风格的人头。

Hallo2复旦开源音频驱动数字人头视频生成详情👇

【AI论文与新生技术】复旦开源 Hallo2：音频驱动数字人头视频生成

Hallo2是一种用于制作人物肖像动画的技术。Hallo2通过分析一张人物照片和一段音频，可以生成长时间、高分辨率的动态视频。这项技术使用了先进的生成模型，能够处理长时间视频合成中的各种挑战，比如保持人物外观的一致性和时间上的连贯性。

Hallo2的技术原理包括使用潜在扩散模型来生成视频，通过向条件运动帧中添加高斯噪声和采用patch-drop技术来增强视觉一致性和时间连贯性。它还能生成4K分辨率的视频，通过向量量化潜在代码和应用时间对齐技术来保持时间维度上的连贯性。此外，Hallo2还允许通过文本提示来调整人物表情，增加了生成内容的多样性和可控性。

Hallo2的主要功能是将静态的人物肖像照片转换成动态视频，这些视频可以与音频同步，并且可以根据文本提示调整表情。这使得Hallo2在多个领域都有潜在的应用价值，比如电影和动画制作、虚拟助手开发、个性化客户服务、互动教育内容创建，以及游戏中的真实角色动画制作。