【AI论文与新生技术】TCAN：使用扩散模型通过时间一致的姿势指导对人体图像进行动画处理

AI+视频生成 AIGC
来源：喜好儿网
7月25日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

姿势驱动的人体图像动画扩散模型在逼真的人体视频合成中表现出了卓越的能力。尽管以前的方法取得了有希望的结果，但在实现时间一致的动画和确保现成的姿势检测器的鲁棒性方面仍然存在挑战。在本文中，我们提出了 TCAN，一种姿势驱动的人体图像动画方法，该方法对错误姿势具有鲁棒性，并且随着时间的推移保持一致。

与以前的方法相比，我们利用预先训练的 ControlNet，无需进行微调，即可利用其从众多姿势-图像-标题对中预先获得的广泛知识。为了保持 ControlNet 冻结，我们将 LoRA 适应 UNet 层，使网络能够对齐姿势和外观特征之间的潜在空间。此外，通过向 ControlNet 引入额外的时间层，我们增强了姿态检测器针对异常值的鲁棒性。

通过分析时间轴上的注意力图，我们还设计了一种利用姿势信息的新型温度图，从而实现更静态的背景。大量实验表明，所提出的方法可以在包含各种姿势（例如《赤壁》）的视频合成任务中取得有希望的结果。

（TCAN项目链接在下方👇）

AI论文与新生技术专题：
https://heehel.com/collection/topic-aipapers-jiaocheng

TCAN技术的核心在于它能够保持人物动作的时间连续性，这意味着视频中的人物动作看起来是流畅自然的，而不是断断续续的。此外，TCAN对输入的动作检测器的错误非常鲁棒，即使动作检测有误，也能够生成高质量的动画。

【AI论文与新生技术】TCAN：使用扩散模型通过时间一致的姿势指导对人体图像进行动画处理

TCAN还引入了一种新颖的“姿势驱动的温度图”（Pose-driven Temperature Map, PTM），它可以帮助生成的视频中背景保持静态，而前景的人物则可以有动态的动作。此外，TCAN通过在ControlNet中加入时间层（Temporal ControlNet, T-CtrlN），增强了对动作估计器噪声的鲁棒性。