只需一张照片,就能生成高度稳定的动画视频了,阿里研究团队发布角色图片到动画的新AI框架,可以让任何人制作动画,这是他们此次的研究目标。用于角色动画的一致且可控的图像到视频合成。该论文提出了一种针对角色动画的图像到视频合成框架,旨在从静止图像生成角色视频,并通过驾驶信号进行控制。
扩散模型在视觉生成研究中因为其出色的生成能力已经成为主流,然而,在图像到视频领域,特别是在角色动画中,保持与角色详细信息的一致性仍然是一个具有挑战性的问题。
阿里巴巴集团的智能计算研究院,利用扩散模型的强大能力,提出了一个为角色动画量身定制的新框架。他们设计了名为Reference Net的模块,通过空间注意力机制来合并细节特征。同时引入了有效的姿势引导器,类似control net那样指导运动,并采用高效的时间建模方法来确保视频帧之间平滑的过渡。
通过扩展训练数据,该方法可以对任意角色进行动画处理,例如照片,动漫图。角色动画方面取得了比其他图像到视频方法更好的结果。此外,阿里研究团队还根据时尚视频和人类舞蹈合成的基准进行了评估来证明该方法的先进性。
在目前技术水平上有这样的稳定性和质量实在惊叹不已。
你们是否期待,未来的淘宝详情图,都能这般展示出来呢?
Reference Net论文下载链接:
https://arxiv.org/pdf/2311.17117.pdf
Reference Net项目演示地址:
https://humanaigc.github.io/animate-anyone/
Reference Net项目代码下载链接:
https://github.com/HumanAIGC/AnimateAnyone