阿里下大棋,高质量AI文生视频将一步到位,具有多种能力,例如风格化生成,高分辨率输出等等等等
尽管runway与pika在AI视频生成上有着出色的表现,但依然离不开midjourney的辅助,相对图生图,AI文生视频的技术相对落后。阿里团队开发了一种名叫TF-T2V的扩散模型,能够灵活生成各种风格的视频,并且支持高分辨率的视频生成。
简单来说,只要输入自然语言提示便可生成出高质量的AI视频,并且在动作表现上达到相对合理的运动效果。
TF-T2V具有多种能力,例如风格化生成,高分辨率输出,带有深度图和线稿图,合成一致性的物体结构。
而最有力的表现是能够生成稳定的运动类视频。TF-T2V还具备了LCM实时生成的扩展技术,只需4步采样即可实现高保真、流畅的AI视频合成。这种方法将文本解码和时间建模过程分开,使用内容分支和运动分支进行联合优化。不仅在原生文本到视频生成中表现出良好的效果,还适用于组合视频合成。
TF-T2V论文链接
https://huggingface.co/papers/2312.15770
TF-T2V项目展示地址:
https://tf-t2v.github.io/
TF-T2V代码链接:
https://github.com/ali-vilab/i2vgen-xl
https://heehel.com/aigc/dreamtalk.html
https://heehel.com/aigc/outfit-anybody.html
https://heehel.com/ai-news/i2vgen-xl.html