中国自研视频大模型Vidu突破技术瓶颈,实现音视频合成与4D内容生成,视频时长延至32秒

近日,生数科技与清华大学联合研发的中国首个自研视频大模型Vidu,在时隔40天后低调宣布了重大技术进展。据悉,Vidu在视频生成领域实现了三大突破:首先,它能一键生成长达32秒的视频,打破了国内视频生成模型的时长限制;其次,Vidu支持音视频合成,即生成的视频不仅具备图像,还配备了声音;最后,Vidu支持4D内容生成,可从单一视频精确重构出时空一致的4D内容,极大提升了视频生成模型的效果和真实感。

论文地址:https://arxiv.org/abs/2405.16822

AIGC专区:
https://heehel.com/category/aigc

更多作品:
https://heehel.com/category/ai-works

这项技术的突破,标志着中国在视频生成领域取得了重要进展,Vidu作为国内首个长时长、高一致性、高动态性的视频大模型,其技术实力与效果已得到业界的广泛认可。生数科技首席科学家朱军表示,Vidu不仅具备模拟真实物理世界的能力,还能理解并生成中国特有的元素,如熊猫、龙等。

值得一提的是,Vidu的技术迭代速度令人瞩目。自今年2月Sora视频大模型发布后,Vidu团队便基于深厚的技术积累,迅速推出了这一国内领先的视频生成模型,并在短短一个多月后再次实现重大技术迭代。此外,生数科技还宣布完成了数亿元的Pre-A轮融资,为Vidu的后续研发和应用提供了强有力的支持。

展望未来,生数科技将继续深化Vidu的研发和应用,推动视频生成技术的进一步发展。同时,该公司还公布了“Vidu大模型合作伙伴计划”,旨在与各方共同构建合作生态,推动视频生成技术的商业化应用。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索