//再不认真就输了!
//致力于发现AIGC动态与教程。

由北京大学、中山大学等AI人工智能科技优选项目组发布"Video-LLaVA": 大视觉语言模型的崭新里程碑

大视觉语言模型LVLM)的引入显著提升了视觉语言理解领域下游任务的性能。目前的方法通常将图像和视频编码为单独的特征空间,并将其作为大型语言模型(LLM)的输入。然而,由于图像和视频缺乏一致的标记,即在投影前存在错位,这导致大型语言模型在学习多模态交互时面临挑战。在这项研究中,我们通过将视觉表示统一到语言特征空间,实现了基础LLM向统一LVLM的转变。我们提出了一个简单而强大的LVLM基线,命名为Video-LLaVA,通过从混合数据集中学习图像和视频相互增强的方式而得以建立。Video-LLaVA在跨足5个图像问答数据集和4个图像基准工具包的9个图像基准测试中表现出色。此外,我们的Video-LLaVA在MSRVTT、MSVD、TGIF和ActivityNet等数据集上的性能分别比Video-ChatGPT高出5.8%、9.9%、18.6%和10.1%。值得注意的是,大量实验证明,Video-LLaVA通过统一的视觉表示使图像和视频相辅相成,其性能优于专为图像或视频设计的模型。

演示体验网址链接:https://huggingface.co/spaces/LanguageBind/Video-LLaVA
论文网址链接:https://github.com/PKU-YuanGroup/Video-LLaVA#-demo

版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《由北京大学、中山大学等AI人工智能科技优选项目组发布"Video-LLaVA": 大视觉语言模型的崭新里程碑》
文章链接:https://heehel.com/ai-news/video-llava-large-visual-language-model.html
本站资源仅供个人学习交流,未经许可不得用于商业用途,自行承担法律责任。
如有疑问,请联系微信:heehelcom

评论 抢沙发

喜好儿——再不认真就输了!

致力于发现ai人工智能应用的新世界, 长期更新目前热门AI教程与动态!期待在这个工业变革时代中,希望你我都能发出一点光。

登录

找回密码

注册