由北京大学、中山大学等AI人工智能科技优选项目组发布"Video-LLaVA": 大视觉语言模型的崭新里程碑

由北京大学、中山大学等AI人工智能科技优选项目组发布"Video-LLaVA": 大视觉语言模型的崭新里程碑

大视觉语言模型LVLM)的引入显著提升了视觉语言理解领域下游任务的性能。目前的方法通常将图像和视频编码为单独的特征空间,并将其作为大型语言模型(LLM)的输入。然而,由于图像和视频缺乏一致的标记,即在投影前存在错位,这导致大型语言模型在学习多模态交互时面临挑战。在这项研究中,我们通过将视觉表示统一到语言特征空间,实现了基础LLM向统一LVLM的转变。我们提出了一个简单而强大的LVLM基线,命名为Video-LLaVA,通过从混合数据集中学习图像和视频相互增强的方式而得以建立。Video-LLaVA在跨足5个图像问答数据集和4个图像基准工具包的9个图像基准测试中表现出色。此外,我们的Video-LLaVA在MSRVTT、MSVD、TGIF和ActivityNet等数据集上的性能分别比Video-ChatGPT高出5.8%、9.9%、18.6%和10.1%。值得注意的是,大量实验证明,Video-LLaVA通过统一的视觉表示使图像和视频相辅相成,其性能优于专为图像或视频设计的模型。

演示体验网址链接:https://huggingface.co/spaces/LanguageBind/Video-LLaVA
论文网址链接:https://github.com/PKU-YuanGroup/Video-LLaVA#-demo

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索