AI图像视频识别开源项目:北京大学团队开发的多模态图像视频识别项目Video-LLaVA

项目简介:

Video-LLaVA(Large-scale Vision-Language Model for Video Analysis)是由北京大学团队开发的AI人工智能多模态图像视频识别项目。该项目旨在通过融合视觉信息到语言特征空间中,推动基础的大语言模型向更统一的大型视觉-语言模型演进。通过学习混合的图像和视频数据集,Video-LLaVA实现了视觉和语言之间的相互增强,为视觉与语言理解任务提供了强大的基线模型。

论文摘要:

  1. 大型视觉语言模型(LVLM)在视觉与语言理解的多种任务中取得显著成效。传统方法通常将图像和视频分别编码到不同的特征空间,再作为输入提供给大语言模型(LLM)。然而,由于图像和视频在投影前未能实现统一的词元化,这使得大语言模型难以从多个较差的投影层中学习多模态交互。为了克服这一问题,他们提出了一个名为 Video-LLaVA 的简单而强大的大型视觉语言模型基线。该模型通过AI学习混合的图像和视频数据集,实现了相互增强,为多模态任务提供了一种更统一的表征学习方式。
  2. Video-LLaVA 在包含5个图像问答数据集和4个图像基准工具包的9个主要图像基准测试中取得了显著的成效。此外,他们的 Video-LLaVA 在 MSRVTT、MSVD、TGIF 和 ActivityNet 四个基准测试中,分别相较于 Video-ChatGPT 提升了5.8%、9.9%、18.6%和10.1%。广泛的实验表明,Video-LLaVA 通过统一的视觉表示,促进了图像和视频的相互提升,其性能超越了专门针对图像或视频设计的模型。这标志着 Video-LLaVA 在多模态任务中具有广泛的应用前景。

AI图像视频识别开源项目:北京大学团队开发的多模态图像视频识别项目Video-LLaVA

在线测试地址:https://replicate.com/nateraw/video-llava
项目地址:https://github.com/PKU-YuanGroup/Video-LLaVA
论文:https://arxiv.org/pdf/2311.10122.pdf

https://heehel.com/ai-news/video-llava-large-visual-language-model.html

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索