//再不认真就输了!
//致力于发现AIGC动态与教程。

AI图像视频识别开源项目:北京大学团队开发的多模态图像视频识别项目Video-LLaVA

项目简介:

Video-LLaVA(Large-scale Vision-Language Model for Video Analysis)是由北京大学团队开发的AI人工智能多模态图像视频识别项目。该项目旨在通过融合视觉信息到语言特征空间中,推动基础的大语言模型向更统一的大型视觉-语言模型演进。通过学习混合的图像和视频数据集,Video-LLaVA实现了视觉和语言之间的相互增强,为视觉与语言理解任务提供了强大的基线模型。

论文摘要:

  1. 大型视觉语言模型(LVLM)在视觉与语言理解的多种任务中取得显著成效。传统方法通常将图像和视频分别编码到不同的特征空间,再作为输入提供给大语言模型(LLM)。然而,由于图像和视频在投影前未能实现统一的词元化,这使得大语言模型难以从多个较差的投影层中学习多模态交互。为了克服这一问题,他们提出了一个名为 Video-LLaVA 的简单而强大的大型视觉语言模型基线。该模型通过AI学习混合的图像和视频数据集,实现了相互增强,为多模态任务提供了一种更统一的表征学习方式。
  2. Video-LLaVA 在包含5个图像问答数据集和4个图像基准工具包的9个主要图像基准测试中取得了显著的成效。此外,他们的 Video-LLaVA 在 MSRVTT、MSVD、TGIF 和 ActivityNet 四个基准测试中,分别相较于 Video-ChatGPT 提升了5.8%、9.9%、18.6%和10.1%。广泛的实验表明,Video-LLaVA 通过统一的视觉表示,促进了图像和视频的相互提升,其性能超越了专门针对图像或视频设计的模型。这标志着 Video-LLaVA 在多模态任务中具有广泛的应用前景。

在线测试地址:https://replicate.com/nateraw/video-llava
项目地址:https://github.com/PKU-YuanGroup/Video-LLaVA
论文:https://arxiv.org/pdf/2311.10122.pdf

https://heehel.com/ai-news/video-llava-large-visual-language-model.html

版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《AI图像视频识别开源项目:北京大学团队开发的多模态图像视频识别项目Video-LLaVA》
文章链接:https://heehel.com/aigc/peking-university-team-development-project.html
本站资源仅供个人学习交流,未经许可不得用于商业用途,自行承担法律责任。
如有疑问,请联系微信:heehelcom

评论 抢沙发

喜好儿——再不认真就输了!

致力于发现ai人工智能应用的新世界, 长期更新目前热门AI教程与动态!期待在这个工业变革时代中,希望你我都能发出一点光。

登录

找回密码

注册