LLaMA-VID视频解读模型,轻松解读《星际穿越》等长篇幅电影,电影博主狂喜!

贾佳亚,思谋科技 SmartMore 创始人、董事长,香港中文大学终身教授,国际电气和电子工程师协会(IEEE)会士,业内顶级期刊TPAMI副主编,计算机视觉与计算机影像学等领域权威专家,原腾讯杰出科学家,前腾讯优图实验室联合负责人,业内顶级期刊IJCV编委。

贾佳亚团队最新研究成果让人工智能大模型学会了处理超长视频。他们的多模态大模型 LLaMA-VID 能够准确理解电影情节和人物,并回答相关问题。该模型通过将每帧图像的 token 数量压缩到仅有2个,实现对超长视频的处理。LLaMA-VID 在多个视频问答和推理榜单上取得了 SOTA 的成绩。这一研究成果可以应用于电影分析、推理和问答等领域。

论文网址链接:https://arxiv.org/abs/2311.17043
GitHub网址链接:https://github.com/dvlab-research/LLaMA-VID
试用版网址链接:http://103.170.5.190:7864/

 

 

LLaMA-VID视频解读模型,轻松解读《星际穿越》等长篇幅电影,电影博主狂喜!

(图为贾佳亚)

具体训练包括3个过程:

  1. 特征对齐
  2. 指令微调
  3. 长视频微调

此外,LLaMA-VID 还收集了400部电影并生成9000条长视频问答语料,包含电影影评人物成长情节推理等。结合之前贾佳亚团队所发布的长文本数据集 LongAlpaca-12k(9k 条长文本问答语料对、3k 短文本问答语料对),可轻松将现有多模态模型拓展来支持长视频输入。值得一提的是,今年8月开始贾佳亚团队就发布了主攻推理分割的 LISA 人工多模态大模型。10月还发布了长文本开源大语言模型 LongAlpaca(70 亿参数)和超长文本扩展方法 LongLoRA。LongLoRA 只需两行代码便可将 7B 模型的文本长度拓展到 100k tokens,70B 模型的文本长度拓展到 32k tokens。

最后,团队也提供了 demo 地址,可自己上传视频和 LLaMA-VID 对话(部署在单块3090,需要的小伙伴可以参考 code 用更大的显存部署,直接和整个电影对话)。然后看不懂的电影,可以尝试直接丢给它解读一下,说不定能发现新的角度角度哦。

LLaMA-VID视频解读模型,轻松解读《星际穿越》等长篇幅电影,电影博主狂喜!

https://heehel.com/ai-news/wonderjourney-3d.html

https://heehel.com/aigc/lofi-ai.html

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索