LLaMA-VID视频解读模型，轻松解读《星际穿越》等长篇幅电影，电影博主狂喜！

贾佳亚，思谋科技 SmartMore 创始人、董事长，香港中文大学终身教授，国际电气和电子工程师协会（IEEE）会士，业内顶级期刊TPAMI副主编，计算机视觉与计算机影像学等领域权威专家，原腾讯杰出科学家，前腾讯优图实验室联合负责人，业内顶级期刊IJCV编委。

贾佳亚团队最新研究成果让人工智能大模型学会了处理超长视频。他们的多模态大模型 LLaMA-VID 能够准确理解电影情节和人物，并回答相关问题。该模型通过将每帧图像的 token 数量压缩到仅有2个，实现对超长视频的处理。LLaMA-VID 在多个视频问答和推理榜单上取得了 SOTA 的成绩。这一研究成果可以应用于电影分析、推理和问答等领域。

论文网址链接：https://arxiv.org/abs/2311.17043
GitHub网址链接：https://github.com/dvlab-research/LLaMA-VID
试用版网址链接：http://103.170.5.190:7864/

LLaMA-VID视频解读模型，轻松解读《星际穿越》等长篇幅电影，电影博主狂喜！

(图为贾佳亚)

具体训练包括3个过程：

特征对齐
指令微调
长视频微调

此外，LLaMA-VID 还收集了400部电影并生成9000条长视频问答语料，包含电影影评、人物成长及情节推理等。结合之前贾佳亚团队所发布的长文本数据集 LongAlpaca-12k（9k 条长文本问答语料对、3k 短文本问答语料对），可轻松将现有多模态模型拓展来支持长视频输入。值得一提的是，今年8月开始贾佳亚团队就发布了主攻推理分割的 LISA 人工多模态大模型。10月还发布了长文本开源大语言模型 LongAlpaca（70 亿参数）和超长文本扩展方法 LongLoRA。LongLoRA 只需两行代码便可将 7B 模型的文本长度拓展到 100k tokens，70B 模型的文本长度拓展到 32k tokens。

最后，团队也提供了 demo 地址，可自己上传视频和 LLaMA-VID 对话（部署在单块3090，需要的小伙伴可以参考 code 用更大的显存部署，直接和整个电影对话）。然后看不懂的电影，可以尝试直接丢给它解读一下，说不定能发现新的角度角度哦。

LLaMA-VID视频解读模型，轻松解读《星际穿越》等长篇幅电影，电影博主狂喜！