MotionLLM：从人类动作和视频中识别、分析和了解人类行为

本研究利用大型语言模型 (LLMs) 的强大功能，深入研究多模态（即视频和运动模态）人类行为理解领域。与最近为仅视频或仅运动理解而设计的 LLMs 不同，我们认为理解人类行为需要对视频和运动序列（例如 SMPL 序列）进行联合建模，以捕获微妙的身体部位动态和语义有效地。

有鉴于此，我们提出了 MotionLLM，这是一个简单而有效的人类运动理解、字幕和推理框架。具体来说，MotionLLM采用统一的视频运动训练策略，利用现有粗粒度视频文本数据和细粒度运动文本数据的互补优势，收集丰富的时空洞察。此外，我们还收集了大量数据集 MoVid，其中包括不同的视频、动作、字幕和说明。

此外，我们提出了 MoVid-Bench，带有仔细的手动注释，以便更好地评估人类对视频和运动的行为理解。大量的实验证明了MotionLLM在字幕、时空理解和推理能力方面的优越性。

AIGC专区：
https://heehel.com/category/aigc

论文链接：https://huggingface.co/papers/2405.20340

项目介绍：https://lhchen.top/MotionLLM/

Q: describe what the man is doing.
问：描述一下这个人在做什么。

A: The man is performing a choreographed martial arts sequence on stage. He is demonstrating various martial arts techniques and movements while engaged in a conversation with the audience, showing his skills and artistry.
A：那个男人正在舞台上表演精心设计的武术序列。他一边展示各种武术技巧和动作，一边与观众交谈，展示了他的技巧和艺术性。

Q: why is the video funny?
问：为什么视频很有趣？

A: The video is funny due to the man's exaggerated movements and gestures, which are meant to mimic the actions of a professional wrestler. The comedic effect comes from the contrast between the man's usual calm demeanor and the over-the-top movements being performed.
答：这段视频很有趣，因为该男子夸张的动作和手势是为了模仿职业摔跤手的动作。喜剧效果来自于该男子一贯的冷静举止和夸张的动作之间的对比。

MotionLLM旨在通过分析人体动作和视频来理解人类行为。MotionLLM利用了大型语言模型（LLMs）的强大能力，不同于以往的研究，它同时处理视频和动作序列（例如SMPL序列），以更有效地捕捉身体部位的动态和语义细节。

想象一下，你正在观看一段武术表演的视频，表演者正在做一个高难度的踢腿动作。这个动作从准备踢腿开始，到左腿高高伸展在空中，最后是踢腿后的跟进动作。MotionLLM能够理解这一系列动作的含义，并且能够描述出表演者可能正在做的是武术或跆拳道，以及表演者需要具备的良好身体协调性和平衡能力。

MotionLLM的工作原理类似于一个智能健身教练。它可以接收视频输入，并根据视频内容给出动作说明，比如指导你如何从仰卧位置开始，抬起腿部至45度角，然后滑动双手沿着大腿向下，直到手触碰到地面，最后放下脚回到仰卧位置。这种能力使得MotionLLM在健身和健康领域具有广泛的应用前景。

MotionLLM：从人类动作和视频中识别、分析和了解人类行为

论文还详细描述了MotionLLM的框架和方法。它采用了统一的视频-动作训练策略，利用现有的粗糙视频-文本数据和精细的动作-文本数据的互补优势，以获得丰富的时空洞察力。此外，研究团队收集并创建了一个名为MoVid的大型数据集，包含多样化的视频、动作、标题和指令，并提出了MoVid-Bench基准测试，用于更好地评估视频和动作的人类行为理解。

MoVid-Bench是一个评估模型性能的基准，它使用多种指标来评估对动作序列、身体部位语义、方向感知、推理能力以及对幻觉的鲁棒性。这些评估的参考答案都经过了精心的人工注释和验证。

实验结果表明，MotionLLM在标题生成、时空理解和推理能力方面都优于其他方法。例如，在零样本视频多项选择问答（MVBench）上，MotionLLM在7个与人类行为相关的子任务上表现出色，显示出其在理解视频内容的顺序动态方面的卓越能力。此外，MotionLLM在ActivityNet-QA上的零样本开放词汇视频问答中也超越了现有的视频基础LLMs，显示出良好的顺序理解和对视频内容的泛化人类行为理解。