MotionLLM:从人类动作和视频中识别、分析和了解人类行为

MotionLLM:从人类动作和视频中识别、分析和了解人类行为

本研究利用大型语言模型 (LLMs) 的强大功能,深入研究多模态(即视频和运动模态)人类行为理解领域。与最近为仅视频或仅运动理解而设计的 LLMs 不同,我们认为理解人类行为需要对视频和运动序列(例如 SMPL 序列)进行联合建模,以捕获微妙的身体部位动态和语义有效地。

有鉴于此,我们提出了 MotionLLM,这是一个简单而有效的人类运动理解、字幕和推理框架。具体来说,MotionLLM采用统一的视频运动训练策略,利用现有粗粒度视频文本数据和细粒度运动文本数据的互补优势,收集丰富的时空洞察。此外,我们还收集了大量数据集 MoVid,其中包括不同的视频、动作、字幕和说明。

此外,我们提出了 MoVid-Bench,带有仔细的手动注释,以便更好地评估人类对视频和运动的行为理解。大量的实验证明了MotionLLM在字幕、时空理解和推理能力方面的优越性。

AIGC专区:
https://heehel.com/category/aigc

论文链接:https://huggingface.co/papers/2405.20340

项目介绍:https://lhchen.top/MotionLLM/

Q: describe what the man is doing.
问:描述一下这个人在做什么。

A: The man is performing a choreographed martial arts sequence on stage. He is demonstrating various martial arts techniques and movements while engaged in a conversation with the audience, showing his skills and artistry.
A:那个男人正在舞台上表演精心设计的武术序列。他一边展示各种武术技巧和动作,一边与观众交谈,展示了他的技巧和艺术性。

Q: why is the video funny?
问:为什么视频很有趣?

A: The video is funny due to the man's exaggerated movements and gestures, which are meant to mimic the actions of a professional wrestler. The comedic effect comes from the contrast between the man's usual calm demeanor and the over-the-top movements being performed.
答:这段视频很有趣,因为该男子夸张的动作和手势是为了模仿职业摔跤手的动作。喜剧效果来自于该男子一贯的冷静举止和夸张的动作之间的对比。

MotionLLM旨在通过分析人体动作和视频来理解人类行为。MotionLLM利用了大型语言模型(LLMs)的强大能力,不同于以往的研究,它同时处理视频和动作序列(例如SMPL序列),以更有效地捕捉身体部位的动态和语义细节。

想象一下,你正在观看一段武术表演的视频,表演者正在做一个高难度的踢腿动作。这个动作从准备踢腿开始,到左腿高高伸展在空中,最后是踢腿后的跟进动作。MotionLLM能够理解这一系列动作的含义,并且能够描述出表演者可能正在做的是武术或跆拳道,以及表演者需要具备的良好身体协调性和平衡能力。

MotionLLM的工作原理类似于一个智能健身教练。它可以接收视频输入,并根据视频内容给出动作说明,比如指导你如何从仰卧位置开始,抬起腿部至45度角,然后滑动双手沿着大腿向下,直到手触碰到地面,最后放下脚回到仰卧位置。这种能力使得MotionLLM在健身和健康领域具有广泛的应用前景。

MotionLLM:从人类动作和视频中识别、分析和了解人类行为

论文还详细描述了MotionLLM的框架和方法。它采用了统一的视频-动作训练策略,利用现有的粗糙视频-文本数据和精细的动作-文本数据的互补优势,以获得丰富的时空洞察力。此外,研究团队收集并创建了一个名为MoVid的大型数据集,包含多样化的视频、动作、标题和指令,并提出了MoVid-Bench基准测试,用于更好地评估视频和动作的人类行为理解。

MoVid-Bench是一个评估模型性能的基准,它使用多种指标来评估对动作序列、身体部位语义、方向感知、推理能力以及对幻觉的鲁棒性。这些评估的参考答案都经过了精心的人工注释和验证。

实验结果表明,MotionLLM在标题生成、时空理解和推理能力方面都优于其他方法。例如,在零样本视频多项选择问答(MVBench)上,MotionLLM在7个与人类行为相关的子任务上表现出色,显示出其在理解视频内容的顺序动态方面的卓越能力。此外,MotionLLM在ActivityNet-QA上的零样本开放词汇视频问答中也超越了现有的视频基础LLMs,显示出良好的顺序理解和对视频内容的泛化人类行为理解。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索