//再不认真就输了!
//致力于发现AIGC动态与教程。

Meta官方研发的新作Ego-Exo4D:实现自我与外心视角流畅切换的突破性数据集

Ego-Exo4D 是一个基础数据集和基准套件,旨在支持视频学习和多模态感知的研究。该数据集由 Meta 的 FAIR(Fundamental Artificial Intelligence Research)团队、Meta 的 Project Aria 团队以及15所大学合作伙伴共同努力,持续了两年的时间。

Meta官方网址链接:https://ai.meta.com/
Ego-Exo4D更多详细介绍:https://ai.meta.com/blog/ego-exo4d-video-learning-perception/?utm_source=twitter&utm_medium=organic_social&utm_campaign=fair10&utm_content=video

Ego-Exo4D 的核心是同时捕捉参与者佩戴摄像头的第一人称视角(自我视角)和周围摄像头的第三人称视角(外心视角)。这两个视角相互补充,自我视角揭示了参与者所见所闻,外心视角则揭示了周围环境和背景。通过这两个视角,AI 模型可以更好地理解复杂的人类技能。

Ego-Exo4D 聚焦于熟练的人类活动,如运动、音乐、烹饪、跳舞和自行车维修。这些活动对 AI 的理解和应用有很大的潜力,例如在未来的增强现实系统中,人们可以通过虚拟 AI 教练快速掌握新技能;在机器人学习中,机器人可以通过观察环境中的人类获取新的灵巧操作技能;在社交网络中,人们可以通过分享他们的专业知识和技能形成新的社区。

然而,目前的数据集和学习范式无法实现在自我和外心视角之间流畅切换。现有的数据集规模较小,缺乏相机之间的同步,或者过于分阶段或策划,无法适应真实世界的多样性。因此,目前关于活动理解的文献主要只涵盖自我或外在视角,无法实现第一人称和第三人称视角之间的流畅切换。

为了解决这一问题,Ego-Exo4D 成为目前最大的人工智能公共数据集,包含了同步的第一人称和第三人称视频。构建这个数据集需要跨领域的专家团队,汇集不同背景的人们,创建一个多方面的 AI 数据集。数据集中的场景都涵盖了真实世界的专家,摄像头佩戴者具有特定的证书、培训或专业知识。同时,数据集还提供了多种新的视频语言资源,包括相机佩戴者对自己行为的第一人称叙述、对每个相机佩戴者动作的第三人称游戏描述以及专家对视频的评论。

除了数据集,Ego-Exo4D 还提供了一系列基准任务,包括自我(-外心)识别、自我(-外心)熟练度估计、自我-外心关系和自我姿态恢复等任务。为了推动研究的进行,Ego-Exo4D 还提供了高质量的注释和基线模型。明年,他们计划举办第一次公开基准挑战赛。

总而言之,Ego-Exo4D 为研究人员提供了探索自我-外心视频和多模态活动识别的AI工具。这个数据集是目前最大、最丰富的公共数据集,可以帮助 AI 模型更好地理解人类的技能和行为。

https://heehel.com/aigc/meta-ai-launches-seamless-translator.html

https://heehel.com/ai-news/interview-with-dhruv-batra.html

版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《Meta官方研发的新作Ego-Exo4D:实现自我与外心视角流畅切换的突破性数据集》
文章链接:https://heehel.com/aigc/meta-ego-exo4d.html
本站资源仅供个人学习交流,未经许可不得用于商业用途,自行承担法律责任。
如有疑问,请联系微信:heehelcom

评论 抢沙发

喜好儿——再不认真就输了!

致力于发现ai人工智能应用的新世界, 长期更新目前热门AI教程与动态!期待在这个工业变革时代中,希望你我都能发出一点光。

登录

找回密码

注册