Meta官方研发的新作Ego-Exo4D：实现自我与外心视角流畅切换的突破性数据集

+AI工具 AIGC 今日观点
23年12月5日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

Ego-Exo4D 是一个基础数据集和基准套件，旨在支持视频学习和多模态感知的研究。该数据集由 Meta 的 FAIR（Fundamental Artificial Intelligence Research）团队、Meta 的 Project Aria 团队以及15所大学合作伙伴共同努力，持续了两年的时间。

Meta官方网址链接：https://ai.meta.com/
Ego-Exo4D更多详细介绍：https://ai.meta.com/blog/ego-exo4d-video-learning-perception/?utm_source=twitter&utm_medium=organic_social&utm_campaign=fair10&utm_content=video

Ego-Exo4D 的核心是同时捕捉参与者佩戴摄像头的第一人称视角（自我视角）和周围摄像头的第三人称视角（外心视角）。这两个视角相互补充，自我视角揭示了参与者所见所闻，外心视角则揭示了周围环境和背景。通过这两个视角，AI 模型可以更好地理解复杂的人类技能。

Ego-Exo4D 聚焦于熟练的人类活动，如运动、音乐、烹饪、跳舞和自行车维修。这些活动对 AI 的理解和应用有很大的潜力，例如在未来的增强现实系统中，人们可以通过虚拟 AI 教练快速掌握新技能；在机器人学习中，机器人可以通过观察环境中的人类获取新的灵巧操作技能；在社交网络中，人们可以通过分享他们的专业知识和技能形成新的社区。

Meta官方研发的新作Ego-Exo4D：实现自我与外心视角流畅切换的突破性数据集

然而，目前的数据集和学习范式无法实现在自我和外心视角之间流畅切换。现有的数据集规模较小，缺乏相机之间的同步，或者过于分阶段或策划，无法适应真实世界的多样性。因此，目前关于活动理解的文献主要只涵盖自我或外在视角，无法实现第一人称和第三人称视角之间的流畅切换。

为了解决这一问题，Ego-Exo4D 成为目前最大的人工智能公共数据集，包含了同步的第一人称和第三人称视频。构建这个数据集需要跨领域的专家团队，汇集不同背景的人们，创建一个多方面的 AI 数据集。数据集中的场景都涵盖了真实世界的专家，摄像头佩戴者具有特定的证书、培训或专业知识。同时，数据集还提供了多种新的视频语言资源，包括相机佩戴者对自己行为的第一人称叙述、对每个相机佩戴者动作的第三人称游戏描述以及专家对视频的评论。

除了数据集，Ego-Exo4D 还提供了一系列基准任务，包括自我（-外心）识别、自我（-外心）熟练度估计、自我-外心关系和自我姿态恢复等任务。为了推动研究的进行，Ego-Exo4D 还提供了高质量的注释和基线模型。明年，他们计划举办第一次公开基准挑战赛。

总而言之，Ego-Exo4D 为研究人员提供了探索自我-外心视频和多模态活动识别的AI工具。这个数据集是目前最大、最丰富的公共数据集，可以帮助 AI 模型更好地理解人类的技能和行为。

Meta官方研发的新作Ego-Exo4D：实现自我与外心视角流畅切换的突破性数据集