Meta Reality Labs 推出了Meta Sapiens,这是一个用于四种基本的以人为中心的视觉任务的模型系列:2D 姿势估计、身体部位分割、深度估计和表面法线预测。我们的模型本身支持 1K 高分辨率推理,并且只需对在超过 3 亿张野外人类图像上预训练的模型进行微调,就可以非常轻松地适应各个任务。即使标记数据稀缺或完全合成,所得模型也对野外数据表现出显着的泛化能力。我们简单的模型设计还带来了可扩展性——随着我们将参数从 0.3 亿扩展到 20 亿,跨任务的模型性能得到提高。 Sapiens 在各种以人类为中心的基准测试中始终超越现有基准。
(Meta Sapiens视频人物人体表面法线预测、动作识别模型详情介绍👇)
AI论文与新生技术专题:
https://heehel.com/collection/topic-aipapers-jiaocheng
简单来说,这些模型可以识别照片中人的各个部位的位置,判断人与人之间的距离,以及理解人体表面的弯曲和方向。
Sapiens 模型的特点是它们可以在高分辨率(1K分辨率)下工作,并且很容易根据不同的任务进行调整。研究者们使用超过3亿张真实世界中的人体图像来预训练这些模型,使得它们在处理各种不同的人体图像时表现出色,即使这些图像没有标签或者完全是合成的。这些模型的设计简单,但性能强大,能够随着参数数量的增加而提升性能。
Sapiens的功能
- 2D姿态估计:识别图像中人物的关键点,如关节和肢体的连接点。
- 身体部位分割:将图像中的每个像素分配到特定的身体部位类别,如头部、手臂、腿部等。
- 深度估计:预测图像中各点的深度信息,判断物体之间的远近关系。
- 表面法线预测:确定图像中每个像素点的表面法线方向,有助于理解物体表面的几何形状。
Sapiens的技术原理
- 大规模预训练:使用超过3亿张真实世界中的人体图像进行自监督预训练。
- 自监督学习:通过masked-autoencoder (MAE) 方法,模型学习从部分遮挡的图像中重建完整图像。
- 高分辨率输入:模型支持高达1K分辨率的图像输入,提高了细节识别能力。
- 可扩展的架构:通过调整模型参数的数量,可以提升模型的性能和适应性。
- 端到端的微调:在预训练的基础上,针对特定任务对模型进行微调,以优化性能。
Sapiens的应用场景
- 增强现实(AR):在AR应用中,Sapiens可以帮助设备更准确地理解用户的姿态和动作,提供更自然的交互体验。
- 虚拟现实(VR):在VR环境中,Sapiens可以用于实时追踪用户的身体动作,提升沉浸感。
- 游戏开发:在游戏角色动画中,Sapiens可以用于生成更加真实和流畅的人体动作。
- 安全监控:在监控系统中,Sapiens可以帮助识别和追踪人员,提高安全预警的准确性。
- 健康和健身应用:通过分析人体姿态和动作,Sapiens可以用于开发健身指导或康复训练应用。
- 时尚和零售:在虚拟试衣间中,Sapiens可以用于模拟服装在不同体型上的效果。
- 人机交互:Sapiens可以用于改善机器人对人类动作的理解,提升人机交互的自然度和效率。