【AI论文与新生技术】Meta Reality Labs推出视频人物人体表面法线预测、动作识别模型“Sapiens”

Meta Reality Labs 推出了Meta Sapiens,这是一个用于四种基本的以人为中心的视觉任务的模型系列:2D 姿势估计、身体部位分割、深度估计和表面法线预测。我们的模型本身支持 1K 高分辨率推理,并且只需对在超过 3 亿张野外人类图像上预训练的模型进行微调,就可以非常轻松地适应各个任务。即使标记数据稀缺或完全合成,所得模型也对野外数据表现出显着的泛化能力。我们简单的模型设计还带来了可扩展性——随着我们将参数从 0.3 亿扩展到 20 亿,跨任务的模型性能得到提高。 Sapiens 在各种以人类为中心的基准测试中始终超越现有基准。

(Meta Sapiens视频人物人体表面法线预测、动作识别模型详情介绍👇)

AI论文与新生技术专题:
https://heehel.com/collection/topic-aipapers-jiaocheng

简单来说,这些模型可以识别照片中人的各个部位的位置,判断人与人之间的距离,以及理解人体表面的弯曲和方向。

Sapiens 模型的特点是它们可以在高分辨率(1K分辨率)下工作,并且很容易根据不同的任务进行调整。研究者们使用超过3亿张真实世界中的人体图像来预训练这些模型,使得它们在处理各种不同的人体图像时表现出色,即使这些图像没有标签或者完全是合成的。这些模型的设计简单,但性能强大,能够随着参数数量的增加而提升性能。

【AI论文与新生技术】Meta Reality Labs推出视频人物人体表面法线预测、动作识别模型“Sapiens”

Sapiens的功能

  1. 2D姿态估计:识别图像中人物的关键点,如关节和肢体的连接点。
  2. 身体部位分割:将图像中的每个像素分配到特定的身体部位类别,如头部、手臂、腿部等。
  3. 深度估计:预测图像中各点的深度信息,判断物体之间的远近关系。
  4. 表面法线预测:确定图像中每个像素点的表面法线方向,有助于理解物体表面的几何形状。

Sapiens的技术原理

  1. 大规模预训练:使用超过3亿张真实世界中的人体图像进行自监督预训练。
  2. 自监督学习:通过masked-autoencoder (MAE) 方法,模型学习从部分遮挡的图像中重建完整图像。
  3. 高分辨率输入:模型支持高达1K分辨率的图像输入,提高了细节识别能力。
  4. 可扩展的架构:通过调整模型参数的数量,可以提升模型的性能和适应性。
  5. 端到端的微调:在预训练的基础上,针对特定任务对模型进行微调,以优化性能。

Sapiens的应用场景

  1. 增强现实(AR):在AR应用中,Sapiens可以帮助设备更准确地理解用户的姿态和动作,提供更自然的交互体验。
  2. 虚拟现实(VR):在VR环境中,Sapiens可以用于实时追踪用户的身体动作,提升沉浸感。
  3. 游戏开发:在游戏角色动画中,Sapiens可以用于生成更加真实和流畅的人体动作。
  4. 安全监控:在监控系统中,Sapiens可以帮助识别和追踪人员,提高安全预警的准确性。
  5. 健康和健身应用:通过分析人体姿态和动作,Sapiens可以用于开发健身指导或康复训练应用。
  6. 时尚和零售:在虚拟试衣间中,Sapiens可以用于模拟服装在不同体型上的效果。
  7. 人机交互:Sapiens可以用于改善机器人对人类动作的理解,提升人机交互的自然度和效率。
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索