【AI论文与新生技术】GST:使用高斯泼溅变压器从单张图像中获得精确的3D人体模型

我们的工作基于3D 高斯分布(3DGS),这是一种由高斯混合组成的场景表示。GST从单个输入图像预测人类的此类混合具有挑战性,因为它是具有严格物理约束的不均匀密度(与输入像素具有多对一关系)。同时,它需要灵活地适应各种衣服和姿势。我们的主要观察结果是,标准化人体网格(例如 SMPL)的顶点可以为高斯提供足够的密度和近似的初始位置。

然后,我们可以训练一个 Transformer 模型来联合预测这些位置以及其他高斯属性和 SMPL 参数的相对较小的调整。我们凭经验证明,这种组合(仅使用多视图监督)可以实现从单个图像快速推断 3D 人体模型,而无需测试时间优化、昂贵的扩散模型或 3D 点监督。我们还表明,GST可以通过更好地拟合考虑衣服和其他变化的人体模型来改进 3D 姿势估计。

(GST从单张图像中获得精确的3D人体模型项目文件资料和论文链接在下方👇)

AI论文与新生技术专题:
https://heehel.com/collection/topic-aipapers-jiaocheng

GST实现方法

【AI论文与新生技术】GST:使用高斯泼溅变压器从单张图像中获得精确的3D人体模型  GST给定单个输入图像,GST 使用视觉变换器 (ViT) 来预测 3D 人体姿势(以 SMPL 参数的形式)和精细的全彩 3D 模型(以 3D 高斯 Splats 的形式)。附加输入标记有助于输出各个高斯的颜色 c、不透明度 α、比例、旋转和位置偏移 δ。每个高斯位置 μ 相对于 SMPL 模型 v 的一个顶点有偏移量 δ,因此该模型可以被视为对可解释 SMPL 网格的细化或残差,从而促进具有更高视觉保真度的多视图渲染。

GST从单个图像预测 3D SMPL 参数和 3D 高斯图

【AI论文与新生技术】GST:使用高斯泼溅变压器从单张图像中获得精确的3D人体模型

该方法的一个关键优势是它能够实现快速推理,无需在测试时进行优化,也不需要昂贵的扩散模型或3D点监督。此外,GST还能够通过更好地适应服装和其他变化,提高3D姿态估计的准确性。在实验中,GST展示了其在不同数据集上的性能,包括在RenderPeople和HuMMan数据集上与现有技术的比较。

GST的训练过程包括使用图像重建损失、感知损失和透明度损失的组合,以确保模型能够产生准确且视觉上真实的3D重建。此外,模型还引入了高斯紧密度正则化,以确保预测的高斯分布紧密跟随SMPL参数,从而提高3D人体模型的精度。

GST特点

  1. 快速推理:GST能够在不需要昂贵的3D点云监督的情况下,快速从单张图像中推断出3D人体模型。
  2. 无需扩散模型:与依赖于扩散模型的方法不同,GST不依赖于这些通常较慢的技术,从而实现更快的推理速度。
  3. 多视角监督:GST使用多视角图像进行训练,而不是依赖于精确的3D点云数据,这降低了数据需求和成本。
  4. 高斯混合模型:GST基于3D高斯混合模型(3DGS),这是一种灵活且能够适应各种服装和姿势的场景表示方法。
  5. 精确姿态估计:GST能够提高3D姿态估计的准确性,通过更好地适应人体模型,包括服装和其他变化。

GST技术原理

  1. 3D Gaussian Splatting (3DGS):GST使用3DGS作为场景表示,这是由一组高斯分布组成的,每个分布由均值、协方差矩阵、透明度和颜色定义。
  2. SMPL模型:标准化的人体网格模型(如SMPL)的顶点被用来为高斯分布提供初始位置和密度。
  3. 变换器模型:通过训练一个变换器模型来预测高斯分布的位置微调、其他属性以及SMPL参数。
  4. 损失函数:GST使用图像重建损失、感知损失、透明度损失和高斯紧密度正则化的组合来训练模型,确保生成的3D模型在视觉上准确且真实。

GST生成3D人体模型应用场景

  1. 虚拟现实(VR):在VR环境中,GST可以用来创建精确的3D人体模型,提高虚拟体验的真实感。
  2. 增强现实(AR):在AR应用中,GST可以用于实时生成与现实世界互动的3D人体模型。
  3. 创意产业:在电影、游戏和动画制作中,GST可以用于快速生成或修改3D角色模型,提高生产效率。
  4. 人机交互:GST可以用于改善人机交互系统,通过更准确地识别和理解人体姿态和动作。
  5. 健康应用:在医疗和健康领域,GST可以帮助分析人体姿态和运动,用于康复训练和运动分析。

【AI论文与新生技术】GST:使用高斯泼溅变压器从单张图像中获得精确的3D人体模型

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索