【AI论文与新生技术】SyntheOcc:根据对场景的描述生成符合描述的街景图片

自动驾驶的进步越来越依赖于高质量的注释数据集,特别是在 3D 占用预测任务中,其中占用标签需要大量的人力进行密集的 3D 注释。在概述中,研究人员提出了 SyntheOcc,它表示一种扩散模型,通过调节驾驶场景中的占用标签来合成真实感和几何可控图像。

这将为训练感知模型和模拟等应用产生无限量的多样化、带注释和可控的数据集。 SyntheOcc 解决了如何有效地将 3D 几何信息编码为 2D 扩散模型的条件输入的关键挑战。研究人员的方法创新性地结合了 3D 语义多平面图像 (MPI),为调节提供全面且空间对齐的 3D 场景描述。

通过这样做,SyntheOcc 可以生成逼真的多视图图像和视频,这些图像和视频忠实地与给定的几何标签(3D 体素空间中的语义)对齐。 SyntheOcc 对 nuScenes 数据集进行的广泛定性和定量评估证明了其在生成可控占用数据集方面的有效性,这些数据集可作为感知模型的有效数据增强。

【AI论文与新生技术】SyntheOcc:根据对场景的描述生成符合描述的街景图片

SyntheOcc支持几何控制生成,在 3D 体素空间中传达用户编辑,以生成逼真的街景图像。

概述:研究人员利用他们提出的 3D 语义多平面图像来编码场景占用,从而实现图像生成中的 3D 几何控制。在他们的框架中,研究人员可以编辑 3D 空间中每个体素的占用状态和语义来控制图像生成,从而开辟了广泛的应用,如右上角所示。

【AI论文与新生技术】SyntheOcc:根据对场景的描述生成符合描述的街景图片

(香港科技大学SyntheOcc:根据描述生成街景图片详情👇)

它是一种用于自动驾驶领域的图像生成模型。这个技术可以创建出逼真的街道景象图像,并且能够根据三维空间中的占用信息(即哪些地方有物体)来控制图像的生成。简单来说,SyntheOcc能够根据我们对场景的描述(如某个地方有个障碍物),生成符合这些描述的街景图片。

如果你是一位电影导演,需要拍摄一个特定的场景,比如一条繁忙的街道。但这个街道需要有一些特殊的布置,比如交通锥挡住了去路。在现实中,要找到或者创造出这样的场景可能很难,而且成本很高。SyntheOcc就像一个虚拟的舞台设计师,可以根据你的描述,创造出一个完全符合你要求的街道场景图片。而且,这个图片看起来非常逼真,就像真的一样。这样,你就可以用这个图片来预览你的拍摄效果,或者用它来训练你的特效团队,甚至可以直接在电脑中制作电影,而不需要真的去街上拍摄。

【AI论文与新生技术】SyntheOcc:根据对场景的描述生成符合描述的街景图片

SyntheOcc技术原理

  1. 三维语义多平面图像(3D Semantic MPIs):这是一种新颖的三维表示方法,通过在不同的深度层面上存储语义标签,来捕捉场景的几何和语义信息。
  2. MPI编码器:用于将三维多平面图像的特征与生成模型的潜空间对齐,从而实现局部控制和空间对齐。
  3. 跨视图和跨帧注意力机制:确保生成的多视角图像和视频在视图和帧之间保持一致性。
  4. 重要性重新加权:解决前景、背景和不同对象类别之间的极端不平衡问题,提高模型训练的稳定性和生成质量。

SyntheOcc功能

  1. 生成具有精细几何控制的逼真图像和视频。
  2. 允许用户编辑三维空间中的物体状态和语义,以控制图像生成。
  3. 提供了一种数据增强手段,可以改善感知模型在三维占用预测任务中的表现。

SyntheOcc应用场景

  1. 自动驾驶训练:用于生成训练自动驾驶系统所需的多样化和标注数据。
  2. 模拟和测试:创建罕见或极端天气条件下的场景,用于测试自动驾驶系统的鲁棒性。
  3. 编辑和生成罕见数据:帮助评估自动驾驶系统在特定“角例”场景下的表现。

【AI论文与新生技术】SyntheOcc:根据对场景的描述生成符合描述的街景图片

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索