【AI论文与新生技术】SyntheOcc：根据对场景的描述生成符合描述的街景图片

AI+3D AI+图片生成 AIGC
来源：喜好儿网
21小时前
🍔喜好值+
编辑

HeeHel喜好儿官方小编

自动驾驶的进步越来越依赖于高质量的注释数据集，特别是在 3D 占用预测任务中，其中占用标签需要大量的人力进行密集的 3D 注释。在概述中，研究人员提出了 SyntheOcc，它表示一种扩散模型，通过调节驾驶场景中的占用标签来合成真实感和几何可控图像。

这将为训练感知模型和模拟等应用产生无限量的多样化、带注释和可控的数据集。 SyntheOcc 解决了如何有效地将 3D 几何信息编码为 2D 扩散模型的条件输入的关键挑战。研究人员的方法创新性地结合了 3D 语义多平面图像 (MPI)，为调节提供全面且空间对齐的 3D 场景描述。

通过这样做，SyntheOcc 可以生成逼真的多视图图像和视频，这些图像和视频忠实地与给定的几何标签（3D 体素空间中的语义）对齐。 SyntheOcc 对 nuScenes 数据集进行的广泛定性和定量评估证明了其在生成可控占用数据集方面的有效性，这些数据集可作为感知模型的有效数据增强。

【AI论文与新生技术】SyntheOcc：根据对场景的描述生成符合描述的街景图片

SyntheOcc支持几何控制生成，在 3D 体素空间中传达用户编辑，以生成逼真的街景图像。

概述：研究人员利用他们提出的 3D 语义多平面图像来编码场景占用，从而实现图像生成中的 3D 几何控制。在他们的框架中，研究人员可以编辑 3D 空间中每个体素的占用状态和语义来控制图像生成，从而开辟了广泛的应用，如右上角所示。

【AI论文与新生技术】SyntheOcc：根据对场景的描述生成符合描述的街景图片

文章目录

(香港科技大学SyntheOcc：根据描述生成街景图片详情👇)

它是一种用于自动驾驶领域的图像生成模型。这个技术可以创建出逼真的街道景象图像，并且能够根据三维空间中的占用信息（即哪些地方有物体）来控制图像的生成。简单来说，SyntheOcc能够根据我们对场景的描述（如某个地方有个障碍物），生成符合这些描述的街景图片。

如果你是一位电影导演，需要拍摄一个特定的场景，比如一条繁忙的街道。但这个街道需要有一些特殊的布置，比如交通锥挡住了去路。在现实中，要找到或者创造出这样的场景可能很难，而且成本很高。SyntheOcc就像一个虚拟的舞台设计师，可以根据你的描述，创造出一个完全符合你要求的街道场景图片。而且，这个图片看起来非常逼真，就像真的一样。这样，你就可以用这个图片来预览你的拍摄效果，或者用它来训练你的特效团队，甚至可以直接在电脑中制作电影，而不需要真的去街上拍摄。

【AI论文与新生技术】SyntheOcc：根据对场景的描述生成符合描述的街景图片