谷歌CAT3D革新3D内容创建：多视图扩散模型引领快速高效新纪元

+AI动态 AI+3D AIGC 网站公告
5月18日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

谷歌的最新创新——CAT3D，已经彻底改变了3D内容创建的方式。这项革命性的技术通过使用多视图扩散模型，模拟了现实世界中的捕获过程，使用户能够在短短一分钟内创建出高度一致的3D场景。

在3D重建技术的演进过程中，尽管已经实现了高质量的3D捕捉，但传统方法往往要求用户收集数百甚至数千张图像来创建一个完整的3D场景。这不仅耗时耗力，而且在实际操作中也面临着诸多挑战。谷歌的CAT3D技术则彻底打破了这一局限。

CAT3D的工作原理是，给定任意数量的输入图像和一组目标新视角，其模型能够生成与原始场景高度一致的新视角图像。这些生成的视图随后可以作为稳健3D重建技术的输入，进一步生成可从任何视点实时渲染的3D表示。

谷歌CAT3D革新3D内容创建：多视图扩散模型引领快速高效新纪元

与现有的单图像或少视图3D场景创建方法相比，CAT3D展现了显著的优势。它不仅能够更快速、更高效地创建3D场景，而且生成的3D模型在质量和一致性上也达到了前所未有的水平。

CAT3D的推出标志着3D内容创建领域的一个重大突破。它不仅为用户提供了更加便捷、高效的工具，同时也为虚拟现实、增强现实、游戏开发等领域带来了无限的可能性。随着技术的进一步发展和完善，我们有理由相信，CAT3D将成为未来3D内容创作的主流工具之一。

项目页面以获取结果和交互式演示：https://cat3d.github.io

AIGC专区：
https://heehel.com/category/aigc

更多消息：
https://heehel.com/category/ai-news

谷歌CAT3D革新3D内容创建：多视图扩散模型引领快速高效新纪元

工作原理：

给定任意数量的输入图像，我们使用以这些图像为条件的多视图扩散模型来生成场景的新颖视图。生成的视图被输入到强大的 3D 重建管道，生成可以交互渲染的 3D 表示。总处理时间（包括视图生成和 3D 重建）仅需一分钟。

方法概述：

CAT3D 使用多视图潜在扩散模型来生成场景的新视图。该模型可以以任意数量的观察视图为条件（输入图像具有嵌入为射线坐标的相应相机姿势），并经过训练以在指定目标视点生成场景的多个一致的新颖图像。该架构类似于视频扩散模型，但每个图像的相机姿势嵌入而不是时间嵌入。生成的视图被传递到强大的 3D 重建管道中以创建 3D 表示（Zip-NeRF 或 3DGS）。