PatchFusion：用于高分辨率单眼度量深度估计的端到端基于图块的框架

+AI动态 +AI工具图像生成在线版
23年12月14日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

Gradio 演示已在 huggingface 上发布（Gradio：一个构建并分享令人愉快的机器学习应用程序，是通过友好的 Web 界面演示机器学习模型的最快方式，以便任何人都可以在任何地方使用它！）

Gradio官方网站链接：https://www.gradio.app/
演示网址链接： https://huggingface.co/spaces/zhyever/PatchFusion
使用 docker 运行网址链接： https://huggingface.co/spaces/zhyever/PatchFusion?docker=true
使用私有 GPU 且无队列的重复空间网址链接： https://huggingface.co/spaces/zhyever/PatchFusion?duplicate=true
github网址链接： https://github.com/zhyever/PatchFusion
AIGC专区：https://heehel.com/category/aigc

PatchFusion：用于高分辨率单眼度量深度估计的端到端基于图块的框架

单图像深度估计是计算机视觉和生成建模中的基础任务。然而，流行的深度估计模型难以适应当今消费相机和设备中常见的不断提高的分辨率。现有的高分辨率策略显示出希望，但它们经常面临局限性，从错误传播到高频细节丢失。我们提出了 PatchFusion，一种新颖的基于图块的框架。

具有三个关键组件，以改进当前的技术水平：

补丁式融合网络，通过高层将全局一致的粗略预测与更精细、不一致的图块预测融合在一起特征指导。
全局到本地 (G2L) 模块，为融合网络添加重要上下文，无需补丁选择启发式方法。
一致性感知训练 (CAT) 和推理 (CAI)方法，强调补丁重叠一致性，从而消除后处理的必要性。

UnrealStereo4K、MVS-Synth 和 Middleburry 2014上的实验表明，他们的框架可以生成具有复杂细节的高分辨率深度图。 PatchFusion 独立于深度估计的基础模型。值得注意的是，他们基于 SOTA ZoeDepth 构建的框架在 UnrealStereo4K 和 MVS-Synth 上的均方根误差 (RMSE) 方面分别提高了17.3%和29.4%。

PatchFusion：用于高分辨率单眼度量深度估计的端到端基于图块的框架