MaGGIe：遮罩引导渐进人体实例抠图，多个对象一次扣出-喜好儿网

人体抠图是图像和视频处理中的一项基础任务，其中从输入中提取人体前景像素。先前的工作要么通过额外的指导来提高准确性，要么提高跨帧的单个实例的时间一致性。

我们提出了一个新的框架 MaGGIe，Masked Guided Gradual Human Instance Matting，它逐步预测每个人类实例的 alpha mattes，同时保持计算成本、精度和一致性。我们的方法利用现代架构，包括变压器注意力和稀疏卷积，同时输出所有实例遮罩，而不会增加内存和延迟。

尽管在多实例场景中保持恒定的推理成本，但我们的框架在我们提出的综合基准上实现了稳健且通用的性能。随着更高质量的图像和视频抠图基准，引入了来自公开来源的新颖的多实例合成方法，以提高模型在现实场景中的泛化能力。

代码和数据集：https://maggie-matt.github.io

AIGC专区：
https://heehel.com/category/aigc

简介————

在图像抠图中，一个简单的解决方案是预测像素透明度 - alpha matte α ∈以实现精确的背景去除。考虑到显着性图像 I 具有两个主要成分：前景 F 和背景 B，图像 I 表示为 I = αF + (1 − α)B。由于检测前景区域的模糊性，例如，一个人的物品是否是人类前景的一部分，许多方法利用额外的指导，通常是三元图，定义前景、背景、以及未知或过渡区域。然而，创建三维地图（尤其是视频）需要占用大量资源。替代的二进制掩模更容易通过人类绘图或现成的分割模型获得，同时提供更大的灵活性，而几乎不会受到限制。

图 1.我们的 MaGGIe 提供精确且时间一致的 alpha 遮罩。它巧妙地保留了复杂的细节，并通过有效利用相邻帧的信息，展示了实例引导掩模中对噪声的鲁棒性。红色箭头突出显示详细放大的区域。（最佳颜色和数字放大查看）。
作为三元图的区域的应变输出值。我们的工作重点但不限于人体抠图，因为与其他对象相比，许多应用中可用的学术数据集和用户需求更多。

当使用视频输入时，创建三维地图引导的问题通常通过引导传播来解决，其中主要思想来自视频对象分割。然而，当视频长度增加时，三元图传播的性能会下降。失败的三图预测会错过一些性质，例如前景-未知-背景区域之间的对齐，从而导致不正确的 alpha 遮罩。我们观察到，对每个帧使用二进制掩码可以提供更稳健的结果。然而，帧输出之间的一致性对于任何视频抠图方法仍然很重要。例如，由于错误引导而在随机帧中出现的洞应该通过连续帧来纠正。

MaGGIe：遮罩引导渐进人体实例抠图，多个对象一次扣出

相关推荐

评论抢沙发

【央视网】绝了！AI视角下的神州大地每一帧都是屏保

热门专题

快讯

热门文章

喜好儿——再不认真就输了！

致力于发现ai人工智能应用的新世界，长期更新目前热门AI教程与动态！期待在这个工业变革时代中，希望你我都能发出一点光。

切换注册登录

切换登录注册