人体抠图是图像和视频处理中的一项基础任务,其中从输入中提取人体前景像素。先前的工作要么通过额外的指导来提高准确性,要么提高跨帧的单个实例的时间一致性。
我们提出了一个新的框架 MaGGIe,Masked Guided Gradual Human Instance Matting,它逐步预测每个人类实例的 alpha mattes,同时保持计算成本、精度和一致性。我们的方法利用现代架构,包括变压器注意力和稀疏卷积,同时输出所有实例遮罩,而不会增加内存和延迟。
尽管在多实例场景中保持恒定的推理成本,但我们的框架在我们提出的综合基准上实现了稳健且通用的性能。随着更高质量的图像和视频抠图基准,引入了来自公开来源的新颖的多实例合成方法,以提高模型在现实场景中的泛化能力。
代码和数据集:https://maggie-matt.github.io
AIGC专区:
https://heehel.com/category/aigc
简介————
在图像抠图中,一个简单的解决方案是预测像素透明度 - alpha matte α ∈以实现精确的背景去除。考虑到显着性图像 I 具有两个主要成分:前景 F 和背景 B,图像 I 表示为 I = αF + (1 − α)B。由于检测前景区域的模糊性,例如,一个人的物品是否是人类前景的一部分,许多方法利用额外的指导,通常是三元图,定义前景、背景、以及未知或过渡区域。然而,创建三维地图(尤其是视频)需要占用大量资源。替代的二进制掩模更容易通过人类绘图或现成的分割模型获得,同时提供更大的灵活性,而几乎不会受到限制。
图 1.我们的 MaGGIe 提供精确且时间一致的 alpha 遮罩。它巧妙地保留了复杂的细节,并通过有效利用相邻帧的信息,展示了实例引导掩模中对噪声的鲁棒性。红色箭头突出显示详细放大的区域。 (最佳颜色和数字放大查看)。
作为三元图的区域的应变输出值。我们的工作重点但不限于人体抠图,因为与其他对象相比,许多应用中可用的学术数据集和用户需求更多。
当使用视频输入时,创建三维地图引导的问题通常通过引导传播来解决,其中主要思想来自视频对象分割。然而,当视频长度增加时,三元图传播的性能会下降。失败的三图预测会错过一些性质,例如前景-未知-背景区域之间的对齐,从而导致不正确的 alpha 遮罩。我们观察到,对每个帧使用二进制掩码可以提供更稳健的结果。然而,帧输出之间的一致性对于任何视频抠图方法仍然很重要。例如,由于错误引导而在随机帧中出现的洞应该通过连续帧来纠正。