视频物体对象追踪AI技术模型——Tracking Any Object Amodally

卡内基梅隆大学丰田研究所合作开发的项目旨在使AI能够在物体被部分遮挡或不完全可见的情况下理解其完整结构。该技术使计算机能够像人一样,即使只能看到物体的一部分,也能识别并追踪其整体。这对于自动驾驶车辆尤为重要,能够在复杂环境中准确识别和追踪部分被遮挡的行人或车辆,提高驾驶的安全性和可靠性。

项目地址:https://tao-amodal.github.io
论文:https://arxiv.org/abs/2312.12433
GitHub:https://github.com/WesleyHsieh0806/TAO-Amodal
AIGC专区:https://heehel.com/category/aigc
更多消息:https://heehel.com/category/ai-news

这个项目能大幅提升计算机视觉系统的智能,让它们在处理遮挡物体时更加像人类,从而在自动驾驶、视频监控等领域发挥更大的作用。

视频物体对象追踪AI技术模型——Tracking Any Object Amodally

为提高物体追踪技术他们专门设计了一个数据集——TAO-Amodal

  1. 这数据集涵盖了大量视频序列,包含各种被遮挡或部分可见的物体,并提供详细标注信息。
  2. 这样的数据集使得AI能够更全面地理解和追踪那些我们只能看到部分的物体。
  3. 数据集规模庞大,包括880个多样的类别,覆盖数千个视频序列。
  4. 注释类型方面,数据集提供了完全不可见、部分出框和被遮挡物体的amodal(非模态)和modal(模态)边界框标注。
  5. TAO-Amodal 数据集的重点在于评估当前追踪器在遮挡推理方面的能力,通过实现对任何物体的Amodal感知(Amodal perception)来进行追踪。这使得模型能够更好地处理被遮挡的物体,提高追踪的鲁棒性。

视频物体对象追踪AI技术模型——Tracking Any Object Amodally

Amodal Expander 插件:

  1. 该项目还引入了一个名为“Amodal Expander”的轻量级插件模块,旨在增强物体追踪器的性能。
  2. 传统的 Modal 追踪器主要关注物体可见部分,表现良好当物体完全显露在视野中。然而,当物体被遮挡或部分不可见时,Modal 追踪器可能失去准确性。
  3. Amodal 追踪器:相较之下,Amodal 追踪器能够理解和推断物体的完整形状,即使物体的一部分被遮挡或不完全可见。这意味着在复杂的视觉环境中,Amodal 追踪器能够更准确地追踪物体。

Amodal Expander 插件的主要功能是将标准的 Modal 追踪器转换为 Amodal 追踪器,通过在少量视频序列上微调追踪器实现。微调后的追踪器能够更有效地处理部分遮挡或不完全可见的物体,从而在追踪这些物体时更加准确和可靠。

在对 TAO-Amodal 数据集进行的测试中,该技术在检测和追踪被遮挡物体方面分别取得了3.3%和1.6%的改进。特别值得注意的是,在人物追踪方面,性能相较于现有的模态追踪技术提高了2倍。

视频物体对象追踪AI技术模型——Tracking Any Object Amodally

https://heehel.com/more/ai-bulletin-board/clone-voice-sound-cloning-tool.html

https://heehel.com/aigc/midjourney-v6-video-effects.html

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索