视觉跟踪的全局特征依赖捕获:基于时空transformer的端到端视觉跟踪器
2024-02-18 03:03:10
引言
视觉跟踪在计算机视觉领域是一项具有挑战性的任务,其目标是根据视频序列中初始帧中的目标位置和外观信息,在后续帧中准确地定位目标。近年来,深度学习技术在视觉跟踪领域取得了令人瞩目的进展,其中,基于Transformer的视觉跟踪器因其强大的全局建模能力而备受关注。然而,现有基于Transformer的视觉跟踪器大多集中于空间信息的建模,而忽视了时间信息的重要性。
本文贡献
为了解决上述问题,本文提出了一种创新的Transformer模型,用于视觉跟踪任务。该模型以端到端的方式将空间和时间信息结合起来,能够有效地捕捉视频序列中全局特征依赖关系。具体贡献如下:
- 我们提出了一种时空Transformer模型,该模型能够同时捕获空间和时间维度的全局特征依赖关系。
- 我们设计了一种新的目标表示方式,将目标的时空信息编码成一个序列,并将其输入到Transformer模型中。
- 我们通过在五个具有挑战性的视觉跟踪基准上进行广泛的实验,证明了该模型的有效性。实验结果表明,该模型在短期和长期目标遮挡或外观变化时表现出色。
方法
本文提出的时空Transformer模型主要包括以下几个组件:
- 目标编码模块: 该模块将目标的时空信息编码成一个序列,以便将其输入到Transformer模型中。
- Transformer编码器: 该模块采用Transformer编码器来建模视频序列中全局特征依赖关系。
- 目标预测模块: 该模块根据Transformer编码器的输出预测目标在当前帧中的位置。
目标编码模块将目标的时空信息编码成一个序列,以便将其输入到Transformer模型中。具体来说,该模块首先将目标在当前帧中的位置和外观信息编码成一个向量,然后将该向量与目标在历史帧中的位置和外观信息编码成的向量连接起来,形成一个序列。
Transformer编码器采用Transformer编码器来建模视频序列中全局特征依赖关系。具体来说,该编码器首先将输入的序列映射到一个高维空间中,然后使用注意力机制来计算序列中元素之间的依赖关系。最后,该编码器输出一个新的序列,该序列包含了视频序列中全局特征依赖关系的信息。
目标预测模块根据Transformer编码器的输出预测目标在当前帧中的位置。具体来说,该模块首先将Transformer编码器的输出投影到一个低维空间中,然后使用一个全连接层来预测目标在当前帧中的位置。
实验结果
我们在五个具有挑战性的视觉跟踪基准上对提出的模型进行了广泛的实验。实验结果表明,该模型在短期和长期目标遮挡或外观变化时表现出色。
在OTB-100基准上,该模型的平均精度(AO)为82.9%,平均成功率(SR)为71.3%。在VOT2018基准上,该模型的AO为82.1%,SR为70.5%。在UAV123基准上,该模型的AO为78.9%,SR为67.2%。在LaSOT基准上,该模型的AO为80.3%,SR为69.1%。在TrackingNet基准上,该模型的AO为79.7%,SR为68.5%。
结论
本文提出了一种创新的Transformer模型,用于视觉跟踪任务。该模型能够同时捕获空间和时间维度的全局特征依赖关系,在五个具有挑战性的基准上实现了最优性能。该模型有望为视觉跟踪研究提供新的视角。