返回

利用时空模型进行行人重识别的无监督迁移学习

人工智能

摘要

行人重识别(Person Re-identification)是计算机视觉领域的一项关键任务,旨在根据给定图像集(探测集)从候选图像集(画廊集)中识别出与同一行人最匹配的图像。近年来,无监督迁移学习技术在解决行人重识别任务方面取得了显著进步,这些技术能够利用在不同数据集上学习的知识来增强模型性能。在本文中,我们提出了一种基于时空模型的无监督迁移学习框架,通过有效融合时空信息,进一步提升了行人重识别精度。

引言

行人重识别是一项具有挑战性的任务,由于受到光照变化、视角差异和背景干扰等因素的影响,准确匹配不同图像中的同一行人非常困难。传统方法通常采用监督学习,需要大量标记数据集进行训练。然而,获取这些标记数据集既费时又费力,尤其是在实际应用中。

无监督迁移学习为解决此问题提供了新的途径,它允许模型从一个源数据集(通常包含丰富标记数据)中学到的知识,并将其应用于另一个目标数据集(通常没有或只有少量标记数据)。这种方法消除了手动注释的需求,大大降低了数据收集成本。

方法

我们的无监督迁移学习框架包括以下几个步骤:

  1. 特征提取: 我们使用预训练的卷积神经网络(CNN)从探测图像和画廊图像中提取特征。该CNN是在ImageNet数据集上进行监督学习的,因此它已经能够从图像中提取有意义的特征。
  2. 时空建模: 提取特征后,我们将它们输入到时空模型中,该模型可以捕捉图像序列中行人的时空关系。时空模型由一个循环神经网络(RNN)和一个卷积神经网络(CNN)组成。RNN负责学习图像序列中的时间依赖性,而CNN则负责提取空间特征。
  3. 无监督迁移: 时空模型的输出特征被输入到无监督迁移模块中,该模块使用对抗性学习技术将源数据集的分布转移到目标数据集的分布。通过这种方式,模型可以学习到源数据集中的有用知识,并将其应用于目标数据集。
  4. 行人匹配: 最后,我们使用欧氏距离或余弦相似性等度量方法将探测图像和画廊图像的特征进行匹配。匹配得分最高的图像被认为与探测图像中的同一行人匹配。

结果

我们在三个公开行人重识别数据集(Market-1501、CUHK03和DukeMTMC-reID)上评估了我们提出的方法。实验结果表明,与现有的无监督迁移学习方法相比,我们的方法在所有三个数据集上都实现了显着的性能提升。

结论

在本文中,我们提出了一种基于时空模型的无监督迁移学习框架,用于行人重识别。该框架有效地融合了时空信息,并利用无监督迁移技术将源数据集的知识转移到目标数据集,从而提高了行人重识别的精度。我们的方法在CVPR2018上进行了评估,并取得了最先进的性能。未来工作将专注于进一步改进该框架,以处理更具挑战性的行人重识别场景。