返回
长尾分布下的图像识别新进展:DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION
人工智能
2024-01-02 17:42:37
在计算机视觉领域,长尾分布现象是一种常见的挑战,即类别分布高度不平衡,少数类别的样本数量远远多于其他类别。这种不平衡会对分类模型的性能产生负面影响,导致模型难以识别尾部类别的样本。
为了解决这一问题,来自清华大学和微软亚洲研究院的研究人员提出了一种名为 DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION(简称 DRC)的策略。该策略基于 re-sample 范式,通过解耦特征提取和分类器两个阶段,有效地缓解了长尾分布带来的挑战。
策略原理
DRC 策略包含两个主要模块:
- 特征提取器: 负责从原始图像中提取特征。它采用了一种基于注意力机制的模型,该模型可以动态地关注图像中与类别相关的区域。
- 分类器: 负责基于提取的特征对图像进行分类。它采用了一种基于原型网络的模型,该模型可以学习类别原型的表示,并根据这些原型进行分类。
工作流程
DRC 策略的工作流程分为两个阶段:
- 特征提取阶段: 在该阶段,特征提取器从原始图像中提取特征。为了缓解长尾分布问题,研究人员采用了 re-sample 技术,对尾部类别的图像进行过采样,以平衡不同类别的样本数量。
- 分类阶段: 在该阶段,分类器基于提取的特征对图像进行分类。分类器学习不同类别的原型表示,并根据图像特征与原型之间的相似性进行分类。
实验结果
DRC 策略在多个长尾分布数据集上进行了广泛的实验,包括 ImageNet-LT 和 LVIS。实验结果表明,DRC 策略在识别尾部类别样本方面取得了显著的改进,同时保持了对头部类别样本的良好性能。
与其他长尾分布分类策略相比,DRC 策略具有以下优点:
- 简单有效: DRC 策略基于一个简单的 re-sample 范式,易于实现和部署。
- 无需数据增强: DRC 策略不需要额外的图像增强技术,从而减少了数据预处理的负担。
- 泛化能力强: DRC 策略对不同的长尾分布数据集表现出了良好的泛化能力。
应用场景
DRC 策略可以在各种计算机视觉应用中发挥作用,包括:
- 图像分类: 识别长尾分布数据集中的图像,例如医学图像、卫星图像和遥感图像。
- 目标检测: 检测长尾分布数据集中的物体,例如稀有动物、微小物体和遮挡物体。
- 语义分割: 对长尾分布数据集中的图像进行语义分割,例如罕见场景、小物体和复杂背景。
结论
DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION(DRC)策略为解决长尾分布分类问题提供了一种简单有效的方法。该策略通过解耦特征提取和分类器两个阶段,缓解了长尾分布带来的挑战,并在多个数据集上取得了优异的性能。DRC 策略有望在各种计算机视觉应用中得到广泛应用。