返回

一键式目标检测:任务对齐的单阶段目标检测

人工智能

引言

目标检测是一项计算机视觉任务,旨在检测图像中的目标并确定其位置。单阶段目标检测方法通常使用具有两个平行分支的头部来完成目标分类和定位两个子任务。这种方法可以实现较快的检测速度,但可能会导致两个任务之间的预测出现一定程度的空间错位。

本文提出了一种任务对齐的一阶段目标检测(TOOD),它可以通过优化目标分类和定位两个子任务之间的空间对齐来提高目标检测的准确性。TOOD使用共享主干和任务对齐分支来完成这两个子任务。共享主干可以提取图像的公共特征,而任务对齐分支可以学习两个子任务之间的空间关系。我们通过在COCO数据集上的实验表明,TOOD在目标检测任务上具有更高的准确性。

相关工作

目标检测已经得到了广泛的研究,并取得了许多进展。单阶段目标检测方法通常使用具有两个平行分支的头部来完成目标分类和定位两个子任务。这种方法可以实现较快的检测速度,但可能会导致两个任务之间的预测出现一定程度的空间错位。

为了解决这个问题,一些研究人员提出了任务对齐的单阶段目标检测方法。这些方法通过优化目标分类和定位两个子任务之间的空间对齐来提高目标检测的准确性。例如,DETR[1]使用Transformer来学习目标分类和定位两个子任务之间的空间关系。Cascade R-CNN[2]使用级联结构来优化目标分类和定位两个子任务之间的空间对齐。

TOOD方法

TOOD方法使用共享主干和任务对齐分支来完成目标分类和定位两个子任务。共享主干可以提取图像的公共特征,而任务对齐分支可以学习两个子任务之间的空间关系。

共享主干使用ResNet-50作为基础网络。在ResNet-50的最后一个卷积层之后,添加了一个额外的卷积层来提取图像的公共特征。任务对齐分支使用两个并行的全连接层来学习目标分类和定位两个子任务之间的空间关系。

TOOD方法的损失函数由两部分组成:目标分类损失和定位损失。目标分类损失使用交叉熵损失函数来计算,定位损失使用L1损失函数来计算。

实验结果

我们通过在COCO数据集上的实验来评估TOOD方法的性能。COCO数据集包含超过12万张图像,其中包含超过20万个目标。我们使用COCO数据集的训练集和验证集来训练和评估TOOD方法。

我们在COCO数据集上的实验结果表明,TOOD方法在目标检测任务上具有更高的准确性。TOOD方法在目标检测任务上的AP50为47.6%,AP75为37.9%,APs为35.3%,APm为36.8%,APl为29.9%。

结论

本文提出了一种任务对齐的一阶段目标检测(TOOD),它可以通过优化目标分类和定位两个子任务之间的空间对齐来提高目标检测的准确性。TOOD方法使用共享主干和任务对齐分支来完成这两个子任务。共享主干可以提取图像的公共特征,而任务对齐分支可以学习两个子任务之间的空间关系。我们通过在COCO数据集上的实验表明,TOOD方法在目标检测任务上具有更高的准确性。