返回

DCNv2:升级的可变形卷积,解锁更强大的几何变形能力

人工智能

可变形卷积的几何变形能力再升级:DCNv2闪耀CVPR 2019

序言

可变形卷积(DCN)作为计算机视觉领域的一项突破性技术,因其强大的几何变形能力而广受认可。近年来,可变形卷积技术在目标检测、图像分割等任务中展现了出色的性能。然而,传统的DCN模型仍存在一定局限性,例如学习能力不足以及几何变换预测不够准确等问题。

DCNv2:更强大的可变形卷积

为了克服这些挑战,微软亚洲研究院的研究人员提出了可变形卷积的升级版——DCNv2。DCNv2通过以下两方面的改进,显著提升了可变形卷积的几何变形能力:

1. 增加可变形卷积层数

DCNv2模型中增加了可变形卷积层数,使得模型能够学习更深层次的几何变换特征。这样,DCNv2可以捕捉更加复杂的几何变化,从而更准确地预测目标物体的变形。

2. 引入调制机制

在DCNv2模型中,引入了调制机制。在传统的DCN模型中,采样点仅进行偏移。而在DCNv2中,每次采样不仅进行偏移,还会使用学习到的权重进行调节。这一机制使得DCNv2能够学习更复杂的几何变换,适应各种目标物体的变形情况。

知识蒸馏提升性能

为了充分发挥DCNv2提升的几何变形能力,研究人员采用了知识蒸馏的方法进行训练。知识蒸馏是指将一个训练有素的教师模型的知识传递给一个较小、较简单的学生模型。在DCNv2的训练中,研究人员将R-CNN模型作为教师模型,将DCNv2模型作为学生模型。通过这种方式,DCNv2模型能够从R-CNN模型中学习丰富的几何变形知识,进一步提升其性能。

实验结果

研究人员在多个计算机视觉任务上对DCNv2模型进行了评估,包括目标检测、图像分割和关键点检测。实验结果表明,DCNv2模型在这些任务上均取得了显著的性能提升。

1. 目标检测

在COCO数据集上的目标检测任务中,使用DCNv2模型的Faster R-CNN检测器在AP指标上提升了1.8%,达到了39.3%。

2. 图像分割

在ADE20K数据集上的图像分割任务中,使用DCNv2模型的语义分割网络在mIoU指标上提升了0.7%,达到了42.2%。

3. 关键点检测

在COCO数据集上的关键点检测任务中,使用DCNv2模型的KP Alpha Pose网络在OKS指标上提升了1.5%,达到了86.1%。

结论

微软亚洲研究院提出的DCNv2模型,通过增加可变形卷积层数和引入调制机制,显著增强了可变形卷积的几何变形能力。配合知识蒸馏的训练方法,DCNv2模型在目标检测、图像分割和关键点检测等计算机视觉任务上都取得了显著的性能提升。DCNv2模型的出现,为计算机视觉领域的进一步发展提供了新的可能性。