返回

Swin架构激发的超大核网络RepLKNet

人工智能

论文解读:RepLKNet——基于Swin架构的超大核网络

引言

近年来,Transformer架构在自然语言处理领域取得了巨大的成功。Transformer架构的一个关键组件是自注意力机制,它允许模型学习序列中元素之间的长距离依赖关系。自注意力机制在计算机视觉领域也显示出了很大的潜力,已经被用于构建各种各样的视觉模型,包括图像分类、目标检测和语义分割模型。

然而,自注意力机制的计算成本很高,这限制了其在大型模型中的应用。为了解决这个问题,一些研究者提出了使用超大核卷积来代替自注意力机制。超大核卷积是一种卷积操作,它使用一个非常大的卷积核来计算输出特征图。超大核卷积的计算成本比自注意力机制低得多,但它也可能导致性能下降。

RepLKNet网络架构

RepLKNet是一个基于Swin Transformer架构的超大核网络。RepLKNet通过将Swin Transformer中的自注意力机制替换为超大核卷积来构建,从而能够在保持计算效率的同时获得更好的性能。

RepLKNet的网络结构如下图所示。RepLKNet由四个阶段组成,每个阶段都包含多个残差块。每个残差块由两个超大核卷积层和一个归一化层组成。超大核卷积层的卷积核大小为7×7,步长为2。归一化层使用的是层归一化。

RepLKNet网络结构

实验结果

RepLKNet在ImageNet数据集上的实验结果表明,RepLKNet在图像分类任务上取得了最先进的性能。RepLKNet在ImageNet数据集上的top-1准确率为85.5%,top-5准确率为95.4%。

RepLKNet还在其他任务上的应用,如目标检测和语义分割,取得了很好的性能。在COCO数据集上的目标检测任务中,RepLKNet的平均精度为46.4%,在ADE20K数据集上的语义分割任务中,RepLKNet的平均精度为49.6%。

结论

RepLKNet是一个基于Swin Transformer架构的超大核网络。RepLKNet通过将Swin Transformer中的自注意力机制替换为超大核卷积来构建,从而能够在保持计算效率的同时获得更好的性能。RepLKNet在ImageNet数据集上的实验结果表明,RepLKNet在图像分类任务上取得了最先进的性能。RepLKNet还在其他任务上的应用,如目标检测和语义分割,取得了很好的性能。