FastViT：超越MobileOne，用ViT和新奇操作符RepMixer构建出最佳延迟-准确性权衡

2022-11-01 03:27:22

FastViT：超越移动视觉的延迟-准确性困境

Transformer的崛起

在计算机视觉领域，Transformer架构的出现可谓一场革命，它最初在自然语言处理领域大放异彩，随后又成功应用于图像分类、目标检测等计算机视觉任务。Vision Transformer（ViT）作为Transformer架构的代表，将图像像素转换为token序列，利用Transformer处理这些序列。

MobileOne的突破

然而，ViT模型的计算量和延迟问题一直阻碍其在移动设备等资源有限的环境中的应用。为此，研究人员提出了MobileOne模型，采用分而治之的结构，将ViT模型分解为多个阶段，每个阶段包含多个层。MobileOne模型在延迟和准确性方面取得了不错的平衡，但仍有提升空间。

FastViT：进一步超越

FastViT模型是MobileOne模型的升级版，它引入了一种创新的token混合运算符RepMixer，利用高效的注意力机制混合token信息，增强了模型的表示能力。与MobileOne模型相比，FastViT模型在延迟和准确性方面都有显著提升，在ImageNet-1K数据集上实现了82.7%的top-1准确率，同时将延迟降低至6毫秒。

RepMixer：核心创新

RepMixer是FastViT模型的关键创新，它采用一种独特的注意力机制，通过一个旋转矩阵重新组织token，从而增强不同token之间的关联性。这种机制大大减少了token冗余，提升了模型的表示能力。

卓越表现

FastViT模型在移动设备和其他资源有限的环境中展现出巨大潜力，为实时计算机视觉任务提供了高精度和低延迟的解决方案。它在延迟和准确性上的重大突破，标志着计算机视觉领域的一项重要进展。

代码示例

以下是RepMixer在FastViT模型中的实现代码示例：

class RepMixer(nn.Module):
    def __init__(self, dim, num_tokens):
        super().__init__()
        self.dim = dim
        self.num_tokens = num_tokens
        self.Wq = nn.Linear(dim, dim)
        self.Wk = nn.Linear(dim, dim)
        self.Wv = nn.Linear(dim, dim)

    def forward(self, x):
        q = self.Wq(x).transpose(1, 2)  # [B, T, N]
        k = self.Wk(x).transpose(1, 2)  # [B, N, T]
        v = self.Wv(x).transpose(1, 2)  # [B, T, N]

        # 计算注意力权重
        attn = torch.matmul(q, k) / sqrt(self.dim)  # [B, T, T]
        attn = softmax(attn, dim=-1)

        # 旋转token
        w = nn.Parameter(torch.randn(self.num_tokens, self.num_tokens))  # [N, N]
        w = orthogonal_init(w)
        x = torch.matmul(x, w)  # [B, N, D]

        # 混合token信息
        out = torch.matmul(attn, v)  # [B, T, N]
        out = torch.matmul(x.transpose(1, 2), out)  # [B, N, D]

        return out.transpose(1, 2)  # [B, T, N]