重新思考 BatchNorm 中的 Batch: CVPR 2021 年论文解读

2024-01-20 04:15:09

BatchNorm 的重新思考

传统的 BatchNorm

BatchNorm 是一种广泛用于深度学习的归一化技术。它通过消除内部协变量偏移来稳定训练过程并提高模型精度。传统 BatchNorm 对每个 Batch 的输入进行归一化，使用 Batch 均值和方差来计算归一化参数。然而，这在分布式训练环境中可能存在挑战。

重新思考 Batch

CVPR 2021 年的一篇论文挑战了 BatchNorm 中 Batch 的传统用途。论文提出，BatchNorm 的归一化效果主要来自跨通道的归一化，而不是跨 Batch 的归一化。基于这一观察，论文提出了两种新的 BatchNorm 变体：

Local BatchNorm (L-BatchNorm)

L-BatchNorm 将输入分成局部窗口，然后对每个窗口进行归一化，而不是对整个 Batch 进行归一化。这消除了对所有 Batch 统计信息的依赖，从而提高了分布式训练的可扩展性。

Ghost BatchNorm (G-BatchNorm)

G-BatchNorm 创建一个包含来自不同真实 Batch 的样本的“幽灵”Batch。这允许在不收集所有 Batch 统计信息的情况下进行跨 Batch 归一化。

实验结果

研究人员进行了广泛的实验，比较了 L-BatchNorm 和 G-BatchNorm 与传统 BatchNorm 的性能。结果表明，这些变体在分布式训练环境中提供了更高的精度和收敛速度。此外，L-BatchNorm 和 G-BatchNorm 在资源受限的设备上也表现出更好的性能。

代码示例

以下 Python 代码示例展示了如何使用 PyTorch 实现 L-BatchNorm：

import torch
from torch import nn

class LBatchNorm(nn.Module):
    def __init__(self, num_features, window_size=7):
        super(LBatchNorm, self).__init__()
        self.num_features = num_features
        self.window_size = window_size
        self.bn = nn.BatchNorm1d(num_features)

    def forward(self, x):
        B, C, H, W = x.shape
        x = x.view(B, C, H // self.window_size, self.window_size, W // self.window_size, self.window_size)
        x = x.permute(0, 2, 4, 1, 3, 5)
        x = x.contiguous().view(B, -1, C)
        x = self.bn(x)
        x = x.view(B, H // self.window_size, W // self.window_size, C, self.window_size, self.window_size)
        x = x.permute(0, 3, 1, 5, 2, 4).contiguous().view(B, C, H, W)
        return x