CBAM神通广大，无处不在？你根本想不到

2023-01-11 02:34:23

CBAM：增强 CNN 性能的注意力机制

CBAM 是什么？

Channel Attention and Spatial Attention Bottleneck Module（CBAM）是一种轻量级的注意力机制模块，旨在增强卷积神经网络（CNN）的性能。CBAM 同时结合通道注意力和空间注意力，通过对特征图的通道和空间位置进行加权，从而突出重要信息并抑制不重要信息。

CBAM 的工作原理

CBAM 模块由两个子模块组成：

通道注意力子模块： 计算每个通道的权重，通过平均池化和最大池化来获取通道的相关性信息。
空间注意力子模块： 计算每个空间位置的权重，通过卷积来捕获空间相关性信息。

这些权重然后与原始特征图相乘，以放大重要区域和通道。

CBAM 的优势

计算成本低： CBAM 相对于其他注意力机制模块计算成本较低，使其易于集成到现有的 CNN 模型中。
易于实现： CBAM 可以在几个卷积层中实现，无需复杂的结构或训练程序。
提高性能： CBAM 已被证明可以提高图像分类、目标检测和语义分割等各种视觉任务的性能。

CBAM 的应用

CBAM 模块已广泛应用于各种 CNN 架构中，包括 ResNet、Inception 和 EfficientNet。它已被成功应用于：

图像分类： 提高分类模型的准确率，例如在 ImageNet 数据集上。
目标检测： 提高检测模型的准确率和召回率，例如在 COCO 数据集上。
语义分割： 提高分割模型的准确性和分割质量，例如在 Cityscapes 数据集上。

代码示例

import tensorflow as tf

def cbam_module(input_tensor):
    channel_attention = tf.keras.layers.GlobalAveragePooling2D()(input_tensor)
    channel_attention = tf.keras.layers.Dense(input_tensor.shape[-1] // 16, activation='relu')(channel_attention)
    channel_attention = tf.keras.layers.Dense(input_tensor.shape[-1], activation='sigmoid')(channel_attention)
    channel_attention = tf.expand_dims(channel_attention, axis=-1)
    channel_attention = tf.expand_dims(channel_attention, axis=-1)

    spatial_attention = tf.keras.layers.Conv2D(input_tensor.shape[-1] // 16, (3, 3), padding='same', activation='relu')(input_tensor)
    spatial_attention = tf.keras.layers.Conv2D(input_tensor.shape[-1], (1, 1), padding='same', activation='sigmoid')(spatial_attention)

    return input_tensor * channel_attention * spatial_attention