稀疏多标签分类交叉熵损失函数：深入浅出详解

2023-12-12 11:51:36

在机器学习领域，多标签分类问题是一种常见的任务，它要求模型针对给定数据样本预测多个标签。传统上，这类问题的损失函数采用交叉熵损失，但它并不考虑数据中的稀疏性。

稀疏多标签分类

稀疏多标签分类问题是指，给定一个样本，其对应的标签集合中只有很少一部分是正例。这种稀疏性特性对传统交叉熵损失函数提出了挑战，因为它会放大少数正例标签的影响，导致模型对正例的预测过于敏感。

稀疏多标签分类交叉熵损失函数

为了解决稀疏多标签分类中的上述问题，苏剑林大佬提出了稀疏多标签分类交叉熵损失函数。该函数通过引入一个可学习的掩码向量，来调节正例标签的影响。

具体而言，稀疏多标签分类交叉熵损失函数定义如下：

L(y, \hat{y}) = -\sum_{i=1}^{N} \sum_{j=1}^{M} y_{ij} \log{\hat{y}_{ij}} + \lambda \sum_{j=1}^{M} \left \| w_j \right \|_2^2

其中，

y 表示真实标签，y_{ij}表示第 i 个样本的第 j 个标签
\hat{y} 表示模型预测的概率分布
N 和 M 分别表示样本数和标签数
\lambda 是一个可调的正则化超参数
w_j 是第 j 个标签的掩码向量

稀疏多标签分类交叉熵损失函数的特点

稀疏多标签分类交叉熵损失函数具有以下特点：

考虑稀疏性： 通过引入掩码向量，该损失函数可以调节正例标签的影响，从而缓解稀疏性带来的问题。
可学习掩码： 掩码向量是可学习的，这意味着模型可以自动调整其对不同标签的重视程度。
正则化效果： 损失函数中的 L2 正则化项有助于防止过拟合，提高模型的泛化能力。

代码实现（PyTorch）

import torch
import torch.nn as nn

class SparseMultiLabelCrossEntropyLoss(nn.Module):
    def __init__(self, num_labels, lambda_=1e-6):
        super().__init__()
        self.num_labels = num_labels
        self.lambda_ = lambda_
        self.masks = nn.Parameter(torch.zeros(num_labels))

    def forward(self, y_pred, y_true):
        y_true = y_true.float()  # Convert to float for BCE loss
        loss = -(y_true * torch.log(y_pred)).sum(dim=1)
        loss += self.lambda_ * self.masks.norm(p=2)
        return loss.mean()