返回

稀疏多标签分类交叉熵损失函数:深入浅出详解

人工智能

在机器学习领域,多标签分类问题是一种常见的任务,它要求模型针对给定数据样本预测多个标签。传统上,这类问题的损失函数采用交叉熵损失,但它并不考虑数据中的稀疏性。

稀疏多标签分类

稀疏多标签分类问题是指,给定一个样本,其对应的标签集合中只有很少一部分是正例。这种稀疏性特性对传统交叉熵损失函数提出了挑战,因为它会放大少数正例标签的影响,导致模型对正例的预测过于敏感。

稀疏多标签分类交叉熵损失函数

为了解决稀疏多标签分类中的上述问题,苏剑林大佬提出了稀疏多标签分类交叉熵损失函数。该函数通过引入一个可学习的掩码向量,来调节正例标签的影响。

具体而言,稀疏多标签分类交叉熵损失函数定义如下:

L(y, \hat{y}) = -\sum_{i=1}^{N} \sum_{j=1}^{M} y_{ij} \log{\hat{y}_{ij}} + \lambda \sum_{j=1}^{M} \left \| w_j \right \|_2^2

其中,

  • y 表示真实标签,y_{ij}表示第 i 个样本的第 j 个标签
  • \hat{y} 表示模型预测的概率分布
  • N 和 M 分别表示样本数和标签数
  • \lambda 是一个可调的正则化超参数
  • w_j 是第 j 个标签的掩码向量

稀疏多标签分类交叉熵损失函数的特点

稀疏多标签分类交叉熵损失函数具有以下特点:

  • 考虑稀疏性: 通过引入掩码向量,该损失函数可以调节正例标签的影响,从而缓解稀疏性带来的问题。
  • 可学习掩码: 掩码向量是可学习的,这意味着模型可以自动调整其对不同标签的重视程度。
  • 正则化效果: 损失函数中的 L2 正则化项有助于防止过拟合,提高模型的泛化能力。

代码实现(PyTorch)

import torch
import torch.nn as nn

class SparseMultiLabelCrossEntropyLoss(nn.Module):
    def __init__(self, num_labels, lambda_=1e-6):
        super().__init__()
        self.num_labels = num_labels
        self.lambda_ = lambda_
        self.masks = nn.Parameter(torch.zeros(num_labels))

    def forward(self, y_pred, y_true):
        y_true = y_true.float()  # Convert to float for BCE loss
        loss = -(y_true * torch.log(y_pred)).sum(dim=1)
        loss += self.lambda_ * self.masks.norm(p=2)
        return loss.mean()

总结

稀疏多标签分类交叉熵损失函数是一种针对稀疏多标签分类问题而设计的创新性损失函数。它通过引入可学习掩码向量,有效地解决了传统交叉熵损失函数对稀疏性的敏感问题。该损失函数在实践中表现出良好的性能,有助于提高多标签分类模型在稀疏数据上的准确性和泛化能力。