AUC：揭秘机器学习二分类模型评估的神兵利器

人工智能

2023-06-01 00:03:16

AUC：评估二分类模型的秘密武器

大家好！今天，让我们深入探讨 AUC（面积下曲线），这是二分类模型评估的神兵利器。

什么是 AUC？

AUC 是基于 ROC 曲线计算的，该曲线展示了模型在不同阈值下的性能。它衡量模型将正样本正确分类为正样本的能力，同时避免将负样本错误分类为正样本。

AUC 的值在 0 到 1 之间，其中：

1：完美的分类
0.5： 与随机猜测相当
<0.5： 比随机猜测更差

AUC 的优势

AUC 备受推崇，因为它：

直观： 以曲线的形式直观呈现模型的性能。
鲁棒： 不受样本分布变化的影响。
通用： 适用于各种二分类模型。
可比较： 便于比较不同模型的性能。

AUC 的应用

AUC 在机器学习中有着广泛的应用，包括：

模型选择： 确定最优模型。
模型调参： 找到最佳参数。
模型评估： 评估模型的性能。
异常检测： 识别异常值。
信息检索： 对搜索结果进行排序。

计算 AUC

AUC 的计算方法是将 ROC 曲线下的面积计算出来：

from sklearn.metrics import roc_auc_score

y_true = [0, 0, 1, 1]
y_score = [0.3, 0.8, 0.5, 0.9]

auc = roc_auc_score(y_true, y_score)

代码示例

让我们通过一个例子来进一步理解 AUC：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import RocCurveDisplay

# 生成正负样本
np.random.seed(42)
positive = np.random.normal(3, 1, 500)
negative = np.random.normal(1, 1, 500)

# 创建数据集
X = np.concatenate((positive, negative))
y = np.concatenate((np.ones(500), np.zeros(500)))

# 训练模型并计算 AUC
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X.reshape(-1, 1), y)

# 绘制 ROC 曲线并计算 AUC
RocCurveDisplay.from_predictions(y, model.predict_proba(X.reshape(-1, 1))[:, 1])
plt.show()

print("AUC:", model.predict_proba(X.reshape(-1, 1))[:, 1].auc)