用 Python 画个圈，揭秘 ROC 和 AUC 曲线的秘密！

人工智能

2023-03-28 12:52:03

二分类中的 ROC 和 AUC 曲线：全面指南

什么是二分类？

在机器学习中，二分类是指将数据点分配给两个互斥类的任务。一个常见的例子是电子邮件垃圾邮件分类，其中邮件被标记为“垃圾邮件”或“非垃圾邮件”。

混淆矩阵

为了评估二分类模型的性能，我们使用混淆矩阵。它是一个 2x2 矩阵，显示了预测结果与实际值的比较：

真阳性 (TP)： 预测为阳性且实际为阳性
假阳性 (FP)： 预测为阳性但实际为阴性
真阴性 (TN)： 预测为阴性且实际为阴性
假阴性 (FN)： 预测为阴性但实际为阳性

ROC 曲线

ROC 曲线（接收者操作特性曲线）是二分类模型性能的图形表示。它绘制了灵敏度（真阳性率）与 1 - 特异性（假阳性率）的关系。

ROC 曲线允许我们在不同的分类阈值下比较模型的性能。

AUC

AUC（面积下曲线）是 ROC 曲线下的面积。它是一个介于 0 和 1 之间的度量，其中：

0.5 表示模型的性能与随机猜测相同
1.0 表示模型的性能完美

ROC 和 AUC 曲线的优点

ROC 曲线和 AUC 曲线具有以下优点：

不受分类阈值的影响： 我们可以选择不同的阈值，而无需重新计算度量值。
比较模型： 我们可以使用 ROC 曲线和 AUC 来比较不同模型的性能，并选择最佳模型。
选择分类阈值： 我们可以使用 ROC 曲线来选择最佳的分类阈值，以优化模型的性能。

使用 Python 绘制 ROC 和 AUC 曲线

我们可以使用 Python 来绘制 ROC 曲线和 AUC 曲线。以下是使用 scikit-learn 和 matplotlib 库的示例代码：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# 加载数据
X, y = ...  # 替换为您的数据

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 训练模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 计算 ROC 曲线和 AUC
fpr, tpr, thresholds = roc_curve(y_test, model.predict_proba(X_test)[:, 1])
roc_auc = auc(fpr, tpr)

# 绘制 ROC 曲线
plt.figure()
plt.plot(fpr, tpr, label='ROC curve (AUC = %0.2f)' % roc_auc)
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
plt.legend(loc='lower right')
plt.show()