揭秘二分类评估，从混淆矩阵说起

人工智能

2023-10-09 04:37:52

二分类模型评估：混淆矩阵、准确率、召回率和 F1 值

在机器学习中，二分类模型用于将实例分配到两个相互排斥的类别。为了评估这些模型的性能，有几个关键指标至关重要，包括混淆矩阵、准确率、召回率和 F1 值。

混淆矩阵

混淆矩阵是一个表格，展示了模型在二分类问题上的预测结果。它有四种可能的输出：

真正例 (TP)： 模型正确预测为正类的正类实例。
真反例 (TN)： 模型正确预测为负类的负类实例。
假正例 (FP)： 模型错误预测为正类的负类实例（又称 Type I 错误）。
假反例 (FN)： 模型错误预测为负类的正类实例（又称 Type II 错误）。

混淆矩阵有助于我们可视化模型的预测能力，并计算其他评估指标。

准确率、召回率和 F1 值

准确率 衡量模型正确预测的实例总数占所有实例的比例。它是整体预测能力的指标。

召回率 衡量模型正确识别正类实例的能力。它表示模型预测为正类的正类实例占所有正类实例的比例。

F1 值 是准确率和召回率的调和平均值。它提供了模型性能的综合视图，兼顾了准确性和召回率。

计算示例

考虑以下混淆矩阵：

实际类别	预测类别
正类	60
负类	20

准确率 = (TP + TN) / 总实例数 = (60 + 10) / 100 = 0.7

召回率 = TP / 实际正类数 = 60 / 70 = 0.857

F1 值 = 2 * (准确率 * 召回率) / (准确率 + 召回率) = 2 * (0.7 * 0.857) / (0.7 + 0.857) = 0.783

ROC 曲线和 AUC

ROC（接收者操作特征）曲线绘制模型在不同阈值下的真正率 (TPR) 和假阳率 (FPR) 的曲线。TPR 是 TP 占所有正类实例的比例，而 FPR 是 FP 占所有负类实例的比例。

AUC（曲线下面积） 衡量 ROC 曲线的面积。AUC 值在 0 到 1 之间，AUC 值越大，模型性能越好。

代码示例

以下 Python 代码演示了如何计算混淆矩阵、准确率、召回率和 F1 值：

from sklearn.metrics import confusion_matrix, accuracy_score, recall_score, f1_score

# 真实标签
y_true = [0, 0, 1, 1, 0, 1, 0, 1, 1, 0]

# 预测标签
y_pred = [0, 1, 1, 1, 0, 1, 1, 0, 1, 0]

# 混淆矩阵
conf_mat = confusion_matrix(y_true, y_pred)
print("混淆矩阵：\n", conf_mat)

# 准确率
accuracy = accuracy_score(y_true, y_pred)
print("准确率：", accuracy)

# 召回率
recall = recall_score(y_true, y_pred)
print("召回率：", recall)

# F1 值
f1 = f1_score(y_true, y_pred)
print("F1 值：", f1)