Sklearn预测评估指标之混淆矩阵逐行计算篇

人工智能

2023-11-18 18:26:50

混淆矩阵：分类模型评估的利器

在机器学习的世界中，准确地评估分类模型的性能至关重要。而混淆矩阵就是一种强大的工具，可以帮助我们深入了解模型的各个方面。

混淆矩阵的本质

混淆矩阵本质上是一个二维表格，将预测结果与实际结果进行对比。每一行代表一个实际类别，每一列代表一个预测类别。矩阵中的每个元素表示预测为该列类别但实际为该行类别的样本数。

使用混淆矩阵计算评估指标

混淆矩阵可以用来计算多种评估指标，包括：

准确率： 模型正确预测样本数占总样本数的比例。
精确率： 模型预测为正类的样本中，实际为正类的样本数占预测为正类的样本总数的比例。
召回率： 模型实际为正类的样本中，预测为正类的样本数占实际为正类的样本总数的比例。
F1 score： 精确率和召回率的调和平均值。

使用Sklearn计算混淆矩阵

Sklearn是一个流行的Python库，它提供了多种计算混淆矩阵的方法。最简单的方法是使用sklearn.metrics.confusion_matrix()函数：

from sklearn.metrics import confusion_matrix

y_true = [0, 1, 2, 3, 4, 5]
y_pred = [0, 2, 1, 3, 5, 4]

confusion_matrix(y_true, y_pred)

代码示例：二分类

考虑一个二分类问题，其中有100个样本，50个属于正类，50个属于负类。使用一个分类模型对这些样本进行预测，得到以下混淆矩阵：

+--------------------------------+
| 实际类别 | 预测为正类 | 预测为负类 |
+--------------------------------+
| 正类       | 40          | 10          |
+--------------------------------+
| 负类       | 5           | 45          |
+--------------------------------+

根据这个混淆矩阵，我们可以计算以下指标：