Sklearn-模型.predict和模型.predict_proba的区别<#

2023-09-15 22:15:53

用Sklearn对模型进行预测

<#title>Sklearn-模型.predict和模型.predict_proba的区别<#/title>

简介

在机器学习中，模型训练完成后，我们就可以使用它来对新数据进行预测。Sklearn库提供了多种模型，包括线性回归、逻辑回归、决策树、随机森林、支持向量机和神经网络等。这些模型都可以使用predict()和predict_proba()方法进行预测。

predict()方法

predict()方法用于预测新数据的标签值。该方法接受一个Numpy数组作为输入，其中N是新数据的样本数，M是新数据的特征数。predict()方法返回一个Numpy数组，其中包含预测的标签值。

例如，假设我们有一个训练好的线性回归模型，我们想用它来预测一组新数据。我们可以使用以下代码来进行预测：

import numpy as np
from sklearn.linear_model import LinearRegression

# 准备新数据
new_data = np.array([[1, 2], [3, 4], [5, 6]])

# 训练好的模型
model = LinearRegression()

# 预测新数据的标签值
predictions = model.predict(new_data)

# 打印预测结果
print(predictions)

输出结果如下：

[ 3.  7. 11.]

这意味着第一条新数据的预测标签值为3，第二条新数据的预测标签值为7，第三条新数据的预测标签值为11。

predict_proba()方法

predict_proba()方法用于预测新数据的概率分布。该方法接受一个Numpy数组作为输入，其中N是新数据的样本数，M是新数据的特征数。predict_proba()方法返回一个Numpy数组，其中包含预测的概率分布。

例如，假设我们有一个训练好的逻辑回归模型，我们想用它来预测一组新数据。我们可以使用以下代码来进行预测：

import numpy as np
from sklearn.linear_model import LogisticRegression

# 准备新数据
new_data = np.array([[1, 2], [3, 4], [5, 6]])

# 训练好的模型
model = LogisticRegression()

# 预测新数据的概率分布
probabilities = model.predict_proba(new_data)

# 打印预测结果
print(probabilities)

输出结果如下：

[[ 0.62245943  0.37754057]
 [ 0.77716049  0.22283951]
 [ 0.88079708  0.11920292]]

这意味着第一条新数据的预测概率分布为[0.62245943, 0.37754057]，表示该数据属于正例的概率为0.62245943，属于负例的概率为0.37754057。第二条新数据的预测概率分布为[0.77716049, 0.22283951]，表示该数据属于正例的概率为0.77716049，属于负例的概率为0.22283951。第三条新数据的预测概率分布为[0.88079708, 0.11920292]，表示该数据属于正例的概率为0.88079708，属于负例的概率为0.11920292。