sklearn基础--『数据加载』之真实数据集

2023-12-30 02:54:51

掌握真实数据，纵横机器学习世界

探索真实数据集宝库

在机器学习的浩瀚宇宙中，数据扮演着至关重要的角色，就好比宇宙中的星辰，指引着我们探索未知的领域。sklearn，作为机器学习界的领头羊，为我们提供了浩瀚的真实数据集宝库，涵盖了各个领域，宛如一座知识的海洋。

分类数据集： 它们宛如清晰的坐标系，帮助我们对事物进行分类，如鸢尾花数据集、乳腺癌数据集等。
回归数据集： 它们宛如灵敏的罗盘，引导我们预测连续值，如波士顿房价数据集、加州住房数据集等。
聚类数据集： 它们就像智慧的向导，指引我们发现数据中的隐秘联系，如鸢尾花数据集、乳腺癌数据集等。
时间序列数据集： 它们仿佛时间长河中的脉搏，捕捉着数据的变化趋势，如每日气温数据集、股市数据数据集等。
自然语言处理数据集： 它们宛如语言的宝库，助力我们挖掘文本中的奥秘，如20 newsgroup数据集、IMDB影评数据集等。

揭秘数据加载的奥秘

掌握了真实数据集的种类，就让我们踏上加载和使用这些数据的征途。sklearn为我们提供了各种便捷的方式，其中load_data()函数堪称加载利器。

from sklearn.datasets import load_iris
iris = load_iris()

只需一行代码，我们便能将鸢尾花数据集收入囊中。当然，数据集加载后，我们还需要对它们进行细致的审视。

print(iris.data)
print(iris.target)

这些代码宛如显微镜，让我们窥见数据的内部构造。接下来，为了让模型更好地学习，我们需要将数据集划分成训练集和测试集，就像给模型准备两份试卷，一份用来学习，一份用来检验。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

至此，我们已经做好了训练模型的准备。

训练模型，征战真实数据

现在，让我们选择一款模型作为我们的战友，比如逻辑回归模型，它就像一位经验丰富的将军，擅长处理分类问题。

from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X_train, y_train)

训练好模型后，就到了检验其实力的时刻。我们使用测试集作为试金石，计算模型的准确率、召回率等指标，就像将军在战场上接受检阅。

score = model.score(X_test, y_test)
print(score)

得分的高低代表了模型的优劣，是衡量其作战能力的重要依据。

案例一：鸢尾花分类

鸢尾花数据集是机器学习领域的一块试金石，它包含150个鸢尾花样本，分为三类。我们使用逻辑回归模型对鸢尾花数据集进行分类，就像一位经验丰富的植物学家在鉴定花卉。

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42)

model = LogisticRegression()
model.fit(X_train, y_train)

score = model.score(X_test, y_test)
print(score)

运行代码后，我们发现模型在鸢尾花数据集上的准确率高达96%，就像一位经验丰富的植物学家准确无误地识别了花卉的种类。

案例二：波士顿房价预测

波士顿房价数据集是回归问题的经典范例，它包含506个波士顿郊区的房屋样本，每个样本都有13个特征。我们使用线性回归模型对波士顿房价数据集进行预测，就像一位房地产专家在评估房屋价值。

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

boston = load_boston()
X_train, X_test, y_train, y_test = train_test_split(boston.data, boston.target, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)

score = model.score(X_test, y_test)
print(score)