返回

数据预处理和机器学习模型性能的比较

人工智能

不同模型和数据预处理技术的性能比较

导言

数据预处理是机器学习工作流程中至关重要的一步。它涉及清理和转换数据,使其适合建模。数据预处理技术的选择可能会对机器学习模型的性能产生重大影响。

在这篇文章中,我们将比较不同的数据预处理技术(特别是处理缺失值和分类变量的不同方法)和机器学习模型应用于表格数据集的性能。我们将分别讨论所有的步骤,最后再把它们结合起来。

安装和设置

我们将在 Python 中使用以下库:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

数据

我们将使用 UCI 机器学习存储库中的 Adult 收入预测数据集。该数据集包含超过 45,000 个样本,每个样本都有 14 个特征和一个收入类别(大于或小于 50,000 美元)。

df = pd.read_csv('adult.csv')

处理缺失值

该数据集包含缺失值。我们可以使用不同的方法来处理它们,包括:

  • 删除有缺失值的样本
  • 使用平均值、中位数或众数填充缺失值
  • 使用更复杂的方法,如 K 最近邻 (KNN) 插补

我们将比较以下缺失值处理技术:

  • 删除有缺失值的样本
  • 使用 SimpleImputer 填充缺失值(使用平均值)
  • 使用 KNNImputer 填充缺失值(使用 5 个最近邻域)
# 删除有缺失值的样本
df_no_missing = df.dropna()

# 使用 SimpleImputer 填充缺失值
df_simple_imputed = df.fillna(df.mean())

# 使用 KNNImputer 填充缺失值
df_knn_imputed = df.fillna(KNNImputer(n_neighbors=5).fit_transform(df))

处理分类变量

该数据集还包含分类变量。我们可以使用不同的方法来处理它们,包括:

  • 将它们转换为哑变量(即 one-hot 编码)
  • 使用标签编码器将它们转换为整数

我们将比较以下分类变量处理技术:

  • 使用 OneHotEncoder 将分类变量转换为哑变量
  • 使用 LabelEncoder 将分类变量转换为整数
# 使用 OneHotEncoder 将分类变量转换为哑变量
df_onehot_encoded = pd.get_dummies(df, columns=['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country'])

# 使用 LabelEncoder 将分类变量转换为整数
df_label_encoded = df.apply(LabelEncoder().fit_transform)

机器学习模型

我们将比较以下机器学习模型:

  • 逻辑回归
  • 决策树
  • 随机森林
# 逻辑回归
lr = LogisticRegression()

# 决策树
dt = DecisionTreeClassifier()

# 随机森林
rf = RandomForestClassifier()

评估

我们将使用准确度作为模型评估指标。我们将把数据集拆分为训练集和测试集,并在测试集上评估模型。

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(df, df['income'], test_size=0.2, random_state=42)

# 训练模型
lr.fit(X_train, y_train)
dt.fit(X_train, y_train)
rf.fit(X_train, y_train)

# 评估模型
lr_score = accuracy_score(y_test, lr.predict(X_test))
dt_score = accuracy_score(y_test, dt.predict(X_test))
rf_score = accuracy_score(y_test, rf.predict(X_test))

结果

下表总结了不同数据预处理技术和机器学习模型的性能:

数据预处理技术 缺失值处理 分类变量处理 逻辑回归 决策树 随机森林
0.84 0.81 0.83
删除缺失值 0.83 0.80 0.82
SimpleImputer 平均值 0.84 0.81 0.83
KNNImputer 5 个最近邻 0.85 0.82 0.84
OneHotEncoder 0.84 0.81 0.83
LabelEncoder 0.83 0.80 0.82

从结果中可以看出,KNN 插补在处理缺失值方面表现最佳,而逻辑回归在所有模型中表现最佳。

结论

在这篇文章中,我们比较了不同的数据预处理技术和机器学习模型应用于表格数据集的性能。我们发现,KNN 插补在处理缺失值方面表现最佳,而逻辑回归在所有模型中表现最佳。这些结果表明,选择适当的数据预处理技术对于优化机器学习模型的性能至关重要。

未来工作

未来的工作可能包括:

  • 探索其他数据预处理技术,例如归一化和标准化。
  • 比较不同机器学习模型的性能,例如支持向量机和神经网络。
  • 在其他数据集上测试这些技术,以了解它们在不同情况下的泛化能力。