数据预处理和机器学习模型性能的比较

2024-01-09 14:43:43

不同模型和数据预处理技术的性能比较

导言

数据预处理是机器学习工作流程中至关重要的一步。它涉及清理和转换数据，使其适合建模。数据预处理技术的选择可能会对机器学习模型的性能产生重大影响。

在这篇文章中，我们将比较不同的数据预处理技术（特别是处理缺失值和分类变量的不同方法）和机器学习模型应用于表格数据集的性能。我们将分别讨论所有的步骤，最后再把它们结合起来。

安装和设置

我们将在 Python 中使用以下库：

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

数据

我们将使用 UCI 机器学习存储库中的 Adult 收入预测数据集。该数据集包含超过 45,000 个样本，每个样本都有 14 个特征和一个收入类别（大于或小于 50,000 美元）。

df = pd.read_csv('adult.csv')

处理缺失值

该数据集包含缺失值。我们可以使用不同的方法来处理它们，包括：

删除有缺失值的样本
使用平均值、中位数或众数填充缺失值
使用更复杂的方法，如 K 最近邻 (KNN) 插补

我们将比较以下缺失值处理技术：

删除有缺失值的样本
使用 SimpleImputer 填充缺失值（使用平均值）
使用 KNNImputer 填充缺失值（使用 5 个最近邻域）

# 删除有缺失值的样本
df_no_missing = df.dropna()

# 使用 SimpleImputer 填充缺失值
df_simple_imputed = df.fillna(df.mean())

# 使用 KNNImputer 填充缺失值
df_knn_imputed = df.fillna(KNNImputer(n_neighbors=5).fit_transform(df))

处理分类变量

该数据集还包含分类变量。我们可以使用不同的方法来处理它们，包括：

将它们转换为哑变量（即 one-hot 编码）
使用标签编码器将它们转换为整数

我们将比较以下分类变量处理技术：

使用 OneHotEncoder 将分类变量转换为哑变量
使用 LabelEncoder 将分类变量转换为整数

# 使用 OneHotEncoder 将分类变量转换为哑变量
df_onehot_encoded = pd.get_dummies(df, columns=['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country'])

# 使用 LabelEncoder 将分类变量转换为整数
df_label_encoded = df.apply(LabelEncoder().fit_transform)

机器学习模型

我们将比较以下机器学习模型：

逻辑回归
决策树
随机森林

# 逻辑回归
lr = LogisticRegression()

# 决策树
dt = DecisionTreeClassifier()

# 随机森林
rf = RandomForestClassifier()

评估

我们将使用准确度作为模型评估指标。我们将把数据集拆分为训练集和测试集，并在测试集上评估模型。

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(df, df['income'], test_size=0.2, random_state=42)

# 训练模型
lr.fit(X_train, y_train)
dt.fit(X_train, y_train)
rf.fit(X_train, y_train)

# 评估模型
lr_score = accuracy_score(y_test, lr.predict(X_test))
dt_score = accuracy_score(y_test, dt.predict(X_test))
rf_score = accuracy_score(y_test, rf.predict(X_test))

结果

下表总结了不同数据预处理技术和机器学习模型的性能：

数据预处理技术	缺失值处理	分类变量处理	逻辑回归	决策树	随机森林
无	无	无	0.84	0.81	0.83
删除缺失值	无	无	0.83	0.80	0.82
SimpleImputer	平均值	无	0.84	0.81	0.83
KNNImputer	5 个最近邻	无	0.85	0.82	0.84
无	无	OneHotEncoder	0.84	0.81	0.83
无	无	LabelEncoder	0.83	0.80	0.82