机器学习的数据预处理：拨开迷雾，直击数据处理的7种利器

2023-09-18 12:39:37

机器学习数据预处理：7 个关键方法解锁数据价值

数据预处理：数据科学成功的基石

数据预处理是机器学习生命周期中一个至关重要的阶段，为算法模型提供高质量的数据燃料。它涉及一系列技术，用于处理原始数据中的缺陷和不一致之处，从而释放其内在价值。本文将深入探讨 7 种最常见的机器学习数据预处理方法，揭开它们的神秘面纱，并提供清晰易懂的示例。

1. 数据规范化：消除量纲差异

就像比较苹果和橘子一样困难，比较不同量纲或范围的特征也一样困难。数据规范化通过将这些特征标准化到相同范围内来解决这一问题。常用的方法包括最小-最大规范化和 Z-评分，它们分别将数据映射到 [0, 1] 范围和均值为 0、标准差为 1 的范围。

代码示例：

import pandas as pd

df = pd.DataFrame({'年龄': [20, 30, 40], '身高': [1.6, 1.7, 1.8]})

df['年龄_规范化'] = (df['年龄'] - df['年龄'].min()) / (df['年龄'].max() - df['年龄'].min())
df['身高_规范化'] = (df['身高'] - df['身高'].min()) / (df['身高'].max() - df['身高'].min())

print(df)

2. 类别平衡化：应对不平衡数据集

当数据集中的不同类别出现不平衡时，模型很容易对多数类别产生偏好。类别平衡化通过上采样少数类别、下采样多数类别或使用 SMOTE（合成少数过采样技术）来解决这一问题。

代码示例：

from imblearn.over_sampling import SMOTE

X = [[0, 0], [1, 0], [0, 1], [1, 1]]
y = [0, 0, 1, 1]

oversampler = SMOTE()
X_resampled, y_resampled = oversampler.fit_resample(X, y)

print(X_resampled, y_resampled)

3. 连续值离散化：处理连续数据

连续值数据难以被机器学习算法处理。离散化将这些值转换为一组离散值，可以使用等距分箱、等频分箱或 K-均值聚类等方法来实现。

代码示例：

import numpy as np
from sklearn.preprocessing import KBinsDiscretizer

X = np.array([0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0])

discretizer = KBinsDiscretizer(n_bins=3, encode='ordinal')
X_discretized = discretizer.fit_transform(X.reshape(-1, 1))

print(X_discretized)

4. 缺失值处理：弥补缺失数据

缺失值会误导算法并降低模型的准确性。处理缺失值的方法包括删除、插补和归因。

代码示例：

import numpy as np
from sklearn.impute import SimpleImputer

X = np.array([[1, 2, np.nan], [4, 5, np.nan], [7, 8, 9]])

imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
X_imputed = imputer.fit_transform(X)

print(X_imputed)

5. 哑言编码：处理类别特征

类别特征具有有限的离散值。哑言编码将每个类别转换为一个二进制向量，其中仅与该类别的值对应的元素为 1，其余元素为 0。

代码示例：

import pandas as pd

df = pd.DataFrame({'颜色': ['红', '绿', '蓝']})

df_encoded = pd.get_dummies(df['颜色'])
print(df_encoded)

6. 正则化：防止过拟合

正则化通过向模型的损失函数添加惩罚项来防止过拟合。常用的方法包括 L1 正则化和 L2 正则化。

代码示例：

import numpy as np
from sklearn.linear_model import LinearRegression

X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])
y = np.dot(X, np.array([1, 2])) + 3

model = LinearRegression()
model.fit(X, y)

print(model.coef_, model.intercept_)

7. 数据降维：减少特征数量

当特征数量过多时，计算复杂度会增加，模型性能会下降。数据降维技术，如 PCA、SVD 和 LDA，可以减少特征数量，同时保留数据中的关键信息。

代码示例：

import numpy as np
from sklearn.decomposition import PCA

X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)

print(X_reduced)

结论

掌握这些机器学习数据预处理方法，您将拥有处理数据缺陷和不一致的能力，从而为算法模型提供高品质的数据燃料。从数据规范化到数据降维，这些技巧将帮助您释放数据的内在价值并最终提升算法的性能。

常见问题解答