从脏乱到整洁：使用 Pandas 和 NumPy 进行数据清洗的 6 个常用方法

2023-12-18 11:52:36

在数据科学的世界里，数据清洗是一个不可或缺的过程，它可以将杂乱无章的原始数据转化为可以分析和建模的干净、统一的数据集。Pandas 和 NumPy 是 Python 中两个强大的数据处理库，为数据清洗提供了丰富的工具和功能。本文将深入探究使用 Pandas 和 NumPy 进行数据清洗的六种常用方法，帮助您轻松地从数据杂草中提取见解。

1. 巧妙处理缺失值

缺失值是数据清洗中常见的痛点。Pandas 提供了多种处理缺失值的方法，包括：

dropna()：删除包含任何缺失值的整个行或列。
fillna()：使用指定的填充值（如中位数或众数）填充缺失值。
interpolate()：使用线性或其他插值方法估计缺失值。

2. 精准转换数据类型

确保数据的正确数据类型对于分析和建模至关重要。NumPy 提供了各种函数来转换数据类型，例如：

astype()：将数组元素转换为指定的类型。
int32()、float64()：将元素转换为特定位数的整数或浮点数。
object：将元素转换为 Python 对象类型。

3. 巧妙处理异常值

异常值是极端数据点，可能扭曲分析结果。Pandas 提供了识别和处理异常值的方法，例如：

std()、mean()：计算标准差和平均值以识别潜在的异常值。
zscore()：计算标准分数以确定数据点偏离均值的程度。
clip()：将值截断到指定范围，去除极端值。

4. 去除重复值

重复值会造成数据冗余，影响分析的准确性。Pandas 提供了以下方法来删除重复值：

duplicated()：识别重复值。
drop_duplicates()：删除重复的行或列。
unique()：返回数据的唯一值。

5. 数据格式化

数据格式化对于数据可视化和分析至关重要。Pandas 提供了以下方法来格式化数据：

to_datetime()：将字符串列转换为 datetime 对象。
to_csv()：将数据导出为 CSV 文件。
to_excel()：将数据导出为 Excel 文件。

6. 合并数据源

经常需要从多个来源合并数据。Pandas 提供了以下方法来合并数据框：

merge()：按一个或多个键合并数据框。
join()：按索引连接数据框。
concat()：按行或列连接数据框。

示例代码：

使用 Pandas 和 NumPy 执行以下数据清洗任务：

import pandas as pd
import numpy as np

# 读取数据
df = pd.read_csv('data.csv')

# 处理缺失值
df.dropna(inplace=True)

# 转换数据类型
df['age'] = df['age'].astype(np.int32)

# 识别异常值
zscores = np.abs(stats.zscore(df['weight']))
outliers = df[(zscores > 3)]

# 去除重复值
df = df.drop_duplicates()

# 格式化数据
df['date'] = pd.to_datetime(df['date'])

# 合并数据源
new_df = pd.merge(df, other_df, on='id')