返回

Pandas数据清洗:告别数据杂乱,拥抱数据整洁

闲谈

  1. 导入Pandas库并加载数据
import pandas as pd

# 加载数据
data = pd.read_csv('data.csv')

2. 查看数据信息

# 查看数据信息
data.info()

这一步将显示数据集中变量的类型、非空值的数量和内存使用情况。它可以帮助您快速了解数据集中是否存在缺失值或类型不匹配等问题。

3. 处理缺失值

缺失值是数据集中常见的现象,可能由各种因素引起。处理缺失值的方法有很多,常见的方法包括:

  • 删除含有缺失值的行或列
  • 用平均值、中位数或众数填充缺失值
  • 使用机器学习算法预测缺失值
# 删除含有缺失值的行
data.dropna(inplace=True)

# 用平均值填充缺失值
data.fillna(data.mean(), inplace=True)

# 用众数填充缺失值
data.fillna(data.mode().iloc[0], inplace=True)

4. 处理重复值

重复值是数据集中另一个常见的问题,可能由数据录入错误或数据合并等因素引起。处理重复值的方法有很多,常见的方法包括:

  • 删除重复的行
  • 保留第一行或最后一行重复的行
  • 将重复的行合并为一行
# 删除重复的行
data.drop_duplicates(inplace=True)

# 保留第一行重复的行
data.drop_duplicates(keep='first', inplace=True)

# 将重复的行合并为一行
data = data.groupby(['column1', 'column2']).agg({'column3': 'sum'})

5. 处理数据类型

数据类型是数据集中变量的类型,常见的数据类型包括整数、浮点数、字符串和日期时间。为了确保数据能够正确地进行分析,需要将其转换为统一的数据类型。

# 将字符串列转换为数字列
data['column1'] = pd.to_numeric(data['column1'], errors='coerce')

# 将日期时间列转换为日期列
data['column2'] = pd.to_datetime(data['column2'])

6. 规范数据格式

数据格式是指数据集中变量的格式,常见的数据格式包括日期格式、数字格式和字符串格式。为了确保数据能够正确地进行分析,需要将其转换为统一的数据格式。

# 将日期列转换为特定日期格式
data['column2'] = data['column2'].dt.strftime('%Y-%m-%d')

# 将数字列转换为特定数字格式
data['column3'] = data['column3'].map('{:,.2f}'.format)

# 将字符串列转换为特定字符串格式
data['column4'] = data['column4'].str.lower()

7. 保存清洗后的数据

# 保存清洗后的数据
data.to_csv('clean_data.csv', index=False)

8. 总结

数据清洗是数据分析的前提和基础。通过对数据进行清洗,可以去除其中的错误、缺失值和重复值,并将其转换为统一的格式,从而确保数据能够准确地反映实际情况,并为后续的数据分析提供可靠的基础。