R语言搞定缺失值，数据分析不再愁！

后端

2022-12-23 11:14:13

驯服缺失值：让你的R语言数据重获新生

在数据分析的广袤世界中，缺失值就像一块块散落的拼图碎片，阻碍着我们拼出数据故事的全貌。但是，不要担心！掌握了恰当的处理技巧，我们就能化阻力为动力，让缺失值不再成为数据分析路上的绊脚石。

缺失值的本质

缺失值，顾名思义，就是数据集中某个字段或变量中缺少或未知的值。这些值可能因多种原因缺失，例如数据收集失误、录入错误或处理疏忽。不管缺失的原因是什么，它们都会对数据分析的结果产生重大影响。

缺失值处理的利器

为了让数据重新焕发活力，我们需要对缺失值进行妥善处理。有多种方法可以做到这一点，每种方法都有其独特的优点和适用场景。让我们逐一探究这些利器：

1. 均值插补

均值插补是最简单直接的缺失值处理方法。它用变量的平均值替换缺失值。这种方法适用于缺失值比例较小且数据分布呈正态分布的情况。

library(tidyverse)

# 创建包含缺失值的数据框
df <- data.frame(
  id = 1:10,
  value = c(10, 12, NA, 15, NA, 18, 20, NA, 23, 25)
)

# 使用均值插补处理缺失值
df$value_mean <- fill(df$value, mean(df$value, na.rm = TRUE))

# 查看处理后的数据框
df

2. 中位数插补

中位数插补与均值插补类似，但它用变量的中位数替换缺失值。这种方法适用于缺失值比例较小且数据分布不呈正态分布的情况。

# 使用中位数插补处理缺失值
df$value_median <- fill(df$value, median(df$value, na.rm = TRUE))

# 查看处理后的数据框
df

3. 众数插补

众数插补用变量的众数（出现次数最多的值）替换缺失值。这种方法适用于缺失值比例较小且数据分布呈离散分布的情况。

# 使用众数插补处理缺失值
df$value_mode <- fill(df$value, mode(df$value, na.rm = TRUE))

# 查看处理后的数据框
df

4. KNN插补

KNN（K-最近邻）插补是一种更复杂的缺失值处理方法。它将缺失值替换为K个最相似观测值的平均值。这种方法适用于缺失值比例较大且数据分布较为复杂的情况。

# 使用KNN插补处理缺失值
library(knnimpute)

# 创建knnimpute对象
knn <- knnImpute(df$value)

# 执行KNN插补
df$value_knn <- knn$impute(df$value)

# 查看处理后的数据框
df

5. 多重插补

多重插补是一种高级的缺失值处理方法。它通过多次随机插补生成多个完整的数据集，然后将这些数据集的分析结果进行综合。这种方法适用于缺失值比例较大且数据分布较为复杂的情况。

# 使用多重插补处理缺失值
library(mice)

# 创建mice对象
mice <- mice(df, m = 5, maxit = 50)

# 执行多重插补
imp <- complete(mice)

# 查看处理后的数据框
imp

6. 稳健回归

稳健回归是一种对缺失值不敏感的回归方法。它通过迭代加权最小二乘法来估计模型参数。这种方法适用于缺失值比例较大且数据分布较为复杂的情况。

# 使用稳健回归处理缺失值
library(robustbase)

# 创建稳健回归模型
model <- rlm(value ~ ., data = df)

# 查看模型结果
summary(model)

7. 机器学习模型预测

机器学习模型可以用来预测缺失值。这种方法适用于缺失值比例较大且数据分布较为复杂的情况。

# 使用机器学习模型预测缺失值
library(randomForest)

# 创建随机森林模型
model <- randomForest(value ~ ., data = df, na.action = "na.omit")

# 预测缺失值
pred <- predict(model, newdata = df)

# 查看预测结果
pred