如何将 Pandas 中包含 NaN 的列正确转换为整数类型？

python

2024-03-30 14:18:06

## 将包含 NaN 的 Pandas 列转换为数据类型 int

问题

在从 .csv 文件读取数据到 Pandas 数据框时，你可能遇到这样的问题：希望将一列（例如 id）指定为 int 类型，但是该列包含缺失/空值 (NaN)。

直接将 id 列强制转换为整数会导致错误：“整数列有 NA 值”。即使在读取后尝试转换列类型，也会出现“无法将 NA 转换为整数”的错误。

解决步骤

解决此问题的步骤如下：

将 NaN 转换为文本： 使用 fillna() 方法将 id 列中的 NaN 值用文本 'NA' 填充。

df['id'] = df['id'].fillna('NA')

将列转换为字符串： 使用 astype() 方法将 id 列转换为字符串类型。

df['id'] = df['id'].astype(str)

转换回整数： 使用 to_numeric() 方法将 id 列转换为整数类型。将 errors='coerce' 设置为忽略转换错误（NaN 将被转换为 NaN）。

df['id'] = pd.to_numeric(df['id'], errors='coerce')

处理转换错误： 转换后，将 id 列中剩余的 NaN 值替换为所需的默认值（例如 0）。

df['id'] = df['id'].fillna(0)

示例代码

以下是根据上述步骤操作的示例代码：

import pandas as pd

df = pd.read_csv("data.csv")

# 将 NaN 转换为文本
df['id'] = df['id'].fillna('NA')

# 转换为字符串
df['id'] = df['id'].astype(str)

# 转换为整数
df['id'] = pd.to_numeric(df['id'], errors='coerce')

# 处理转换错误
df['id'] = df['id'].fillna(0)