Pandas数据追加到CSV：终极指南，轻松解决数据累积问题

2024-03-08 18:30:20

使用 Pandas 将数据追加到 CSV 文件：终极指南

导言

在数据分析中，经常需要将新数据添加到现有数据集，而 CSV 文件是一种流行且广泛使用的文件格式。Pandas 是 Python 中用于数据处理和操作的库，提供了 to_csv() 函数来写入 CSV 文件。然而，默认情况下，to_csv() 会覆盖现有文件，而不是追加数据。本文将深入探讨如何使用 Pandas 将数据追加到现有 CSV 文件，并提供详细的步骤和示例代码。

追加数据的先决条件

在使用 Pandas 追加数据之前，至关重要的是要检查现有 CSV 文件与要追加的数据具有相同的结构。这包括列数和数据类型。如果 CSV 文件和数据框结构不同，追加操作将失败或导致数据丢失。

追加数据的步骤

1. 加载 CSV 文件

使用 Pandas 的 pd.read_csv() 函数加载现有的 CSV 文件。这将创建一个 Pandas 数据框，表示 CSV 文件中的数据。

import pandas as pd

csv_data = pd.read_csv('existing.csv')

2. 追加数据

将要追加的数据框与加载的 CSV 数据框连接起来。这可以通过 Pandas 的 pd.concat() 函数来实现。

new_data = pd.DataFrame({
    'Name': ['John', 'Mary'],
    'Age': [30, 25]
})

combined_data = pd.concat([csv_data, new_data], ignore_index=True)

3. 写入 CSV 文件

使用 Pandas 的 to_csv() 函数将连接后的数据框写入 CSV 文件。关键的一步是指定 mode='a' 参数，它指示 to_csv() 在追加模式下打开文件。

combined_data.to_csv('existing.csv', mode='a', index=False)

注意：

ignore_index=True 参数可确保在连接数据框时不重复索引。
index=False 参数可避免在写入 CSV 文件时将索引列写入。

代码示例

以下完整的 Python 代码示例演示了上述步骤：

import pandas as pd

# 加载 CSV 文件
csv_data = pd.read_csv('existing.csv')

# 要追加的数据
new_data = pd.DataFrame({
    'Name': ['John', 'Mary'],
    'Age': [30, 25]
})

# 追加数据
combined_data = pd.concat([csv_data, new_data], ignore_index=True)

# 将数据追加到 CSV 文件
combined_data.to_csv('existing.csv', mode='a', index=False)