如何将多个 CSV 文件导入 pandas 并连接成一个 DataFrame？

2024-03-13 02:39:31

将多个 CSV 文件导入 pandas 并连接成一个 DataFrame

概述

在数据分析中，将多个 CSV 文件合并为一个 DataFrame 是一项常见的任务。本文将通过使用 pandas 库向你展示如何轻松地实现这一点。

步骤

1. 导入必要的库

import glob
import pandas as pd

2. 获取数据文件列表

使用 glob 模块获取当前目录中所有 CSV 文件的列表。

path = 'C:/path/to/directory'
filenames = glob.glob(path + "/*.csv")

3. 逐个读取文件并创建 DataFrame

使用 pd.read_csv() 读取每个文件并创建单独的 DataFrame。

dfs = []
for filename in filenames:
    dfs.append(pd.read_csv(filename))

4. 连接 DataFrame

使用 pd.concat() 将所有 DataFrame 合并为一个大 DataFrame。

big_frame = pd.concat(dfs, ignore_index=True)

示例

# 假设你的 CSV 文件位于 "data" 目录下
path = "data/"
filenames = glob.glob(path + "/*.csv")

dfs = []
for filename in filenames:
    dfs.append(pd.read_csv(filename))

big_frame = pd.concat(dfs, ignore_index=True)

# 打印合并后的 DataFrame
print(big_frame)

注意事项

确保所有 CSV 文件都具有相同的列名和数据类型，否则可能会出现错误。
如果 CSV 文件包含标题行，请使用 header=0 参数来指定。
可以使用 ignore_index 参数来重置合并后 DataFrame 的索引。
如果要跳过空行，请使用 skiprows=1 参数。

结论

通过遵循这些步骤，你可以轻松地将多个 CSV 文件导入 pandas 并连接成一个 DataFrame。这种技术在处理大型数据集时特别有用，可以节省大量时间和精力。

常见问题解答

1. 我在连接文件时遇到了错误。该怎么办？

首先，检查所有 CSV 文件是否具有相同的列名和数据类型。如果发现差异，请更正这些差异并再次尝试连接。

2. 我想跳过合并后 DataFrame 中的重复行。如何实现？

你可以使用 big_frame.drop_duplicates() 方法来删除重复行。

3. 如何在连接前查看各个 DataFrame？

你可以使用 print(df) 语句逐个打印每个 DataFrame。

4. 我想将合并后的 DataFrame 保存到一个新的 CSV 文件中。如何操作？

你可以使用 big_frame.to_csv('new_file.csv', index=False) 将合并后的 DataFrame 保存到一个名为 new_file.csv 的新文件中。

5. 我想根据特定列对合并后的 DataFrame 进行排序。如何实现？

你可以使用 big_frame.sort_values('column_name') 语句根据指定的 column_name 对合并后的 DataFrame 进行排序。

Kyle

探索Web开发资源和人工智能教程的代码社区

扫码关注微信公众号

如何在代码块中巧妙禁用 ruff linting？三种方法轻松搞定！

如何在代码块中巧妙禁用 ruff linting？三种方法轻松搞定！

Python导入机制：如何选择import module还是from module import？

Python导入机制：如何选择import module还是from module import？

Tkinter 和 Pillow 图像导入失败：原因和解决办法

Tkinter 和 Pillow 图像导入失败：原因和解决办法

在使用代理类时如何解决PHP单元测试中的覆盖率报告偏差问题？

在使用代理类时如何解决PHP单元测试中的覆盖率报告偏差问题？

Python 中优雅地迭代日期范围：生成器表达式指南

Python 中优雅地迭代日期范围：生成器表达式指南