Pandas：无惧SQL，一招制敌，数据分析so easy！

2022-12-04 23:18:43

Pandas：数据分析的瑞士军刀

数据分析的世界浩瀚而复杂，但拥有合适的工具，征服它的任务就会变得容易许多。Pandas，一个基于NumPy的开源库，就是这样一款工具。它专为数据处理而生，让您轻松驾驭各种格式的数据，探索其内在价值。

与SQL的比拼：殊途同归，各领风骚

SQL，作为数据库管理系统领域的霸主，在数据分析中占据着不可动摇的地位。然而，当数据量较小或存储在内存中时，Pandas就成为了更优的选择。

查询：简便直观，得心应手

使用Pandas进行数据查询就像在池塘中捕鱼一样简单。只需几行代码，您便可以根据条件筛选数据，提取出您需要的信息。

import pandas as pd

df = pd.DataFrame({
    "name": ["John", "Mary", "Bob"],
    "age": [20, 25, 30],
})

# 查询年龄大于25的数据
result = df.query("age > 25")

# 查询名字是John或Mary的数据
result = df.loc[df["name"].isin(["John", "Mary"])]

筛选：千挑万选，得其所哉

Pandas还提供了丰富的筛选方法，让您精准地挑选出符合要求的数据。

head() 和tail() : 获取数据的前几行或后几行，一窥全貌。
sort_values() : 根据指定列对数据进行排序，井然有序。
drop_duplicates() : 删除重复数据，剔除冗余。

# 获取数据的前5行
result = df.head()

# 根据年龄对数据进行排序
result = df.sort_values("age")

# 删除重复数据
result = df.drop_duplicates()

排序：按部就班，一目了然

无论是SQL还是Pandas，对数据进行排序都是一项必备技能。Pandas的sort_values() 方法让您轻松实现这一目标。

# 根据年龄对数据进行排序
result = df.sort_values("age")

分组：化繁为简，窥见规律

分组是数据分析中不可或缺的利器。Pandas的groupby() 方法可以让您将数据按指定列分组，并对每组数据进行聚合操作。

# 将数据按年龄分组，并计算每组的平均年龄
result = df.groupby("age").mean()

聚合：化零为整，洞察全局

聚合操作可以将分散的数据转化为有价值的见解。Pandas提供了丰富的聚合函数，让您轻而易举地提取数据的关键信息。

sum() : 计算每组数据的总和。
mean() : 计算每组数据的平均值。
max() : 计算每组数据的最大值。
min() : 计算每组数据的最小值。

# 计算每组数据的总和
result = df.groupby("age").sum()

# 计算每组数据的平均值
result = df.groupby("age").mean()

窗口函数：洞察时间，揭示趋势

窗口函数是一种特殊类型的聚合函数，它可以在数据的一段范围内进行计算。Pandas提供了丰富的窗口函数，让您探索数据的动态变化。

rolling() : 计算指定窗口内的数据的移动平均值。
expanding() : 计算从数据开始到当前行的数据的累积平均值。

# 计算过去3行数据的移动平均值
result = df["age"].rolling(3).mean()

# 计算从数据开始到当前行的数据的累积平均值
result = df["age"].expanding().mean()

关联、合并、连接：合纵连横，融会贯通

当您需要将来自不同来源的数据整合在一起时，关联、合并和连接操作就派上了用场。Pandas提供了多种方法，让您轻松实现数据融合。

merge() : 将两个数据框按指定列进行关联。
join() : 将两个数据框按指定列进行连接。
concat() : 将两个或多个数据框按行或列进行连接。

# 将两个数据框按age列进行关联
result = pd.merge(df1, df2, on="age")

# 将两个数据框按name列进行连接
result = pd.join(df1, df2, on="name")

# 将两个数据框按行进行连接
result = pd.concat([df1, df2], axis=0)

读取、写入：畅通无阻，数据流通

Pandas不仅可以处理内存中的数据，还可以从各种数据源读取数据，并将其写入到不同的格式中。丰富的读写方法让数据流动不再受阻。

read_csv() : 从CSV文件读取数据。
read_excel() : 从Excel文件读取数据。
read_json() : 从JSON文件读取数据。
to_csv() : 将数据写入CSV文件。
to_excel() : 将数据写入Excel文件。
to_json() : 将数据写入JSON文件。

# 从CSV文件读取数据
df = pd.read_csv("data.csv")

# 将数据写入Excel文件
df.to_excel("data.xlsx")

# 将数据写入JSON文件
df.to_json("data.json")

可视化：一图胜千言，数据显真

数据可视化是数据分析的点睛之笔。Pandas提供了丰富的可视化方法，让您将枯燥的数据转化为生动的图表，直观地呈现数据的内在价值。

plot() : 绘制各种类型的图表，如折线图、柱状图、散点图等。
hist() : 绘制直方图。
boxplot() : 绘制箱线图。

# 绘制折线图
df.plot()

# 绘制直方图
df["age"].hist()

# 绘制箱线图
df.boxplot()

结语：数据分析的利器

Pandas不仅是SQL的替代品，它还提供了更强大、更灵活的功能。无论是数据清洗、数据变换还是数据分析，Pandas都能轻松胜任。掌握Pandas，您将成为数据分析领域的专家。

常见问题解答

1. Pandas和NumPy有什么关系？

Pandas基于NumPy，它利用NumPy强大的数组处理功能来高效地处理数据。

2. Pandas适合处理多大的数据集？

Pandas可以处理百万级甚至千万级的数据集，但对于更大的数据集，您可能需要考虑分布式计算框架，如Dask或Spark。

3. Pandas可以处理非结构化数据吗？

Pandas主要用于处理结构化数据，但它也提供了一些方法来处理非结构化数据，如文本和图像。

4. Pandas如何与其他编程语言集成？

Pandas可以与多种编程语言集成，包括Python、R和Julia。

5. 学习Pandas需要哪些先决条件？

学习Pandas需要基本的Python编程知识和对数据分析概念的理解。

Kyle

探索Web开发资源和人工智能教程的代码社区

联系我

扫码关注微信公众号

Pandas：无惧SQL，一招制敌，数据分析so easy！

Kyle

Arthas 揭秘：Java 程序员的监控分析神器

零基础小白也能学会的Idea快速搭建Github项目教程💪

从直播领域窥探高并发场景下的应对之策

一键解决！ pytest 中使用 fixture 和 session 自动添加请求头

模块化可视化利器 | Spring依赖分析与微服务架构划分