数据专家必备!最常用的 10 大类 Pandas 函数⛵️
2023-11-23 18:54:37
数据专家必备:掌握 10 大类 Pandas 函数,数据处理事半功倍
作为一名数据科学家,您一定对 Pandas 库不陌生。这个强大的 Python 工具库能为您提供轻松处理和分析数据的利器。今天,我们就来深入探讨数据专家最常用的 10 大类 Pandas 函数,让您如虎添翼,工作效率倍增。
一、数据结构
Pandas 提供了多种数据结构,让您灵活地存储和处理数据:
- Series: 一维数组,拥有索引功能,类似 NumPy 数组。
- DataFrame: 二维表格,如同 Excel 电子表格,由多个 Series 组成。
- Panel: 三维数组,具有两个索引,与 NumPy 数组类似。
二、字符串操作
Pandas 提供丰富的字符串操作函数,让字符串处理变得轻而易举:
- str.upper(): 转换为大写。
- str.lower(): 转换为小写。
- str.strip(): 去除两端空格。
- str.replace(): 替换指定字符串。
三、数值操作
轻松处理数值数据,Pandas 的数值操作函数助您一臂之力:
- add(): 相加。
- sub(): 相减。
- mul(): 相乘。
- div(): 相除。
四、时间序列操作
时间序列数据处理不再繁琐,Pandas 提供了专用的函数:
- resample(): 重采样。
- shift(): 移动。
- diff(): 计算差分。
- autocorr(): 计算自相关。
五、数据聚合
轻松聚合数据,获取关键信息:
- sum(): 求和。
- mean(): 求平均值。
- median(): 求中位数。
- max(): 求最大值。
- min(): 求最小值。
六、数据过滤
精准筛选数据,让您直达目标:
- query(): 条件表达式过滤。
- isin(): 值列表过滤。
- notna(): 非 NaN 值过滤。
- dropna(): 删除 NaN 值行或列。
七、数据排序
按照指定顺序排列数据,一目了然:
- sort_values(): 按值排序。
- sort_index(): 按索引排序。
- argsort(): 返回排序后索引。
八、数据合并
整合数据,打破数据孤岛:
- merge(): 合并两个 DataFrame。
- join(): 合并两个 DataFrame,保留一个索引。
- concat(): 合并多个 DataFrame。
九、数据透视表
汇总分组数据,洞察数据趋势:
Pandas 提供了透视表功能,让您轻松创建透视表。透视表可以按行列汇总和分组数据,帮助您快速发现数据中的模式和趋势。
十、数据可视化
让数据更直观,Pandas 的可视化函数让您轻松绘制图表:
- plot(): 绘制各种图表。
- hist(): 绘制直方图。
- scatter(): 绘制散点图。
- boxplot(): 绘制箱线图。
代码示例
import pandas as pd
# 创建一个 Series
series = pd.Series([1, 2, 3, 4, 5])
# 创建一个 DataFrame
df = pd.DataFrame({
"Name": ["John", "Mary", "Bob"],
"Age": [20, 25, 30]
})
# 字符串操作
df["Name"] = df["Name"].str.upper()
# 数值操作
df["Total"] = df["Age"] * 2
# 时间序列操作
df["Date"] = pd.to_datetime("2023-01-01", "2023-01-02", "2023-01-03")
df = df.resample("D").mean()
# 数据聚合
df["Age_Group"] = pd.cut(df["Age"], bins=[0, 20, 30, 40, 50])
# 数据过滤
filtered_df = df[df["Age"] > 25]
# 数据排序
sorted_df = df.sort_values("Age")
# 数据合并
new_df = pd.merge(df, series, on="Name")
# 透视表
pivot_table = df.pivot_table(index="Age_Group", columns="Name", values="Age")
# 可视化
df.plot(kind="scatter", x="Age", y="Total")
常见问题解答
- 什么是 Pandas?
Pandas 是一个功能强大的 Python 库,专门用于处理和分析数据,提供了一系列高效的函数。
- Pandas 中最常用的数据结构是什么?
Series 和 DataFrame 是 Pandas 中最常用的数据结构,分别表示一维数组和二维表格。
- 如何对 Pandas DataFrame 进行排序?
可以使用 sort_values() 函数对 Pandas DataFrame 进行排序,按值或索引进行排序。
- 如何将两个 Pandas DataFrame 合并在一起?
可以使用 merge() 函数将两个 Pandas DataFrame 合并在一起,根据共同的列或索引进行合并。
- 如何创建 Pandas 透视表?
可以使用 pivot_table() 函数创建 Pandas 透视表,按指定列和行对数据进行汇总和分组。