Pandas 概览：数据分析利器探索

闲谈

2023-11-26 17:11:06

Pandas：数据分析的神兵利器

什么是 Pandas？

Pandas 是一个基于 Python 的开源数据分析库。它采用表状数据结构 DataFrame，使你可以轻松存储、处理和分析各种类型的数据，如数字、字符串和日期。

Pandas 的优势

易用性： Pandas 的语法清晰简洁，即使是新手也能快速掌握。
灵活性： 它支持多种数据类型，并提供丰富的函数库，满足各种数据分析需求。
高效性： 基于 NumPy 构建，Pandas 在处理大数据集时效率极高。
社区支持： 庞大的用户社区提供了丰富的资源和帮助。

Pandas 的常用函数

Pandas 提供了以下常用的函数：

read_csv()： 从 CSV 文件读取数据。
head()： 显示数据的前几行。
tail()： 显示数据的最后几行。
info()： 显示数据框的信息，包括数据类型、非空值数量等。
describe()： 计算数据的统计信息，如均值、中位数、最大值等。
groupby()： 按指定列分组，并对每组数据进行聚合计算。
merge()： 合并两个或多个数据框。
plot()： 将数据框可视化。

代码示例：

import pandas as pd

# 从 CSV 文件读取数据
df = pd.read_csv('data.csv')

# 查看数据的前 5 行
print(df.head())

# 计算数据的统计信息
print(df.describe())

# 按性别分组并计算年龄均值
df_age_by_gender = df.groupby('gender')['age'].mean()
print(df_age_by_gender)

# 将两个数据框合并
df1 = pd.DataFrame({'name': ['Alice', 'Bob'], 'age': [20, 30]})
df2 = pd.DataFrame({'name': ['Alice', 'Bob'], 'city': ['New York', 'London']})
df_merged = pd.merge(df1, df2, on='name')
print(df_merged)

# 可视化数据
df.plot(kind='scatter', x='age', y='salary')