Pandas 数据科学宝典：探索数据结构与函数秘籍

2023-11-04 13:28:32

Pandas 初探：数据结构的基石

Pandas是Python中一个功能强大的数据分析库，其核心数据结构包括Series和DataFrame。

Series：一维数据利器

Series是一个一维数组，类似于Python中的列表，但具有标签和数据类型。标签可以是任何可哈希的对象，而数据可以是标量或向量。

import pandas as pd

# 创建一个 Series
series = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

# 访问元素
print(series['a'])  # 输出：1

# 赋值元素
series['a'] = 10

# 删除元素
del series['b']

# 打印 Series
print(series)

DataFrame：二维数据之巅

DataFrame是一个二维表格结构，类似于Excel表格，其行和列分别由索引和列名标识。

import pandas as pd

# 创建一个 DataFrame
data = {
    'Name': ['John', 'Mary', 'Bob'],
    'Age': [20, 25, 30]
}
df = pd.DataFrame(data)

# 访问元素
print(df['Name'][0])  # 输出：John

# 赋值元素
df['Age'][1] = 26

# 删除元素
df.drop('Bob', inplace=True)

# 打印 DataFrame
print(df)

Pandas 进阶：函数宝库尽显神通

掌握了Pandas的数据结构，接下来让我们探索一些高频函数，让数据处理更加得心应手。

head() 和 tail()：窥探数据一角

这两个函数分别返回DataFrame或Series的前几行或后几行。

import pandas as pd

# 创建一个 DataFrame
data = {
    'Name': ['John', 'Mary', 'Bob'],
    'Age': [20, 25, 30]
}
df = pd.DataFrame(data)

# 查看前两行
print(df.head(2))

# 查看后两行
print(df.tail(2))

sort_values()：数据排序大法

sort_values() 函数可根据指定列或多个列对数据进行排序。

import pandas as pd

# 创建一个 DataFrame
data = {
    'Name': ['John', 'Mary', 'Bob'],
    'Age': [20, 25, 30]
}
df = pd.DataFrame(data)

# 按年龄升序排序
print(df.sort_values('Age'))

# 按年龄降序排序
print(df.sort_values('Age', ascending=False))

groupby()：分组统计利器

groupby() 函数可将数据分组，并对每组数据进行统计操作。

import pandas as pd

# 创建一个 DataFrame
data = {
    'Name': ['John', 'Mary', 'Bob', 'John', 'Mary', 'Bob'],
    'Age': [20, 25, 30, 25, 28, 32]
}
df = pd.DataFrame(data)

# 按姓名分组，统计年龄平均值
print(df.groupby('Name').Age.mean())