返回

Pandas 数据科学宝典:探索数据结构与函数秘籍

人工智能

Pandas 初探:数据结构的基石

Pandas是Python中一个功能强大的数据分析库,其核心数据结构包括Series和DataFrame。

Series:一维数据利器

Series是一个一维数组,类似于Python中的列表,但具有标签和数据类型。标签可以是任何可哈希的对象,而数据可以是标量或向量。

import pandas as pd

# 创建一个 Series
series = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

# 访问元素
print(series['a'])  # 输出:1

# 赋值元素
series['a'] = 10

# 删除元素
del series['b']

# 打印 Series
print(series)

DataFrame:二维数据之巅

DataFrame是一个二维表格结构,类似于Excel表格,其行和列分别由索引和列名标识。

import pandas as pd

# 创建一个 DataFrame
data = {
    'Name': ['John', 'Mary', 'Bob'],
    'Age': [20, 25, 30]
}
df = pd.DataFrame(data)

# 访问元素
print(df['Name'][0])  # 输出:John

# 赋值元素
df['Age'][1] = 26

# 删除元素
df.drop('Bob', inplace=True)

# 打印 DataFrame
print(df)

Pandas 进阶:函数宝库尽显神通

掌握了Pandas的数据结构,接下来让我们探索一些高频函数,让数据处理更加得心应手。

head() 和 tail():窥探数据一角

这两个函数分别返回DataFrame或Series的前几行或后几行。

import pandas as pd

# 创建一个 DataFrame
data = {
    'Name': ['John', 'Mary', 'Bob'],
    'Age': [20, 25, 30]
}
df = pd.DataFrame(data)

# 查看前两行
print(df.head(2))

# 查看后两行
print(df.tail(2))

sort_values():数据排序大法

sort_values() 函数可根据指定列或多个列对数据进行排序。

import pandas as pd

# 创建一个 DataFrame
data = {
    'Name': ['John', 'Mary', 'Bob'],
    'Age': [20, 25, 30]
}
df = pd.DataFrame(data)

# 按年龄升序排序
print(df.sort_values('Age'))

# 按年龄降序排序
print(df.sort_values('Age', ascending=False))

groupby():分组统计利器

groupby() 函数可将数据分组,并对每组数据进行统计操作。

import pandas as pd

# 创建一个 DataFrame
data = {
    'Name': ['John', 'Mary', 'Bob', 'John', 'Mary', 'Bob'],
    'Age': [20, 25, 30, 25, 28, 32]
}
df = pd.DataFrame(data)

# 按姓名分组,统计年龄平均值
print(df.groupby('Name').Age.mean())

结语:Pandas 武功秘籍在手,数据分析从此无忧

通过对Pandas数据结构和函数的深入学习,您已经掌握了数据科学的基础工具。现在,您需要做的就是多多练习,让Pandas成为您数据分析的得力助手。

如果您对Pandas还有更多疑问或想了解更多,欢迎在评论区留言,我将竭诚为您解答。