返回
Pandas 数据科学宝典:探索数据结构与函数秘籍
人工智能
2023-11-04 13:28:32
Pandas 初探:数据结构的基石
Pandas是Python中一个功能强大的数据分析库,其核心数据结构包括Series和DataFrame。
Series:一维数据利器
Series是一个一维数组,类似于Python中的列表,但具有标签和数据类型。标签可以是任何可哈希的对象,而数据可以是标量或向量。
import pandas as pd
# 创建一个 Series
series = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
# 访问元素
print(series['a']) # 输出:1
# 赋值元素
series['a'] = 10
# 删除元素
del series['b']
# 打印 Series
print(series)
DataFrame:二维数据之巅
DataFrame是一个二维表格结构,类似于Excel表格,其行和列分别由索引和列名标识。
import pandas as pd
# 创建一个 DataFrame
data = {
'Name': ['John', 'Mary', 'Bob'],
'Age': [20, 25, 30]
}
df = pd.DataFrame(data)
# 访问元素
print(df['Name'][0]) # 输出:John
# 赋值元素
df['Age'][1] = 26
# 删除元素
df.drop('Bob', inplace=True)
# 打印 DataFrame
print(df)
Pandas 进阶:函数宝库尽显神通
掌握了Pandas的数据结构,接下来让我们探索一些高频函数,让数据处理更加得心应手。
head() 和 tail():窥探数据一角
这两个函数分别返回DataFrame或Series的前几行或后几行。
import pandas as pd
# 创建一个 DataFrame
data = {
'Name': ['John', 'Mary', 'Bob'],
'Age': [20, 25, 30]
}
df = pd.DataFrame(data)
# 查看前两行
print(df.head(2))
# 查看后两行
print(df.tail(2))
sort_values():数据排序大法
sort_values() 函数可根据指定列或多个列对数据进行排序。
import pandas as pd
# 创建一个 DataFrame
data = {
'Name': ['John', 'Mary', 'Bob'],
'Age': [20, 25, 30]
}
df = pd.DataFrame(data)
# 按年龄升序排序
print(df.sort_values('Age'))
# 按年龄降序排序
print(df.sort_values('Age', ascending=False))
groupby():分组统计利器
groupby() 函数可将数据分组,并对每组数据进行统计操作。
import pandas as pd
# 创建一个 DataFrame
data = {
'Name': ['John', 'Mary', 'Bob', 'John', 'Mary', 'Bob'],
'Age': [20, 25, 30, 25, 28, 32]
}
df = pd.DataFrame(data)
# 按姓名分组,统计年龄平均值
print(df.groupby('Name').Age.mean())
结语:Pandas 武功秘籍在手,数据分析从此无忧
通过对Pandas数据结构和函数的深入学习,您已经掌握了数据科学的基础工具。现在,您需要做的就是多多练习,让Pandas成为您数据分析的得力助手。
如果您对Pandas还有更多疑问或想了解更多,欢迎在评论区留言,我将竭诚为您解答。