掌握Pandas：新手必备的必备技巧

2023-10-03 01:34:13

在数据科学领域，Python库Pandas是处理和分析数据表（称为数据框）的利器。对于新手来说，掌握一些基本的Pandas技巧至关重要，可以为数据探索和处理奠定坚实的基础。

1. 创建数据框

数据框是Pandas中用于存储和操作表状数据的核心结构。您可以使用各种方法创建数据框，包括从列表、字典或CSV文件导入数据。例如：

import pandas as pd

# 从列表创建数据框
data = {'姓名': ['约翰', '玛丽', '鲍勃'], '年龄': [25, 30, 28]}
df = pd.DataFrame(data)

# 从字典创建数据框
data = {'姓名': '约翰', '年龄': 25}
df = pd.DataFrame(data, index=['姓名', '年龄'])

# 从CSV文件创建数据框
df = pd.read_csv('数据.csv')

2. 查看数据框信息

一旦创建了数据框，您可以使用各种方法查看其内容和结构。其中一些方法包括：

df.head()：显示数据框的前几行
df.tail()：显示数据框的最后几行
df.info()：显示数据框的摘要，包括数据类型、非空值计数和内存使用情况
df.describe()：统计数据框中数值列的摘要，例如平均值、中值和标准差

3. 切片和选择数据

要从数据框中获取特定的数据，可以使用切片和选择方法。切片根据索引值选择数据，而选择根据条件选择数据。例如：

df[1:5]：选择数据框中索引为1到4（不包括5）的行
df['姓名']：选择数据框中的“姓名”列
df[(df['年龄'] > 30)]：选择“年龄”大于30的数据

4. 使用常见函数

Pandas提供了大量内置函数，用于执行常见的数据操作。其中一些最常用的函数包括：

df.sum()：计算每一列的总和
df.mean()：计算每一列的平均值
df.std()：计算每一列的标准差
df.value_counts()：计算每个唯一值的出现次数
df.sort_values()：根据特定列对数据框进行排序

5. 示例代码

为了进一步说明Pandas的基本技巧，这里提供了一个示例代码，演示如何从CSV文件加载数据，执行切片和选择，以及使用函数：

import pandas as pd

# 从CSV文件加载数据
df = pd.read_csv('数据.csv')

# 显示数据框的前五行的信息
print(df.head())

# 选择"年龄"大于30的数据
df_filtered = df[df['年龄'] > 30]

# 计算"年龄"列的平均值
avg_age = df['年龄'].mean()

# 打印结果
print("过滤后的数据：\n", df_filtered)
print("年龄列的平均值：", avg_age)