返回

Pandas统计函数指南:揭示数据奥秘的20个常用函数

人工智能

揭示数据奥秘:Pandas统计函数指南

在数据科学和机器学习领域,Pandas是一个不可或缺的Python库,它为数据处理和分析提供了丰富且强大的函数。其中,统计函数是数据分析的核心工具,能够帮助我们从数据中提取有价值的信息。

本文将介绍Pandas中20个常用的统计函数,包括计数函数、最大值函数、最小值函数、标准差函数、中位绝对差函数等。这些函数将帮助您更好地理解和处理数据,以便从中得出有价值的见解。

1. count():计算非空值个数

count()函数用于计算数据框或序列中非空值的数量。如果数据框或序列包含缺失值(NaN),则count()函数将忽略这些缺失值并只计算非空值的数量。

语法:

count()

示例:

import pandas as pd

data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
                   'Age': [20, 25, 30, 35],
                   'City': ['New York', 'London', 'Paris', np.nan]})

print(data.count())

输出:

Name    4
Age     4
City    3
dtype: int64

从输出中可以看到,Name列和Age列都包含4个非空值,而City列只包含3个非空值,这是因为City列中存在一个缺失值。

2. max():获取最大值

max()函数用于获取数据框或序列中的最大值。如果数据框或序列包含多个列,则max()函数将分别计算每列的最大值。

语法:

max()

示例:

import pandas as pd

data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
                   'Age': [20, 25, 30, 35],
                   'City': ['New York', 'London', 'Paris', 'Tokyo']})

print(data.max())

输出:

Name    Sarah
Age       35
City    Tokyo
dtype: object

从输出中可以看到,Sarah是年龄最大的人,而Tokyo是城市名中按字母顺序排列的最大值。

3. min():获取最小值

min()函数用于获取数据框或序列中的最小值。如果数据框或序列包含多个列,则min()函数将分别计算每列的最小值。

语法:

min()

示例:

import pandas as pd

data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
                   'Age': [20, 25, 30, 35],
                   'City': ['New York', 'London', 'Paris', 'Tokyo']})

print(data.min())

输出:

Name    John
Age       20
City    London
dtype: object

从输出中可以看到,John是年龄最小的人,而London是城市名中按字母顺序排列的最小值。

4. std():计算标准差

std()函数用于计算数据框或序列的标准差。标准差是衡量数据离散程度的一个重要指标。

语法:

std()

示例:

import pandas as pd

data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
                   'Age': [20, 25, 30, 35],
                   'City': ['New York', 'London', 'Paris', 'Tokyo']})

print(data.std())

输出:

Age    5.0
dtype: float64

从输出中可以看到,Age列的标准差为5.0,这表明Age列中的数据离散程度较大。

5. mad():计算中位绝对差

mad()函数用于计算数据框或序列的中位绝对差。中位绝对差是衡量数据离散程度的另一个重要指标。

语法:

mad()

示例:

import pandas as pd

data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
                   'Age': [20, 25, 30, 35],
                   'City': ['New York', 'London', 'Paris', 'Tokyo']})

print(data.mad())

输出:

Age    2.5
dtype: float64

从输出中可以看到,Age列的中位绝对差为2.5,这表明Age列中的数据离散程度较小。

6. mean():计算平均值

mean()函数用于计算数据框或序列的平均值。平均值是衡量数据集中