Pandas统计函数指南：揭示数据奥秘的20个常用函数

2024-02-22 09:21:48

揭示数据奥秘：Pandas统计函数指南

在数据科学和机器学习领域，Pandas是一个不可或缺的Python库，它为数据处理和分析提供了丰富且强大的函数。其中，统计函数是数据分析的核心工具，能够帮助我们从数据中提取有价值的信息。

本文将介绍Pandas中20个常用的统计函数，包括计数函数、最大值函数、最小值函数、标准差函数、中位绝对差函数等。这些函数将帮助您更好地理解和处理数据，以便从中得出有价值的见解。

1. count()：计算非空值个数

count()函数用于计算数据框或序列中非空值的数量。如果数据框或序列包含缺失值（NaN），则count()函数将忽略这些缺失值并只计算非空值的数量。

语法：

count()

示例：

import pandas as pd

data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
                   'Age': [20, 25, 30, 35],
                   'City': ['New York', 'London', 'Paris', np.nan]})

print(data.count())

输出：

Name    4
Age     4
City    3
dtype: int64

从输出中可以看到，Name列和Age列都包含4个非空值，而City列只包含3个非空值，这是因为City列中存在一个缺失值。

2. max()：获取最大值

max()函数用于获取数据框或序列中的最大值。如果数据框或序列包含多个列，则max()函数将分别计算每列的最大值。

语法：

max()

示例：

import pandas as pd

data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
                   'Age': [20, 25, 30, 35],
                   'City': ['New York', 'London', 'Paris', 'Tokyo']})

print(data.max())

输出：

Name    Sarah
Age       35
City    Tokyo
dtype: object

从输出中可以看到，Sarah是年龄最大的人，而Tokyo是城市名中按字母顺序排列的最大值。

3. min()：获取最小值

min()函数用于获取数据框或序列中的最小值。如果数据框或序列包含多个列，则min()函数将分别计算每列的最小值。

语法：

min()

示例：

import pandas as pd

data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
                   'Age': [20, 25, 30, 35],
                   'City': ['New York', 'London', 'Paris', 'Tokyo']})

print(data.min())

输出：

Name    John
Age       20
City    London
dtype: object

从输出中可以看到，John是年龄最小的人，而London是城市名中按字母顺序排列的最小值。

4. std()：计算标准差

std()函数用于计算数据框或序列的标准差。标准差是衡量数据离散程度的一个重要指标。

语法：

std()

示例：

import pandas as pd

data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
                   'Age': [20, 25, 30, 35],
                   'City': ['New York', 'London', 'Paris', 'Tokyo']})

print(data.std())

输出：

Age    5.0
dtype: float64

从输出中可以看到，Age列的标准差为5.0，这表明Age列中的数据离散程度较大。

5. mad()：计算中位绝对差

mad()函数用于计算数据框或序列的中位绝对差。中位绝对差是衡量数据离散程度的另一个重要指标。

语法：

mad()

示例：

import pandas as pd

data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
                   'Age': [20, 25, 30, 35],
                   'City': ['New York', 'London', 'Paris', 'Tokyo']})

print(data.mad())