Pandas统计函数指南:揭示数据奥秘的20个常用函数
2024-02-22 09:21:48
揭示数据奥秘:Pandas统计函数指南
在数据科学和机器学习领域,Pandas是一个不可或缺的Python库,它为数据处理和分析提供了丰富且强大的函数。其中,统计函数是数据分析的核心工具,能够帮助我们从数据中提取有价值的信息。
本文将介绍Pandas中20个常用的统计函数,包括计数函数、最大值函数、最小值函数、标准差函数、中位绝对差函数等。这些函数将帮助您更好地理解和处理数据,以便从中得出有价值的见解。
1. count():计算非空值个数
count()函数用于计算数据框或序列中非空值的数量。如果数据框或序列包含缺失值(NaN),则count()函数将忽略这些缺失值并只计算非空值的数量。
语法:
count()
示例:
import pandas as pd
data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
'Age': [20, 25, 30, 35],
'City': ['New York', 'London', 'Paris', np.nan]})
print(data.count())
输出:
Name 4
Age 4
City 3
dtype: int64
从输出中可以看到,Name列和Age列都包含4个非空值,而City列只包含3个非空值,这是因为City列中存在一个缺失值。
2. max():获取最大值
max()函数用于获取数据框或序列中的最大值。如果数据框或序列包含多个列,则max()函数将分别计算每列的最大值。
语法:
max()
示例:
import pandas as pd
data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
'Age': [20, 25, 30, 35],
'City': ['New York', 'London', 'Paris', 'Tokyo']})
print(data.max())
输出:
Name Sarah
Age 35
City Tokyo
dtype: object
从输出中可以看到,Sarah是年龄最大的人,而Tokyo是城市名中按字母顺序排列的最大值。
3. min():获取最小值
min()函数用于获取数据框或序列中的最小值。如果数据框或序列包含多个列,则min()函数将分别计算每列的最小值。
语法:
min()
示例:
import pandas as pd
data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
'Age': [20, 25, 30, 35],
'City': ['New York', 'London', 'Paris', 'Tokyo']})
print(data.min())
输出:
Name John
Age 20
City London
dtype: object
从输出中可以看到,John是年龄最小的人,而London是城市名中按字母顺序排列的最小值。
4. std():计算标准差
std()函数用于计算数据框或序列的标准差。标准差是衡量数据离散程度的一个重要指标。
语法:
std()
示例:
import pandas as pd
data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
'Age': [20, 25, 30, 35],
'City': ['New York', 'London', 'Paris', 'Tokyo']})
print(data.std())
输出:
Age 5.0
dtype: float64
从输出中可以看到,Age列的标准差为5.0,这表明Age列中的数据离散程度较大。
5. mad():计算中位绝对差
mad()函数用于计算数据框或序列的中位绝对差。中位绝对差是衡量数据离散程度的另一个重要指标。
语法:
mad()
示例:
import pandas as pd
data = pd.DataFrame({'Name': ['Peter', 'Mary', 'John', 'Sarah'],
'Age': [20, 25, 30, 35],
'City': ['New York', 'London', 'Paris', 'Tokyo']})
print(data.mad())
输出:
Age 2.5
dtype: float64
从输出中可以看到,Age列的中位绝对差为2.5,这表明Age列中的数据离散程度较小。
6. mean():计算平均值
mean()函数用于计算数据框或序列的平均值。平均值是衡量数据集中