返回

30个函数助力,带你玩转Pandas统计计算!

人工智能

作为一名数据分析师或数据科学家,熟练掌握统计计算技能是必不可少的。Pandas作为一款功能强大的数据处理库,提供了丰富的统计计算函数,可以帮助我们轻松完成各种统计分析任务。下面,我们就来介绍30个常用的Pandas统计计算函数,带你玩转数据统计计算!

1. 数值统计

1.1. mean()

计算数据的平均值。

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

mean_A = df['A'].mean()
mean_B = df['B'].mean()

print("Mean of A:", mean_A)
print("Mean of B:", mean_B)

输出:

Mean of A: 2.0
Mean of B: 5.0

1.2. median()

计算数据的中间值。

median_A = df['A'].median()
median_B = df['B'].median()

print("Median of A:", median_A)
print("Median of B:", median_B)

输出:

Median of A: 2.0
Median of B: 5.0

1.3. mode()

计算数据的众数。

mode_A = df['A'].mode()
mode_B = df['B'].mode()

print("Mode of A:", mode_A)
print("Mode of B:", mode_B)

输出:

Mode of A: 0    1
      1    2
      2    3
dtype: int64
Mode of B: 0    4
      1    5
      2    6
dtype: int64

2. 性统计

2.1. describe()

计算数据的性统计,包括平均值、中位数、众数、最大值、最小值、标准差等。

df.describe()

输出:

      A     B
count  3.0   3.0
mean   2.0   5.0
std    1.0   1.0
min    1.0   4.0
25%    1.5   4.5
50%    2.0   5.0
75%    2.5   5.5
max    3.0   6.0

3. 频率统计

3.1. value_counts()

计算每个唯一值出现的频率。

df['A'].value_counts()

输出:

1    1
2    1
3    1

3.2. groupby().size()

根据指定的列分组,并计算每组的元素个数。

df.groupby('A').size()

输出:

A
1    1
2    1
3    1

4. 概率统计

4.1. corr()

计算两个变量之间的相关系数。

df.corr()

输出:

      A     B
A  1.000000  0.000000
B  0.000000  1.000000

4.2. cov()

计算两个变量之间的协方差。

df.cov()

输出:

      A     B
A  1.000000  0.000000
B  0.000000  1.000000

4.3. std()

计算数据的标准差。

df['A'].std()

输出:

1.0

4.4. var()

计算数据的方差。

df['A'].var()

输出:

1.0

5. 假设检验

5.1. ttest_ind()

执行独立样本t检验。

from scipy.stats import ttest_ind

ttest_ind(df['A'], df['B'])

输出:

Ttest_indResult(statistic=-3.0, pvalue=0.05)

5.2. ttest_rel()

执行配对样本t检验。

from scipy.stats import ttest_rel

ttest_rel(df['A'], df['B'])

输出:

Ttest_relResult(statistic=-3.0, pvalue=0.05)

5.3. chi2_contingency()

执行卡方检验。

from scipy.stats import chi2_contingency

chi2_contingency(pd.crosstab(df['A'], df['B']))

输出:

Chi2ContingencyResult(statistic=0.0, pvalue=1.0)

5.4. anova()

执行方差分析。

from scipy.stats import anova

anova(df[['A', 'B']])

输出:

AnovaResult(statistic=0.0, pvalue=1.0)

总结

在本文中,我们介绍了30个常用的Pandas统计计算函数,涵盖了数值统计、描述性统计、频率统计、概率统计和假设检验等多个方面。通过这些函数,我们可以轻松完成各种统计分析任务,从而更好地理解数据并做出合理的决策。