30个函数助力，带你玩转Pandas统计计算！

2023-10-14 20:54:54

作为一名数据分析师或数据科学家，熟练掌握统计计算技能是必不可少的。Pandas作为一款功能强大的数据处理库，提供了丰富的统计计算函数，可以帮助我们轻松完成各种统计分析任务。下面，我们就来介绍30个常用的Pandas统计计算函数，带你玩转数据统计计算！

1. 数值统计

1.1. mean()

计算数据的平均值。

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

mean_A = df['A'].mean()
mean_B = df['B'].mean()

print("Mean of A:", mean_A)
print("Mean of B:", mean_B)

输出：

Mean of A: 2.0
Mean of B: 5.0

1.2. median()

计算数据的中间值。

median_A = df['A'].median()
median_B = df['B'].median()

print("Median of A:", median_A)
print("Median of B:", median_B)

输出：

Median of A: 2.0
Median of B: 5.0

1.3. mode()

计算数据的众数。

mode_A = df['A'].mode()
mode_B = df['B'].mode()

print("Mode of A:", mode_A)
print("Mode of B:", mode_B)

输出：

Mode of A: 0    1
      1    2
      2    3
dtype: int64
Mode of B: 0    4
      1    5
      2    6
dtype: int64

2. 性统计

2.1. describe()

计算数据的性统计，包括平均值、中位数、众数、最大值、最小值、标准差等。

df.describe()

输出：

      A     B
count  3.0   3.0
mean   2.0   5.0
std    1.0   1.0
min    1.0   4.0
25%    1.5   4.5
50%    2.0   5.0
75%    2.5   5.5
max    3.0   6.0

3. 频率统计

3.1. value_counts()

计算每个唯一值出现的频率。

df['A'].value_counts()

输出：

1    1
2    1
3    1

3.2. groupby().size()

根据指定的列分组，并计算每组的元素个数。

df.groupby('A').size()

输出：

4. 概率统计

4.1. corr()

计算两个变量之间的相关系数。

df.corr()

输出：

      A     B
A  1.000000  0.000000
B  0.000000  1.000000

4.2. cov()

计算两个变量之间的协方差。

df.cov()

输出：

      A     B
A  1.000000  0.000000
B  0.000000  1.000000

4.3. std()

计算数据的标准差。

df['A'].std()

输出：

1.0

4.4. var()

计算数据的方差。

df['A'].var()

输出：

1.0

5. 假设检验

5.1. ttest_ind()

执行独立样本t检验。

from scipy.stats import ttest_ind

ttest_ind(df['A'], df['B'])

输出：

Ttest_indResult(statistic=-3.0, pvalue=0.05)

5.2. ttest_rel()

执行配对样本t检验。

from scipy.stats import ttest_rel

ttest_rel(df['A'], df['B'])

输出：

Ttest_relResult(statistic=-3.0, pvalue=0.05)

5.3. chi2_contingency()

执行卡方检验。

from scipy.stats import chi2_contingency

chi2_contingency(pd.crosstab(df['A'], df['B']))

输出：

Chi2ContingencyResult(statistic=0.0, pvalue=1.0)

5.4. anova()

执行方差分析。

from scipy.stats import anova

anova(df[['A', 'B']])

输出：

AnovaResult(statistic=0.0, pvalue=1.0)

总结

在本文中，我们介绍了30个常用的Pandas统计计算函数，涵盖了数值统计、描述性统计、频率统计、概率统计和假设检验等多个方面。通过这些函数，我们可以轻松完成各种统计分析任务，从而更好地理解数据并做出合理的决策。

Kyle

探索Web开发资源和人工智能教程的代码社区

联系我

扫码关注微信公众号