返回
30个函数助力,带你玩转Pandas统计计算!
人工智能
2023-10-14 20:54:54
作为一名数据分析师或数据科学家,熟练掌握统计计算技能是必不可少的。Pandas作为一款功能强大的数据处理库,提供了丰富的统计计算函数,可以帮助我们轻松完成各种统计分析任务。下面,我们就来介绍30个常用的Pandas统计计算函数,带你玩转数据统计计算!
1. 数值统计
1.1. mean()
计算数据的平均值。
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
mean_A = df['A'].mean()
mean_B = df['B'].mean()
print("Mean of A:", mean_A)
print("Mean of B:", mean_B)
输出:
Mean of A: 2.0
Mean of B: 5.0
1.2. median()
计算数据的中间值。
median_A = df['A'].median()
median_B = df['B'].median()
print("Median of A:", median_A)
print("Median of B:", median_B)
输出:
Median of A: 2.0
Median of B: 5.0
1.3. mode()
计算数据的众数。
mode_A = df['A'].mode()
mode_B = df['B'].mode()
print("Mode of A:", mode_A)
print("Mode of B:", mode_B)
输出:
Mode of A: 0 1
1 2
2 3
dtype: int64
Mode of B: 0 4
1 5
2 6
dtype: int64
2. 性统计
2.1. describe()
计算数据的性统计,包括平均值、中位数、众数、最大值、最小值、标准差等。
df.describe()
输出:
A B
count 3.0 3.0
mean 2.0 5.0
std 1.0 1.0
min 1.0 4.0
25% 1.5 4.5
50% 2.0 5.0
75% 2.5 5.5
max 3.0 6.0
3. 频率统计
3.1. value_counts()
计算每个唯一值出现的频率。
df['A'].value_counts()
输出:
1 1
2 1
3 1
3.2. groupby().size()
根据指定的列分组,并计算每组的元素个数。
df.groupby('A').size()
输出:
A
1 1
2 1
3 1
4. 概率统计
4.1. corr()
计算两个变量之间的相关系数。
df.corr()
输出:
A B
A 1.000000 0.000000
B 0.000000 1.000000
4.2. cov()
计算两个变量之间的协方差。
df.cov()
输出:
A B
A 1.000000 0.000000
B 0.000000 1.000000
4.3. std()
计算数据的标准差。
df['A'].std()
输出:
1.0
4.4. var()
计算数据的方差。
df['A'].var()
输出:
1.0
5. 假设检验
5.1. ttest_ind()
执行独立样本t检验。
from scipy.stats import ttest_ind
ttest_ind(df['A'], df['B'])
输出:
Ttest_indResult(statistic=-3.0, pvalue=0.05)
5.2. ttest_rel()
执行配对样本t检验。
from scipy.stats import ttest_rel
ttest_rel(df['A'], df['B'])
输出:
Ttest_relResult(statistic=-3.0, pvalue=0.05)
5.3. chi2_contingency()
执行卡方检验。
from scipy.stats import chi2_contingency
chi2_contingency(pd.crosstab(df['A'], df['B']))
输出:
Chi2ContingencyResult(statistic=0.0, pvalue=1.0)
5.4. anova()
执行方差分析。
from scipy.stats import anova
anova(df[['A', 'B']])
输出:
AnovaResult(statistic=0.0, pvalue=1.0)
总结
在本文中,我们介绍了30个常用的Pandas统计计算函数,涵盖了数值统计、描述性统计、频率统计、概率统计和假设检验等多个方面。通过这些函数,我们可以轻松完成各种统计分析任务,从而更好地理解数据并做出合理的决策。