如何在 Python 中使用 NumPy 统计相关系数

2023-09-08 09:07:28

简介

NumPy 是 Python 中一个强大的数值计算库，提供了一系列统计函数，包括计算相关系数。相关系数是一种量化两个变量之间线性关系强度的度量。在本文中，我们将探讨如何使用 NumPy 来计算不同的相关系数，包括皮尔逊相关系数、斯皮尔曼等级相关系数和肯德尔等级相关系数。

了解相关系数

相关系数度量了两个变量之间线性关系的强度，取值范围为 -1 到 1。

-1 表示完全负相关 ：随着一个变量的增加，另一个变量会减小。
0 表示无相关性 ：两个变量之间没有线性关系。
1 表示完全正相关 ：随着一个变量的增加，另一个变量也会增加。

NumPy 中的相关函数

NumPy 提供了多个函数来计算相关系数：

numpy.corrcoef：计算协方差矩阵，其中对角线元素是各变量的方差，非对角线元素是对应变量之间的协方差。协方差矩阵的元素可以用来计算相关系数。
numpy.corrcov：计算协方差矩阵和相关系数矩阵。

使用 NumPy 计算相关系数

皮尔逊相关系数

皮尔逊相关系数是两个变量之间线性关系强度的度量，计算公式为：

r = (cov(x, y)) / (std(x) * std(y))

其中：

cov(x, y) 是 x 和 y 的协方差
std(x) 是 x 的标准差
std(y) 是 y 的标准差

使用 NumPy 计算皮尔逊相关系数：

import numpy as np

# 两个变量的数组
x = [1, 2, 3, 4, 5]
y = [2, 4, 5, 4, 5]

# 计算协方差矩阵
cov_matrix = np.corrcov(x, y)

# 从协方差矩阵中提取皮尔逊相关系数
pearson_corr = cov_matrix[0, 1] / (np.std(x) * np.std(y))

print("皮尔逊相关系数：", pearson_corr)

斯皮尔曼等级相关系数

斯皮尔曼等级相关系数是一种非参数相关系数，用于度量两个变量之间的单调关系，计算公式为：

r_s = 1 - (6 * Σd^2) / (n * (n^2 - 1))

其中：

d 是两个变量的差异值
n 是样本量

使用 NumPy 计算斯皮尔曼等级相关系数：

import numpy as np

# 两个变量的数组
x = [1, 2, 3, 4, 5]
y = [2, 4, 5, 4, 5]

# 计算斯皮尔曼等级相关系数
spearman_corr = 1 - (6 * np.sum((x - y)**2)) / (len(x) * (len(x)** 2 - 1))

print("斯皮尔曼等级相关系数：", spearman_corr)

肯德尔等级相关系数

肯德尔等级相关系数是另一种非参数相关系数，用于度量两个变量之间的单调关系，计算公式为：

τ = (C - D) / (C + D)

其中：

C 是协同对数
D 是不协同对数

使用 NumPy 计算肯德尔等级相关系数：

import numpy as np

# 两个变量的数组
x = [1, 2, 3, 4, 5]
y = [2, 4, 5, 4, 5]

# 计算肯德尔等级相关系数
concordant_pairs = 0
discordant_pairs = 0

for i in range(len(x)):
    for j in range(i+1, len(x)):
        if (x[i] - x[j]) * (y[i] - y[j]) > 0:
            concordant_pairs += 1
        elif (x[i] - x[j]) * (y[i] - y[j]) < 0:
            discordant_pairs += 1

kendall_corr = (concordant_pairs - discordant_pairs) / (concordant_pairs + discordant_pairs)

print("肯德尔等级相关系数：", kendall_corr)