返回
相关系数——解读特征相关性的敲门砖
人工智能
2023-10-04 03:53:16
相关系数: 量化特征相关性的数学工具
在特征工程中,我们经常面临着特征众多、冗余度高的情况。为了提高机器学习模型的性能,我们需要选择与目标相关性高的特征,剔除无关或相关性低的特征。相关系数作为一种数学工具,能够帮助我们定量地评估特征与目标之间的相关性,为特征选择提供依据。
相关系数的种类
相关系数有多种类型,最常用的有以下两种:
- 皮尔逊相关系数: 用于衡量两个连续型变量之间的相关性,其值介于-1到1之间,其中-1表示完全负相关,0表示不相关,1表示完全正相关。
- 斯皮尔曼等级相关系数: 用于衡量两个序数变量或连续型变量之间的相关性,其值也介于-1到1之间,其与皮尔逊相关系数的不同之处在于,斯皮尔曼等级相关系数不考虑变量的具体数值,只考虑变量的相对大小。
相关系数的计算
皮尔逊相关系数的计算公式为:
r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i - \bar{x})^2}\sqrt{\sum(y_i - \bar{y})^2}}
其中,
- x_i 和 y_i 分别是变量 X 和变量 Y 的第 i 个观测值
- \bar{x} 和 \bar{y} 分别是变量 X 和变量 Y 的平均值
斯皮尔曼等级相关系数的计算公式为:
r_s = \frac{\sum_{i=1}^n(x_i - y_i)^2}{\sum_{i=1}^n(x_i - \bar{x})^2 + \sum_{i=1}^n(y_i - \bar{y})^2 - \sum_{i=1}^n(x_i - y_i)^2}
其中,
- x_i 和 y_i 分别是变量 X 和变量 Y 的第 i 个观测值
- \bar{x} 和 \bar{y} 分别是变量 X 和变量 Y 的平均值
相关系数的应用
相关系数可以用于多种场景,例如:
- 特征选择: 通过相关系数评估特征与目标之间的相关性,选择相关性高的特征,剔除相关性低的特征,从而减少模型的特征数量,提高模型的性能。
- 变量聚类: 通过相关系数评估变量之间的相关性,将相关性高的变量聚类在一起,从而减少变量的数量,简化模型的结构。
- 异常值检测: 通过相关系数评估观测值与其他观测值之间的相关性,识别出与其他观测值相关性低或不相关的观测值,这些观测值可能代表异常值或错误值。
相关系数的局限性
相关系数是一种简单而有效的相关性评估工具,但它也有其局限性,例如:
- 相关系数只能衡量两个变量之间的线性相关性,而不能衡量非线性相关性。
- 相关系数受极端值的影响,极端值可能会导致相关系数失真。
- 相关系数不考虑变量的因果关系,相关性并不意味着因果关系。
结语
相关系数作为一种特征工程中常用的工具,能够帮助我们评估特征与目标之间的相关性,为特征选择提供依据。然而,相关系数也有其局限性,在使用相关系数时,我们需要充分考虑其局限性,并结合其他方法来评估特征与目标之间的关系。