返回
从信息熵的视角探索 PSI 与 IV 的关联:换一种角度理解风控模型中的关键指标
人工智能
2023-11-12 16:52:49
在风控模型的构建中,IV(Information Value)和 PSI(Population Stability Index)是两个至关重要的指标,用于评估变量的重要性以及模型和特征的稳定性。传统上,我们从公式的角度理解这些指标,但本文将提供一个独特的视角,从信息熵的角度出发,揭示 PSI 和 IV 之间的内在关联。
信息熵与 PSI
信息熵是一个度量数据中不确定性的指标。对于一个离散分布,其信息熵为:
H(X) = -Σp(x) * log2(p(x))
其中,p(x) 是 x 的概率。
PSI 是两个分布之间的信息熵差,反映了这两个分布之间的差异程度。在风控模型中,PSI 用于比较模型分和特征分布之间的差异,以监控模型的稳定性。
IV 与信息增益
IV 是一个度量变量对目标变量分类能力的指标。它等于特征分箱后目标变量信息熵的减少量,即:
IV = H(Y) - H(Y|X)
其中,Y 是目标变量,X 是特征。
信息增益是信息熵的一个度量,它衡量一个特征对另一个特征的不确定性的减少量。它等于信息熵与条件信息熵之差,即:
IG(Y|X) = H(Y) - H(Y|X)
PSI 与 IV 的关联
从以上公式中,我们可以看出 IV 和信息增益本质上是相同的。事实上,IV 可以看作是 PSI 的一个特例,其中目标变量是二值的,特征是多值的。
具体来说,当目标变量是二值的时,PSI 公式可以简化为:
PSI = -Σ(p1(x) - p2(x)) * log2((p1(x) - p2(x)))
其中,p1(x) 和 p2(x) 分别是特征值 x 对应于目标变量取值为 1 和 0 的概率。
通过比较 PSI 和 IV 的公式,我们可以发现它们之间的相似性:
- 都是信息熵差的度量。
- 都是衡量两个分布之间的差异。
- 都可以看作是对信息不确定性减少的度量。
因此,我们可以得出结论:PSI 是 IV 在二值目标变量情况下的推广 。
应用
这种视角上的转变为风控模型的理解和应用提供了新的 insights:
- IV 可以用于估计 PSI: 对于二值目标变量,我们可以使用 IV 来近似估计 PSI,这在计算资源有限或特征维度较高的情况下非常有用。
- PSI 可以用于评估 IV 稳定性: PSI 可以反映模型分和特征分布的变化情况。通过监控 PSI,我们可以评估 IV 的稳定性,并及时发现模型漂移的风险。
- IV 和 PSI 可以联合使用: IV 和 PSI 可以提供互补的信息,帮助我们更全面地理解变量的重要性、模型的稳定性以及特征分布的变化趋势。