返回

回归模型预测性能评估指标的深入指南

后端

在机器学习中,回归模型广泛应用于预测连续值。为了评估回归模型的性能,有必要使用准确可靠的指标。本文将深入探讨七种常用的回归模型预测性能评估指标,即均方根误差(RMSE)、均方误差(MSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、对称平均绝对百分比误差(SMAPE)、决定系数(R² Score)和调整后决定系数(R²)。

1. 均方根误差(RMSE)

RMSE是评估预测值与实际值之间差异最常用的指标。它衡量误差的平均幅度,并以与目标变量相同的单位表示。RMSE较低表示模型预测更准确。

RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y_i})^2}

其中:

  • n:观测值数量
  • y_i:实际值
  • y_î:预测值

2. 均方误差(MSE)

MSE是RMSE的平方,也衡量预测误差。与RMSE不同,MSE以平方单位表示。

MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y_i})^2

3. 平均绝对误差(MAE)

MAE是预测值与实际值之间绝对误差的平均值。与RMSE不同,MAE不受极端值的影响,因此对于存在异常值的数据集更稳健。

MAE = \frac{1}{n}\sum_{i=1}^{n}|y_i - \hat{y_i}|

4. 平均绝对百分比误差(MAPE)

MAPE衡量预测误差相对于实际值的平均百分比。它适用于目标变量为非负值的场景。

MAPE = \frac{1}{n}\sum_{i=1}^{n}\left|\frac{y_i - \hat{y_i}}{y_i}\right|

5. 对称平均绝对百分比误差(SMAPE)

SMAPE是MAPE的一种变体,它对正负误差进行对称处理,因此适用于目标变量为负值的场景。

SMAPE = \frac{2}{n}\sum_{i=1}^{n}\left|\frac{y_i - \hat{y_i}}{|y_i| + |\hat{y_i}|}\right|

6. 决定系数(R² Score)

R² Score衡量回归模型解释数据变异的程度。它介于0和1之间,其中0表示模型无解释能力,1表示模型完美拟合数据。

R^2 Score = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y_i})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}

其中:

  • y̅:实际值的平均值

7. 调整后决定系数(R²)

调整后R²是R² Score的调整版,它考虑了模型的复杂性,避免了过度拟合。它介于0和1之间,与R² Score类似,值越高表示模型越好。

R^2 = 1 - \frac{(n-1)/(n-p-1)\sum_{i=1}^{n}(y_i - \hat{y_i})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}

其中:

  • p:回归模型中的参数数量

选择合适的指标

选择合适的指标取决于具体场景和目标。对于衡量预测误差的幅度,RMSE和MAE是不错的选择。对于处理异常值,MAE更稳健。对于非负值的目标变量,MAPE和SMAPE是合适的。R² Score和调整后R²衡量模型的拟合度,其中调整后R²更适合复杂模型。