如何防止 XGBoost 回归器在交叉验证预测中的过拟合？

python

2024-03-18 22:02:14

XGBoost 回归器交叉验证预测中的早期停止

简介

在机器学习中，XGBoost 回归器因其卓越的性能和灵活性而受到广泛使用。然而，防止模型过拟合对于确保其泛化性能至关重要。本文将指导您如何在 XGBoost 回归器中使用早期停止回调与交叉验证相结合，以监控模型性能并防止过拟合。

什么是早期停止？

早期停止是一种正则化技术，它在训练过程中监控模型性能，并在模型性能不再改善时停止训练。这有助于防止模型过拟合训练数据，并提高其泛化到未见过数据的性能。

如何使用早期停止？

要将早期停止用于 XGBoost 回归器，您可以遵循以下步骤：

定义自定义早期停止回调： 创建一个自定义的早期停止回调类，继承自 xgboost.callback.EarlyStopping。在构造函数中，指定回合数、最小增量和数据名称（在本例中为 validation_0）。
设置交叉验证： 使用 KFold 或其他交叉验证方法设置交叉验证。
创建 XGBRegressor： 创建一个 XGBRegressor 模型，并指定自定义的早期停止回调。
进行交叉验证预测： 使用 cross_val_predict 进行交叉验证预测。

示例代码

import xgboost as xgb
from sklearn.model_selection import KFold

# 定义自定义早期停止回调
class CustomEarlyStopping(xgb.callback.EarlyStopping):
    def __init__(self, rounds=2, min_delta=1e-3, save_best=True, maximize=False, data_name="validation_0", metric_name="rmse"):
        super().__init__(rounds=rounds, min_delta=min_delta, save_best=save_best, maximize=maximize, data_name=data_name, metric_name=metric_name)

# 设置交叉验证
cvx = KFold(n_splits=10, shuffle=True, random_state=239)

# 创建 XGBRegressor
model = xgb.XGBRegressor(colsample_bytree = 0.3, learning_rate = 0.1, max_depth = 10, alpha = 10, n_estimators = 500, n_jobs=-1, 
                     random_state=239,callbacks=[es])

# 进行交叉验证预测
cv_preds = []
for i in range(0,10):
    cv_preds.append(cross_val_predict(model, np.asarray(X_train), np.asarray(y_train), cv=cvx, method='predict', n_jobs=1, verbose=2))