取消缩放数据以提高 PDP 的可解释性：使用原始比例上的特征值

2024-03-11 14:09:53

如何为缩放数据的模型绘制 PDP，并进行取消缩放以用于 PDP

引言

部分依赖图 (PDP) 是一种可视化技术，用于展示单个特征对机器学习模型预测的影响。当我们使用缩放后的数据来训练和测试模型时，绘制 PDP 可能会带来困难，因为 x 轴值是缩放过的，这会限制可解释性。本文将介绍如何取消缩放数据以创建 PDP，从而使用原始比例上的 x 轴值。

取消缩放数据以创建 PDP

在调用 PartialDependenceDisplay 函数绘制 PDP 之前，需要取消缩放测试数据。以下步骤说明了如何使用 StandardScaler().inverse_transform() 函数取消缩放数据：

导入必要的库：

import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from pdpbox import pdp, info_plots

创建 StandardScaler 对象：

scaler = StandardScaler()

取消缩放测试数据：

X_test_unscaled = scaler.inverse_transform(X_test_final)

X_test_final 是用于测试模型的缩放后的测试数据。X_test_unscaled 将包含取消缩放后的原始比例上的测试数据。

使用取消缩放后的数据创建 PDP：

pdp_unscaled = pdp.pdp_isolate(model=rf_clf, dataset=X_test_unscaled, features=best_features)

rf_clf 是训练好的随机森林分类器模型，best_features 是要创建 PDP 的特征列表。

示例代码

以下代码片段演示了如何在 Python 中使用取消缩放的数据创建 PDP：

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from pdpbox import pdp, info_plots

# 假设你已经加载并准备好了数据
df = pd.DataFrame(...)
y = df['target']
X = df.drop('target', axis=1)

# 分割训练和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 使用 StandardScaler 缩放训练数据
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)

# 创建并训练随机森林分类器模型
rf_clf = RandomForestClassifier(n_estimators=100)
rf_clf.fit(X_train_scaled, y_train)

# 获取最重要的特征
best_features = ['feature1', 'feature2']

# 使用取消缩放后的数据创建 PDP
X_test_unscaled = scaler.inverse_transform(X_test_final)
pdp_unscaled = pdp.pdp_isolate(model=rf_clf, dataset=X_test_unscaled, features=best_features)

# 绘制 PDP
info_plots.pdp_plot(pdp_isolate_out=pdp_unscaled, feature='feature1', plot_lines=True, x_quantile=True)