LightGBM实战项目：探索性数据分析、建模和优化

2023-12-28 11:28:09

使用 LightGBM 建立和优化机器学习模型：分步指南

探索性数据分析 (EDA)

探索性数据分析 (EDA) 是数据科学过程中必不可少的一步，它使我们能够深入了解数据的分布、模式和潜在关系。要执行 EDA，我们可以使用 Pandas 和 Matplotlib 库：

import pandas as pd
import matplotlib.pyplot as plt

# 加载数据集
df = pd.read_csv('data.csv')

# 数据概览
print(df.head())

# 检查数据类型
print(df.dtypes)

# 检查缺失值
print(df.isnull().sum())

# 绘制特征分布直方图
df['feature_1'].hist(bins=50)
plt.xlabel('feature_1')
plt.ylabel('Frequency')
plt.title('Feature 1 Distribution')
plt.show()

基于 LightGBM 的建模

LightGBM 是一种高效的梯度提升决策树算法，以其速度和准确性而闻名。我们可以使用 LightGBM 库来构建我们的模型：

import lightgbm as lgb

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(df.drop('target', axis=1), df['target'], test_size=0.2)

# 创建 LightGBM 模型
model = lgb.LGBMClassifier(objective='binary')

# 训练模型
model.fit(X_train, y_train)

# 评估模型
score = model.score(X_test, y_test)
print('模型得分：', score)

基于网格搜索的模型优化

网格搜索是一种超参数优化技术，它通过系统地探索超参数的不同组合来帮助我们找到最佳模型。我们可以使用 Scikit-Learn 库来执行网格搜索：

from sklearn.model_selection import GridSearchCV

# 定义超参数网格
param_grid = {
    'num_leaves': [31, 63, 127],
    'max_depth': [5, 7, 9],
    'learning_rate': [0.01, 0.05, 0.1]
}

# 执行网格搜索
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# 打印最佳超参数
print('最佳超参数：', grid_search.best_params_)

# 重新训练模型使用最佳超参数
model = lgb.LGBMClassifier(**grid_search.best_params_)
model.fit(X_train, y_train)