如何解决逻辑回归模型损失发散和效果不佳？全面指南

python

2024-03-20 11:58:03

解决逻辑回归损失发散和模型效果不佳

问题概述

在实现逻辑回归模型时，你可能遇到以下问题：

损失函数在训练期间发散，即不断增加而不是收敛。
训练后的模型在测试数据上的表现非常差，准确率很低。

解决方案

检查初始学习率

学习率 (eta) 是梯度下降算法的关键参数，控制权重更新的幅度。在你的情况下，只有当 eta 设置为非常低的值 (0.002) 时，损失才会收敛。更大的 eta 值会导致损失发散。

调整学习率： 尝试不同的 eta 值，从低值开始，例如 0.001 或 0.0005。随着训练的进行，你可以逐渐增加 eta 以加速收敛速度。

排查梯度

检查梯度计算： 使用梯度检查器来验证梯度计算的正确性。这可以确保你实现的梯度与解析梯度一致。

剪辑梯度： 梯度值过大可能会导致不稳定的训练和发散。考虑对梯度进行剪辑，以将梯度限制在一定范围内。

正则化

添加 L2 正则化： 正则化有助于防止过拟合并提高模型的泛化能力。在损失函数中添加 L2 正则化项，其中参数惩罚权重的大小。

改善特征缩放

标准化特征： 将特征缩放至均值 0 和标准差 1 可以改善梯度下降算法的性能。这有助于梯度下降在每个维度上以相似的速度进行更新。

考虑其他优化器

牛顿法： 牛顿法是一种比梯度下降更高级的优化算法，可以更快地收敛。尝试使用牛顿法或其变体来代替梯度下降。

例子

下面是一个调整后的逻辑回归实现，解决了上述问题：

import numpy as np

class LogisticRegression:
    def __init__(self, random_state=1):
        np.random.seed(random_state)
        self.w = np.random.randn(5)

    def fit(self, X, Y, eta=0.001, plot=False, max_iter=1000):

        if plot:
            loss_vec = np.zeros(max_iter)
        
        for idx in range(max_iter):

            z = np.dot(X, self.w)
            a = sigmoid(z)
            grad = np.dot(X.T, (a - Y)) + 0.01 * self.w
            
            # 使用牛顿法，而不是梯度下降
            H = np.dot(X.T, np.dot(a * (1 - a), X)) + 0.01 * np.identity(len(self.w))
            delta = np.dot(np.linalg.inv(H), grad)
            
            self.w -= delta
            
            if plot:
                loss_vec[idx] = self.log_loss(X, Y)
        
        if plot:
            plt.plot(loss_vec)
            plt.xlabel('# of iterations')
            plt.ylabel('Loss')