从梯度下降到正规方程：机器学习笔记

人工智能

2024-01-27 13:18:00

掌握线性回归中的梯度下降和正规方程

欢迎来到机器学习的迷人世界，亲爱的读者！今天，我们将深入探讨两个用于线性回归模型训练的基石算法：梯度下降和正规方程组。做好准备，我们将踏上一段引人入胜的旅程，揭开这些算法的奥秘。

梯度下降：逐步走向最佳

想象一下你迷失在迷雾中，周围全是山丘。梯度下降就如同一位经验丰富的向导，带你找到最陡峭的下坡路，让你一步步走向迷雾中的光亮。在机器学习中，梯度下降扮演着类似的角色，它帮助我们寻找模型参数的最佳组合，以最小化损失函数，进而获得最准确的预测。

梯度下降算法的工作原理如下：

就像向导需要指南针，梯度下降需要损失函数 来衡量模型预测与真实值之间的差距。
接下来，它计算梯度，即损失函数在每个参数方向上的变化率。
根据梯度，算法对参数进行微小调整，沿着损失函数下降最快的方向移动。
这一过程不断重复，每次调整都会使模型更加准确，直到找到最优参数。

正规方程组：一招制敌

正规方程组是一种更直接的方法，它试图一口气找到模型参数的最佳值。它通过求解一个表示模型参数的方程组来实现。

与梯度下降不同，正规方程组在小数据集上表现出色，因为它直接给出了闭合解，无需迭代过程。然而，对于大数据集，它的计算成本可能很高。

梯度下降与正规方程组：谁是更佳选择？

在选择梯度下降和正规方程组时，需要考虑以下因素：

数据集大小： 梯度下降适用于大数据集，因为不需要存储整个数据集。
计算成本： 正规方程组对于小数据集计算成本较低，但对于大数据集则不然。
精度： 正规方程组通常比梯度下降更准确，但梯度下降在数据集不断更新时更灵活。

示例与步骤：用代码来说话

为了加深你的理解，让我们通过一个简单的线性回归示例来演示这两个算法：

import numpy as np

# 数据
X = np.array([[2, 3], [4, 6], [6, 9]])
y = np.array([7, 11, 15])

# 梯度下降
w = np.array([0, 0])  # 初始化参数
alpha = 0.01  # 学习率
num_iters = 1000

for i in range(num_iters):
    # 计算梯度
    grad = -1/3 * np.sum((y - (w[0] * X[:, 0] + w[1] * X[:, 1])) * (-X[:, 0], -X[:, 1]), axis=0)

    # 更新参数
    w -= alpha * grad

# 正规方程组
w = np.linalg.inv(X.T @ X) @ X.T @ y