开启深度学习之旅：从零动手实现线性回归的完整指南

人工智能

2023-11-16 14:04:16

踏入深度学习的迷人世界，让我们从零开始探索线性回归的基本原理。在这趟知识探索之旅中，我们将亲自动手打造一个简单的线性回归模型，从基础概念逐步深入，揭开深度学习的神秘面纱。

缘起：为何从线性回归开始？

线性回归是机器学习领域的基础算法，它旨在通过一条直线来拟合数据点。由于其简单性和广泛的应用，它为初学者提供了理想的起点，让我们得以深入了解机器学习的核心概念。

材料清单：准备你的工具箱

为了进行这次实践之旅，你需要：

Python 3.6 或更高版本
Jupyter Notebook 或类似的编程环境
d2l 包（李沐老师团队为《动手学深度学习》一书开发的配套包）

第 1 步：构建数据集

我们从一个简单的二维数据集开始。这个数据集包含房屋面积和相应的价格。以下是手动生成的数据集：

import numpy as np

# 面积和价格数据
area = np.array([100, 150, 200, 250, 300])
price = np.array([200, 250, 300, 350, 400])

第 2 步：定义线性回归模型

线性回归模型由一条直线表示，其方程为：

价格 = 斜率 * 面积 + 偏置项

我们将使用 PyTorch 定义线性回归模型：

import torch
import torch.nn as nn

class LinearRegression(nn.Module):
    def __init__(self):
        super(LinearRegression, self).__init__()
        self.slope = nn.Parameter(torch.tensor(0.0))
        self.bias = nn.Parameter(torch.tensor(0.0))

    def forward(self, area):
        return self.slope * area + self.bias

第 3 步：定义损失函数

损失函数衡量模型预测与真实值之间的差异。对于线性回归，我们使用均方误差 (MSE) 损失：

import torch.nn.functional as F

def mse_loss(y_pred, y_true):
    return F.mse_loss(y_pred, y_true)

第 4 步：训练模型

训练过程调整模型参数（斜率和偏置项）以最小化损失函数。我们使用梯度下降算法：

optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

for epoch in range(1000):
    # 预测
    y_pred = model(area)

    # 计算损失
    loss = mse_loss(y_pred, price)

    # 反向传播
    loss.backward()

    # 更新参数
    optimizer.step()

    # 清空梯度
    optimizer.zero_grad()

第 5 步：评估模型

训练完成后，我们需要评估模型的性能。我们可以使用训练数据或新数据计算预测误差：

# 训练集误差
train_loss = mse_loss(model(area), price)

# 预测误差（在新的数据集上）
new_area = torch.tensor([120, 180, 220])
new_price = model(new_area)
pred_loss = mse_loss(new_price, new_area * 2 + 50)