神经网络基础：BP算法揭秘——简化实现，深入理解

人工智能

2024-01-29 07:39:51

在人工智能的浩瀚世界中，神经网络是一颗璀璨的明珠，而反向传播（BP）算法更是其核心的引擎。在这篇文章中，我们将踏上一次探索之旅，深入浅出地剖析BP算法的奥秘，并提供两种清晰易懂的实现方法。

BP算法简介

BP算法是一种监督学习算法，用于训练神经网络模型。它的核心思想是通过反向传播误差信号来调整网络中神经元的权重和偏置，从而逐步减小模型的预测误差。

BP算法的基本流程如下：

前向传播：输入样本后，神经网络根据权重和偏置计算各层神经元的输出，并逐层传递下去。
计算误差：将网络输出与真实标签进行比较，计算误差值。
反向传播：从最后一层神经元开始，逐层反向传播误差信号，并计算每个神经元对误差的贡献值（梯度）。
更新权重：根据梯度，更新神经元的权重和偏置，以减小误差。
重复迭代：重复步骤1-4，直到达到预定的停止条件（例如误差达到某个阈值或迭代次数达到上限）。

两种BP算法实现

为了让读者更好地理解BP算法，我们提供两种简化的实现方法：

实现 1：手动推导

优点： 直观易懂，加深对算法原理的理解。

缺点： 过程繁琐，需要较高数学基础。

对于输入层为3个神经元，隐藏层为2个神经元，输出层为1个神经元的简单神经网络，BP算法的手动推导如下：

输入层：
a1 = x1
a2 = x2
a3 = x3

隐藏层：
z1 = w11*a1 + w12*a2 + b1
h1 = sigmoid(z1)
z2 = w21*a1 + w22*a2 + b2
h2 = sigmoid(z2)

输出层：
z = w31*h1 + w32*h2 + b3
y = sigmoid(z)

误差：
E = (y - t)^2

反向传播：
δ3 = (y - t) * y * (1 - y)
δ2 = (δ3 * w31) * h1 * (1 - h1)
δ1 = (δ3 * w32) * h2 * (1 - h2)

权重更新：
w11 = w11 - α * δ2 * a1
w12 = w12 - α * δ2 * a2
b1 = b1 - α * δ2
w21 = w21 - α * δ2 * a1
w22 = w22 - α * δ2 * a2
b2 = b2 - α * δ2
w31 = w31 - α * δ3 * h1
w32 = w32 - α * δ3 * h2
b3 = b3 - α * δ3

其中，α为学习率，t为真实标签，sigmoid为激活函数。

实现 2：库函数实现

优点： 便捷高效，无需复杂推导。

缺点： 可能会掩盖算法原理，不利于深入理解。

对于简单的神经网络，我们可以使用现成的库函数（例如PyTorch、TensorFlow）来实现BP算法。以下是一个使用PyTorch实现BP算法的示例代码：

import torch
import torch.nn as nn

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(3, 2)
        self.fc2 = nn.Linear(2, 1)

    def forward(self, x):
        x = torch.sigmoid(self.fc1(x))
        x = torch.sigmoid(self.fc2(x))
        return x

net = Net()
optimizer = torch.optim.SGD(net.parameters(), lr=0.01)

for epoch in range(1000):
    # 前向传播
    y = net(x)
    # 计算误差
    loss = torch.mean((y - t)**2)
    # 反向传播
    loss.backward()
    # 更新权重
    optimizer.step()