神经网络中的反向传播（BP）算法：原理与Python实现

人工智能

2023-10-05 06:04:26

反向传播算法：神经网络训练背后的引擎

在机器学习领域，神经网络因其强大的学习能力而备受推崇，但它们赖以训练的算法，反向传播（BP），却鲜为人知。今天，我们将深入探讨 BP 算法，揭开它如何让神经网络成为人工智能中不可或缺的工具的神秘面纱。

BP 算法的运作原理

BP 算法是一种梯度下降算法，它通过迭代调整神经网络中的权重和偏差，将输出误差最小化。在每次迭代中，算法都会沿着误差函数的负梯度方向迈出一步。

为了计算梯度，BP 算法利用链式法则。它从输出层开始，计算误差相对于输出层权重和偏差的导数。然后，它向后传播导数，计算相对于隐藏层和输入层权重和偏差的导数。

BP 算法的步骤

前向传播： 计算神经网络的输出，并将输出与预期值进行比较以计算误差。
反向传播： 计算输出层权重和偏差的梯度。
权重更新： 使用梯度下降法更新权重和偏差，使其更接近最小化误差的方向。

Python 代码示例

为了更好地理解 BP 算法，这里是一个用 Python 实现的示例：

import numpy as np

class NeuralNetwork:

    def __init__(self, layers, learning_rate):
        # 初始化网络结构和学习率
        self.layers = layers
        self.learning_rate = learning_rate

    def train(self, X, y, epochs):
        # 训练网络
        for epoch in range(epochs):
            for i in range(len(X)):
                # 前向传递
                activations = self.forward_propagate(X[i])

                # 计算误差
                error = y[i] - activations[-1]

                # 反向更新
                self.back_propagate(error)

    def forward_propagate(self, x):
        # 计算神经元激活值
        activations = [x]
        for layer in self.layers:
            z = np.dot(activations[-1], layer['weights']) + layer['biases']
            activations.append(layer['activation'](z))
        return activations

    def back_propagate(self, error):
        # 计算输出层权重和偏差的梯度
        gradient = error * self.layers[-1]['activation_derivative'](-1)
        self.layers[-1]['weights'] -= self.learning_rate * np.outer(activations[-2], gradient)
        self.layers[-1]['biases'] -= self.learning_rate * gradient

        # 计算隐藏层权重和偏差的梯度
        for i in range(len(self.layers) - 2, 0, -1):
            gradient = np.dot(gradient, self.layers[i]['weights'].T) * self.layers[i]['activation_derivative'](-1)
            self.layers[i]['weights'] -= self.learning_rate * np.outer(activations[i - 1], gradient)
            self.layers[i]['biases'] -= self.learning_rate * gradient

手写数字识别案例

让我们用 BP 算法训练一个神经网络识别手写数字：

# 创建神经网络
network = NeuralNetwork([
    {'weights': np.random.randn(784, 100), 'biases': np.zeros((100,)), 'activation': 'sigmoid'},
    {'weights': np.random.randn(100, 10), 'biases': np.zeros((10,)), 'activation': 'softmax'}
])

# 训练神经网络
network.train(X_train, y_train, 10)