动手学深度学习 4.2：多层感知机从头开始实现

2023-12-03 16:19:26

让我们从头开始实现一个简单的神经网络——多层感知机（MLP）。我们将使用反向传播（BP）算法来训练这个网络，并用它来解决一个简单的分类问题。我们还将讨论多层感知机的优缺点，以及它在机器学习和深度学习中的应用。

多层感知机简介

多层感知机（MLP）是一种前馈神经网络，它由多层神经元组成，这些神经元按层排列，每层的神经元都与下一层的神经元相连。MLP的输入层接收输入数据，输出层产生输出，中间层负责处理数据并从中学习。

实现多层感知机

现在，我们来实现一个简单的神经网络——多层感知机（MLP）。我们将使用反向传播（BP）算法来训练这个网络，并用它来解决一个简单的分类问题。

import numpy as np

class MLP:
    def __init__(self, input_size, output_size, hidden_size=100):
        self.input_size = input_size
        self.output_size = output_size
        self.hidden_size = hidden_size

        # 初始化权重和偏置
        self.W1 = np.random.randn(input_size, hidden_size)
        self.b1 = np.zeros((1, hidden_size))
        self.W2 = np.random.randn(hidden_size, output_size)
        self.b2 = np.zeros((1, output_size))

    def forward(self, X):
        # 前向传播
        Z1 = np.dot(X, self.W1) + self.b1
        A1 = np.tanh(Z1)
        Z2 = np.dot(A1, self.W2) + self.b2
        A2 = np.softmax(Z2)

        return A2

    def backward(self, X, Y, A2):
        # 反向传播
        dZ2 = A2 - Y
        dW2 = np.dot(A1.T, dZ2)
        db2 = np.sum(dZ2, axis=0, keepdims=True)

        dZ1 = np.dot(dZ2, self.W2.T) * (1 - A1**2)
        dW1 = np.dot(X.T, dZ1)
        db1 = np.sum(dZ1, axis=0, keepdims=True)

        # 更新权重和偏置
        self.W1 -= 0.01 * dW1
        self.b1 -= 0.01 * db1
        self.W2 -= 0.01 * dW2
        self.b2 -= 0.01 * db2

    def train(self, X, Y, num_epochs=1000):
        # 训练
        for epoch in range(num_epochs):
            A2 = self.forward(X)
            self.backward(X, Y, A2)

    def predict(self, X):
        # 预测
        A2 = self.forward(X)
        return np.argmax(A2, axis=1)

# 使用示例
mlp = MLP(input_size=784, output_size=10)
mlp.train(X_train, Y_train, num_epochs=1000)
Y_pred = mlp.predict(X_test)