LSTM：人人都能看懂的神经网络大解惑

人工智能

2023-02-04 19:18:34

LSTM：揭秘神经网络的时序记忆利器

1. RNN 的局限：LSTM 的诞生契机

递归神经网络 (RNN) 擅长处理时序数据，但它们在处理长序列时面临着挑战。随着时间的推移，梯度会消失或爆炸，阻碍网络学习长期依赖关系。为了解决这些问题，长短期记忆网络 (LSTM) 应运而生。

2. LSTM 的结构：层层递进的记忆机制

LSTM 是一种特殊类型的 RNN，它引入了记忆单元来存储长期信息。记忆单元由以下几个门组成：

输入门： 控制新信息的流入。
遗忘门： 控制旧信息的遗忘。
输出门： 控制记忆单元信息的输出。

通过这些门，LSTM 可以有效地学习长期依赖关系，避免梯度消失或爆炸的问题。

3. LSTM 的核心思想：记忆的艺术

LSTM 的核心思想是通过遗忘门和输入门来控制信息的流入和遗忘，从而实现长期信息的记忆。在每个时间步，LSTM 会计算出一个新的记忆单元，并将它与前一个时间步的记忆单元结合起来，最终输出当前时间步的结果。这种层层递进，层层记忆的方式，使 LSTM 能够有效地处理序列数据。

4. LSTM 的计算过程：揭开神秘面纱

LSTM 的计算过程包括以下几个步骤：

计算输入门： 决定哪些新信息会被存储到记忆单元中。
计算遗忘门： 决定哪些旧信息会被从记忆单元中遗忘。
计算记忆单元： 存储着当前时间步的信息，并将其传递给下一个时间步。
计算输出门： 决定哪些记忆单元信息会被输出到网络的其余部分。

代码示例：

import numpy as np

class LSTMCell:
    def __init__(self, input_size, hidden_size):
        self.input_size = input_size
        self.hidden_size = hidden_size

        # Initialize weights and biases
        self.W_i = np.random.randn(input_size + hidden_size, hidden_size)
        self.W_f = np.random.randn(input_size + hidden_size, hidden_size)
        self.W_o = np.random.randn(input_size + hidden_size, hidden_size)
        self.W_c = np.random.randn(input_size + hidden_size, hidden_size)

        self.b_i = np.zeros((1, hidden_size))
        self.b_f = np.zeros((1, hidden_size))
        self.b_o = np.zeros((1, hidden_size))
        self.b_c = np.zeros((1, hidden_size))

    def forward(self, x, h_prev, c_prev):
        # Calculate the gates
        i = sigmoid(np.dot(np.concatenate((x, h_prev)), self.W_i) + self.b_i)
        f = sigmoid(np.dot(np.concatenate((x, h_prev)), self.W_f) + self.b_f)
        o = sigmoid(np.dot(np.concatenate((x, h_prev)), self.W_o) + self.b_o)

        # Calculate the new memory cell
        c = np.tanh(np.dot(np.concatenate((x, h_prev)), self.W_c) + self.b_c)

        # Update the memory cell
        c_new = f * c_prev + i * c

        # Calculate the new hidden state
        h_new = o * np.tanh(c_new)

        return h_new, c_new