通俗易懂解剖LSTM：图文解析、源码实践、必收藏

2024-01-23 10:35:39

前言

自上次探讨RNN以来已有一段时间了。起初，我有些抵触继续这个话题，但后来因为其他事务分心，而耽搁了。现在，让我们重拾这个话题，深入探讨LSTM（长短期记忆）网络，这是一种功能强大的循环神经网络，在自然语言处理和语音识别等领域有着广泛的应用。

理解LSTM：直观图解

想象一下LSTM单元是一个记忆块，它包含一个“细胞状态”和三个“门”，即输入门、忘记门和输出门。

细胞状态：长期记忆

细胞状态就像一条传送带，负责存储长期记忆。它贯穿LSTM单元，随着时间向前推移，将信息从一个时间步传递到另一个时间步。

输入门：选择新信息

输入门控制着新信息进入细胞状态。它接收当前输入和前一时间步的隐藏状态作为输入，然后输出一个0到1之间的值。这个值表示允许进入细胞状态的新信息的比例。

忘记门：忘记旧信息

忘记门控制着从细胞状态中丢弃旧信息。它也接收当前输入和前一时间步的隐藏状态作为输入，并输出一个0到1之间的值。这个值表示要从细胞状态中忘记的旧信息的比例。

输出门：生成输出

输出门控制着细胞状态中信息的输出。它接收当前输入和前一时间步的隐藏状态作为输入，然后输出一个0到1之间的值。这个值表示从细胞状态输出多少信息到当前隐藏状态。

源码实践：PyTorch实现LSTM

现在，让我们用PyTorch来实现一个简单的LSTM网络。

import torch
import torch.nn as nn

class LSTM(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers=1):
        super(LSTM, self).__init__()

        self.input_size = input_size
        self.hidden_size = hidden_size
        self.num_layers = num_layers

        self.lstm = nn.LSTM(input_size, hidden_size, num_layers)

    def forward(self, x):
        # x shape: (seq_len, batch, input_size)
        output, (h_n, c_n) = self.lstm(x)
        # output shape: (seq_len, batch, hidden_size)
        # h_n shape: (num_layers, batch, hidden_size)
        # c_n shape: (num_layers, batch, hidden_size)

        return output, (h_n, c_n)