attention 总结的补充

2023-08-17 22:50:40

注意力机制：自然语言处理中的关键技术

在自然语言处理（NLP）的广阔领域，注意力机制已迅速成为一项不可或缺的技术，它使模型能够专注于输入序列中的相关部分。这种能力对于各种 NLP 任务至关重要，例如机器翻译、文本摘要和命名实体识别。

注意力机制的理论基础

注意力机制的核心思想是使用一个称为“注意力向量”的向量，其中每个元素代表模型对输入序列中相应位置的重视程度。这个注意力向量可以通过多种方式计算，最常见的方法是使用“点积注意力”。在这种方法中，注意力向量是通过计算输入序列和查询向量的点积得到的，其中查询向量表示模型正在寻找的信息。

一旦计算出注意力向量，就可以用来对输入序列进行加权。通过将注意力向量与输入序列相乘，生成加权输入，从而使模型更加关注被赋予高权重的部分。

注意力机制的变体

近年来，注意力机制出现了许多变体，每种变体都有自己独特的优点和缺点。一些最流行的变体包括：

缩放点积注意力： 这是一种较简单的变体，对注意力向量进行缩放，以使其值介于 0 和 1 之间，从而稳定训练过程并防止模型过度关注某些部分。
多头注意力： 这种变体使用多个不同的“头”来计算注意力向量，每个头都有自己的权重，允许模型从输入序列的不同方面获取信息。多头注意力通常比缩放点积注意力更有效，因为它可以捕捉更复杂的语义关系。
因果注意力： 这种变体仅允许模型关注在查询向量之前出现的输入部分，这对于需要生成序列数据的任务（如机器翻译和文本摘要）非常有用，因为它可以防止模型在生成输出时“窥探”未来。

代码示例

以下是用 PyTorch 实现缩放点积注意力、多头注意力和因果注意力的代码示例：

import torch
import torch.nn as nn

class ScaledDotProductAttention(nn.Module):
    def __init__(self, d_k):
        super().__init__()
        self.d_k = d_k

    def forward(self, query, key, value):
        scores = torch.matmul(query, key.transpose(-2, -1)) / self.d_k ** 0.5
        attn = torch.softmax(scores, dim=-1)
        output = torch.matmul(attn, value)
        return output

class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, n_heads):
        super().__init__()
        self.d_model = d_model
        self.n_heads = n_heads
        self.d_k = d_model // n_heads

        self.wq = nn.Linear(d_model, d_model)
        self.wk = nn.Linear(d_model, d_model)
        self.wv = nn.Linear(d_model, d_model)

        self.attn = ScaledDotProductAttention(self.d_k)

    def forward(self, query, key, value):
        batch_size = query.size(0)

        q = self.wq(query)
        k = self.wk(key)
        v = self.wv(value)

        q = q.reshape(batch_size, -1, self.n_heads, self.d_k)
        k = k.reshape(batch_size, -1, self.n_heads, self.d_k)
        v = v.reshape(batch_size, -1, self.n_heads, self.d_k)

        attn_output = self.attn(q, k, v)

        attn_output = attn_output.reshape(batch_size, -1, self.d_model)
        return attn_output

class CausalAttention(nn.Module):
    def __init__(self, d_model, n_heads):
        super().__init__()
        self.d_model = d_model
        self.n_heads = n_heads
        self.d_k = d_model // n_heads

        self.wq = nn.Linear(d_model, d_model)
        self.wk = nn.Linear(d_model, d_model)
        self.wv = nn.Linear(d_model, d_model)

        self.attn = ScaledDotProductAttention(self.d_k)

    def forward(self, query, key, value):
        batch_size = query.size(0)

        q = self.wq(query)
        k = self.wk(key)
        v = self.wv(value)

        q = q.reshape(batch_size, -1, self.n_heads, self.d_k)
        k = k.reshape(batch_size, -1, self.n_heads, self.d_k)
        v = v.reshape(batch_size, -1, self.n_heads, self.d_k)

        attn_output = self.attn(q, k, v)

        attn_output = attn_output.reshape(batch_size, -1, self.d_model)
        return attn_output