大模型突破：Linear Attention Transformer称霸，Softmax说再见！

2024-01-12 13:23:13

Softmax注意力的终结：迎接LAT线性注意力模型

在人工智能（AI）领域，大型语言模型（LLM）正以惊人的速度席卷着各种应用场景。这些模型依赖于一个关键机制：Softmax注意力。然而，随着LLM规模的不断扩大，Softmax的局限性也日益凸显，阻碍了LLM的进一步发展。

Softmax的困境

Softmax是一种计算注意力权重的机制，它用于决定模型在给定输入时关注哪些部分。虽然Softmax在小规模模型中表现良好，但在LLM庞大的参数空间中，它就会变得计算密集且训练缓慢。随着LLM规模的不断扩大，训练时间甚至会从几个月延长到几年。

LAT的革命性突破

2023年，上海人工智能实验室和OpenNLPLab联合团队推出了Linear Attention Transformer（LAT）模型，一举颠覆了这一局面。LAT摒弃了传统的Softmax注意力机制，采用了一种全新的线性注意力机制，在保持模型性能的同时大幅降低了计算成本。

线性注意力机制的原理

线性注意力机制本质上是一种加权平均。它通过一个线性投影将输入值映射到一个新的表示中，然后使用点积来计算注意力权重。与Softmax不同，线性注意力机制不需要昂贵的指数化和归一化操作，从而大大降低了计算复杂度。

代码示例：

import torch

def linear_attention(q, k, v):
  """
  计算线性注意力。

  参数：
    q: 查询向量 (B, Q, D)
    k: 键向量 (B, K, D)
    v: 值向量 (B, K, D)

  返回：
    注意力加权值 (B, Q, K)
  """

  # 计算注意力权重
  weights = torch.einsum("bqd, bkd->bqk", q, k)

  # 应用缩放因子
  weights = weights * (d_k ** -0.5)

  return weights

LAT的优势

与Softmax注意力相比，LAT具有以下优势：