Transformer 中 Mask 的那些事

人工智能

2023-01-04 09:33:46

Transformer 中 Mask 的精彩世界

简介

Transformer 模型在自然语言处理 (NLP) 领域掀起了一场革命，而 Mask 正是推动这一变革的关键因素。受完形填空任务的启发，Mask 为 Transformer 提供了一种选择性地关注特定信息的独特能力。

Mask 的起源：完形填空与因果关系

想象一下一个完形填空练习，其中需要猜测缺失的单词。Mask 的灵感正是来源于此。它让 Transformer 模型专注于句子中的特定单词，忽略不相关的信息，就像你在完形填空练习中做的那样。

Transformer 中的 Mask 还肩负着另一种重要使命：确保因果关系。编码阶段，模型需要理解单词之间的关系。Mask 会屏蔽未来单词，迫使模型仅关注当前位置前后，从而形成因果理解。

Mask 的工作原理：自注意力与并行计算

Mask 与 Transformer 中的自注意力机制相辅相成。自注意力允许模型专注于自身的不同部分。在编码阶段，Mask 掩盖了未来信息，只留下当前位置的前后信息。这样，模型就能专注于单词之间的关系，形成对句子的理解。

解码阶段，Mask 的作用更复杂。模型需要逐字生成句子。为了避免看到未来生成的单词，Mask 掩盖了这些信息。因此，模型只能利用现有单词的信息来生成下一个单词。

Mask 的巧妙之处不仅在于提高了模型性能，还使并行计算成为可能。由于 Mask 屏蔽了未来信息，因此不同位置的单词可以同时处理。这极大地提高了计算效率，使模型能够应对更长的句子和更复杂的挑战。

代码示例

以下 Python 代码展示了如何在 Transformers 库中使用 Mask：

from transformers import BertTokenizer, BertModel

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
model = BertModel.from_pretrained("bert-base-uncased")

text = "My name is Transformer."

input_ids = tokenizer(text, return_tensors="pt").input_ids

# 创建 attention mask，屏蔽未来单词
attention_mask = torch.ones_like(input_ids)
attention_mask[:, :, :, :5] = 0

outputs = model(input_ids=input_ids, attention_mask=attention_mask)