解惑Hugging Face Bert权重警告：“部分权重未用”的原因与处理

2025-03-27 05:18:37

Hugging Face Transformers 解惑：为什么加载 BertModel 时提示“部分权重未初始化”？

写 PyTorch 代码，想用 Hugging Face Transformers 库加载个 bert-base-uncased 模型来做实体抽取？结果跑起来，控制台哗啦啦打出一堆信息，里面夹着这么一段，看着挺吓人：

Some weights of the model checkpoint at D:\Transformers\bert-entity-extraction\input\bert-base-uncased_L-12_H-768_A-12 were not used when initializing BertModel:    
['cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight',   'cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.bias',  
 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight',  
 'cls.predictions.bias']  
    - This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
    - This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).

遇到这情况，第一反应可能是：“糟了，模型没加载对？”、“代码是不是有 Bug？”、“下载的模型文件有问题？”。

先别慌！咱们来拆解一下这个提示信息到底说了啥，以及为啥会看到它。

问题现象

简单说，就是在用 Hugging Face 的 transformers 库，通过 BertModel.from_pretrained("bert-base-uncased")（或者指定本地路径）加载预训练模型时，程序输出了上面那段提示。提示信息里列出了一堆看起来像模型权重的名字（比如 cls.predictions..., cls.seq_relationship...），然后说这些权重在初始化 BertModel 时“没有被用到”。

后面还跟了两段解释：

如果你是从一个用于其它任务 或不同架构 的检查点（checkpoint）来初始化当前模型（比如用 BertForPreTraining 的检查点初始化 BertForSequenceClassification），那这现象是符合预期的 。
如果你期望加载的检查点和当前模型结构完全一样 （比如用 BertForSequenceClassification 的检查点初始化另一个 BertForSequenceClassification），那这现象就不符合预期 了。

提问者遇到的情况是用 BertModel 加载 bert-base-uncased 检查点，用于自定义的实体抽取（看起来像Token分类）任务。

原因剖析：这到底是不是个错误？

答案是：通常情况下，这不是一个错误，而是一个预料之中的提示信息。

为什么这么说？得从 bert-base-uncased 这类预训练模型的“出身”和 Hugging Face 的模型类设计说起。

预训练检查点的来源： 像 bert-base-uncased 这种基础模型，通常是 Google 或其他机构通过 预训练（Pre-training） 得到的。预训练的目标是让模型学习通用的语言知识。BERT 的经典预训练任务有两个：
- Masked Language Modeling (MLM): 遮盖掉输入句子中的某些词，让模型预测这些被遮盖的词。这需要一个“预测头”（Prediction Head）来输出词汇表大小的概率分布。
- Next Sentence Prediction (NSP): 给模型一对句子，让它判断第二句是不是第一句的原文下一句。这需要一个“分类头”（Classification Head）来做二分类。
为了完成这两个任务，预训练时的模型架构其实是 BertForPreTraining （或者类似的包含这两个头的结构）。当保存这个预训练好的模型状态时，检查点文件里自然就包含了 BERT 的主体部分（Transformer Encoder）的权重，以及 MLM 预测头和 NSP 分类头的权重。这些头的权重名字就是你在提示信息里看到的 cls.predictions.* 和 cls.seq_relationship.*。
Hugging Face 的 BertModel 类： 在 transformers 库里，BertModel 是一个基础类。它代表了 纯粹的 BERT 编码器结构 ，也就是那一堆 Transformer 层，负责将输入的 token 序列转换成上下文相关的向量表示（hidden states）。它 不包含 任何特定任务的输出层（比如分类头、问答头等）。
加载过程发生了什么？ 当你用 BertModel.from_pretrained("bert-base-uncased") 时：
- transformers 库找到了 bert-base-uncased 的检查点文件。
- 它尝试将检查点里的权重加载到你指定的 BertModel 实例中。
- BertModel 只有 BERT 主体部分的层，所以检查点里对应的权重（比如 encoder.layer.*, embeddings.* 等）被成功加载 了。
- 但是，检查点里还包含 MLM 和 NSP 头的权重 (cls.predictions.*, cls.seq_relationship.*)。BertModel 压根就没有这些层！
- 库函数很“诚实”地发现，这部分权重没地方放，于是就丢弃了它们，并打印出那段提示信息，告诉你：“嘿，检查点里有些东西我用不上，已经扔掉了。”
关键点： 这个过程完全符合提示信息里说的第一种情况——“从一个用于其它任务...的检查点来初始化当前模型”。你用的是预训练（包含 MLM, NSP 头）的检查点，来初始化一个只有基础编码器（BertModel）的模型。

所以，这个提示只是在告诉你：基础模型的权重已经加载好了，预训练时用的那几个任务头被丢弃了，因为你加载的 BertModel 类不需要它们。对于绝大多数下游任务（比如分类、实体抽取、问答等），我们本来就是要丢弃预训练头，换上适合自己任务的新头的。

如何处理这个“警告”？

既然知道了原因，处理起来就心中有数了。主要有以下几种思路：

方案一：理解并接受（推荐）

这是最常见也通常是最佳的处理方式。

原理和作用:
这个提示信息本身就是在确认你正在做一件很常规的事情：基于一个通用的预训练模型，来构建一个特定下游任务的模型。它告诉你，基础权重已经就位，你可以放心大胆地在 BertModel 的输出上添加你自己的任务层（就像提问者的 EntityModel 里做的那样，加了 nn.Linear 作为输出层）。
对于你的下游任务来说，预训练的 MLM 和 NSP 头本来就是无用的，丢弃它们是完全正确的。核心的语言理解能力已经通过加载基础权重传递过来了。
操作步骤:
啥也不用做！只要你确认你的代码逻辑是正确的（比如你确实打算用 BertModel 作为基础，然后在上面加自定义层），那就可以忽略这个提示。它不会影响模型的正常训练和推理。
提问者提供的 EntityModel 就是一个很好的例子。它内部使用了 self.bert = transformers.BertModel.from_pretrained(...)，然后在 forward 方法里取 self.bert 的输出 o1，再通过 Dropout 和 nn.Linear 得到最终的 tag 和 pos 输出。这个用法完全没问题，提示信息在这种情况下就是个背景说明。
安全建议/注意点:
唯一需要留意的是，确保你加载的基础权重确实是你想要的（比如 bert-base-uncased vs bert-large-uncased）。这个提示信息本身并不意味着加载过程出了错。

方案二：使用任务特定的模型类

Hugging Face 不仅提供了基础的 BertModel，还为很多常见任务提供了封装好的模型类，比如 BertForSequenceClassification（文本分类）、BertForTokenClassification（命名实体识别、词性标注等 Token 级别的分类）、BertForQuestionAnswering（问答）等等。

原理和作用:
这些 BertForXXX 类内部其实也包含了 BertModel，并且在 BertModel 的基础上，自动帮你添加了一个适合该任务的输出层（比如一个线性分类器）。
当你使用 BertForTokenClassification.from_pretrained("bert-base-uncased") 时，过程类似：
1. 加载 bert-base-uncased 检查点。
2. BertModel 部分的权重被加载。
3. MLM 和 NSP 头的权重被丢弃（所以，你通常还是会看到同样的提示信息！ ）
4. BertForTokenClassification 自带的那个新的 token 分类头（通常是一个线性层）会被 随机初始化 。
  这样做的好处是，代码可能更简洁，你不需要自己定义输出层和计算损失（库通常也帮你封装好了）。

代码示例 (以 Token 分类为例):

import transformers
import torch

# 假设 num_labels 是你的标签数量 (例如，对于实体抽取，可能是 BIO 标签的数量)
num_labels = 9 
model_name = "bert-base-uncased" 

# 加载 BertForTokenClassification 模型
# 传入 num_labels，这样它知道分类头应该有多少输出单元
model = transformers.BertForTokenClassification.from_pretrained(
    model_name, 
    num_labels=num_labels
)

# 假设你有准备好的 input_ids, attention_mask, token_type_ids 和 labels
# input_ids = ... (shape: batch_size, sequence_length)
# attention_mask = ... (shape: batch_size, sequence_length)
# token_type_ids = ... (shape: batch_size, sequence_length)
# labels = ... (shape: batch_size, sequence_length)

# 模型前向传播，可以直接返回 loss 和 logits
# outputs = model(input_ids=input_ids, 
#                 attention_mask=attention_mask, 
#                 token_type_ids=token_type_ids, 
#                 labels=labels)
# loss = outputs.loss
# logits = outputs.logits 

# 如果不提供 labels，只获取 logits
# outputs = model(input_ids=input_ids, 
#                 attention_mask=attention_mask, 
#                 token_type_ids=token_type_ids)
# logits = outputs.logits

# (这里省略了实际输入数据的构造)
print(f"成功加载 {model_name} 为 BertForTokenClassification")

注意，即使这样加载，你很可能还是会看到那个权重未初始化的提示！因为它依然是从预训练检查点加载基础 BERT，丢弃预训练头，然后添加新的任务头。

使用场景:
当你的任务正好符合 Hugging Face 提供的某个标准任务类型，并且你不需要非常复杂的自定义输出层或损失计算时，用对应的 BertForXXX 类会更方便。
进阶使用技巧:
from_pretrained 方法有一些有用的参数。比如 ignore_mismatched_sizes=True，在你加载一个检查点，但想调整分类头的大小（比如标签数量变了）时很有用。它会加载所有尺寸匹配的权重，并重新初始化尺寸不匹配的层（通常是最后的分类器）。这在迁移学习或调整模型结构时会用到。

方案三：加载匹配的检查点（特定场景）

什么情况下这个提示信息不会出现呢？当你加载的检查点和你的模型类结构完全匹配 时。

原理和作用:
假设你先用 BertModel 加载了预训练权重，然后在上面加了自己的层，训练了一段时间，然后你想保存只包含 BertModel 部分 的权重。你可以这样做：
```
# 假设 my_entity_model 是你的 EntityModel 实例
# 只保存基础 BertModel 部分的权重
my_entity_model.bert.save_pretrained("./my_bert_base_checkpoint") 
```
之后，如果你再用 BertModel.from_pretrained("./my_bert_base_checkpoint") 来加载，就不会有那个提示了。因为 ./my_bert_base_checkpoint 目录下保存的检查点文件只包含 BertModel 的权重，没有 MLM/NSP 头的权重了。
同理，如果你用 BertForTokenClassification 训练了一个模型，然后用 model.save_pretrained("./my_token_classifier_checkpoint") 保存了整个模型（包含分类头），再用 BertForTokenClassification.from_pretrained("./my_token_classifier_checkpoint") 加载回来，通常也不会有提示（前提是加载和保存时架构完全一致，比如标签数量没变）。
操作步骤/代码示例:
保存：model.save_pretrained("your_save_directory") (如果 model 是 BertForXXX 类型) 或 model.bert.save_pretrained("your_save_directory") (如果 model 是自定义类型，想只保存bert部分)。
加载：YourModelClass.from_pretrained("your_save_directory")。
使用场景:
这种方式主要用于：
- 保存和加载你训练过程中的中间状态 。
- 部署一个已经精调（fine-tuned）好 的模型。
- 分享一个只包含基础编码器 的模型权重。
  它不太适用于从 Hugging Face Hub 下载原始预训练模型 的场景，因为那些原始模型通常就是包含预训练头的。

方案四：(不推荐) 过滤或忽略警告

技术上讲，你确实可以用 Python 的 warnings 模块来压制这个特定的提示信息。

原理和作用:
Python 的 warnings 库允许你过滤掉特定类型或内容的警告信息，让它们不显示在控制台上。

代码示例:

import warnings
from transformers import logging

# 方法一：完全禁用 transformers 的日志 (比较粗暴)
# logging.set_verbosity_error() 

# 方法二：使用 warnings 模块过滤 (更精细，但仍不推荐用于此场景)
# 你需要找到警告信息的具体文本，精确匹配可能会比较脆弱
# warning_message = "Some weights of the model checkpoint" 
# warnings.filterwarnings("ignore", message=warning_message)

# 在这里执行你的 from_pretrained 调用
# import transformers
# model = transformers.BertModel.from_pretrained("bert-base-uncased") 

# (如果用了 filterwarnings) 之后可以考虑恢复默认设置
# warnings.resetwarnings() 
# (如果用了 set_verbosity_error) 之后可以考虑恢复
# logging.set_verbosity_info()

安全建议/强烈不推荐理由:
极其不推荐 用这种方法来“解决”这个问题。为什么？
1. 治标不治本: 这个提示信息是有用的，它解释了权重加载的情况。把它藏起来并不能改变事实。
2. 可能隐藏真正的问题: 如果你广泛地禁用警告，万一将来遇到了一个真正指示严重问题的警告（比如模型加载失败、数据有问题等），你也可能因为禁用了警告而错过它，导致更难排查的错误。
3. 代码可维护性降低: 别人（或者未来的你）看到被压制的警告，可能会不清楚为什么这里需要特殊处理。
理解警告的含义并确认它是良性的（就像这个例子中一样），比盲目地把它隐藏起来要好得多。

针对提问者代码的补充说明

回顾一下提问者的代码。他定义了一个 EntityModel，里面包含 BertModel，并且在 forward 方法里，他取了 BertModel 的输出，然后接了两个 Dropout 和两个 Linear 层，分别用于 tag (实体标签) 和 pos (词性标签？) 的预测，最后还自定义了损失计算。

这个做法完全没问题！这正是直接使用 BertModel 的典型场景：当你需要构建一个比标准 BertForXXX 类更复杂或具有特定结构的输出头时。

在这种情况下，加载 BertModel 时看到的那个权重未初始化的提示，正如我们分析的，是完全预期且无害的 。基础 BERT 的权重已经正确加载，可以为后续的自定义层提供强大的特征表示。代码可以照常运行，模型可以正常训练。

总而言之，下次再看到 Hugging Face Transformers 报这个“Some weights ... were not used...”的提示时，先淡定。检查一下你加载的模型类 (BertModel, BertForSequenceClassification 等) 和你使用的检查点来源 (bert-base-uncased 这样的预训练模型，还是你自己保存的精调模型)。只要你是从预训练检查点初始化一个基础模型或者带新头的下游任务模型，这个提示大概率只是在跟你打个招呼，告诉你它聪明地帮你处理好了权重匹配和丢弃的问题。