文本分类的 PyTorch 实现：使用 TorchText 与 Transformer 探索情感分析

2024-01-15 00:32:39

在这个信息爆炸的时代，情感分析已成为企业和研究人员分析文本数据并从中提取有价值见解的宝贵工具。PyTorch 作为一种领先的深度学习框架，为开发文本分类模型提供了强大的平台。本文将探索利用 TorchText 和 Transformer 架构构建基于 PyTorch 的文本分类模型的复杂过程。

TorchText：文本处理的瑞士军刀

TorchText 是一个专门为 PyTorch 设计的自然语言处理 (NLP) 库。它提供了一系列功能，包括文本预处理、加载和迭代数据集，以及构建文本分类模型所需的其他工具。

Transformer：捕捉文本序列中的依赖关系

Transformer 架构以其在机器翻译和文本生成任务中的出色表现而闻名。它使用注意力机制有效地捕捉文本序列中单词之间的依赖关系。对于文本分类任务，Transformer 已被证明在提取文本特征和预测类别方面非常有效。

将 TorchText 与 Transformer 结合

我们的目标是构建一个文本分类模型，该模型可以对文本片段进行分类，例如正面或负面评论。我们使用 TorchText 预处理和加载数据集，然后使用 Transformer 架构构建分类模型。

数据预处理和加载

import torchtext
from torchtext.datasets import IMDB

train_data, test_data = IMDB.splits(root='.data')

text_field = torchtext.data.Field(lower=True, tokenize='spacy')
label_field = torchtext.data.LabelField(dtype=torch.float)

train_data, valid_data = train_data.split(random_state=SEED)

train_iterator, valid_iterator, test_iterator = torchtext.data.BucketIterator.splits(
    (train_data, valid_data, test_data), batch_size=BATCH_SIZE)

Transformer 模型架构

import torch
from torch import nn
from transformers import Transformer

model = Transformer(
    num_layers=NUM_LAYERS,
    hidden_size=HIDDEN_SIZE,
    num_heads=NUM_HEADS,
    dropout=DROPOUT
)

训练和评估

optimizer = torch.optim.Adam(model.parameters(), lr=LEARNING_RATE)

for epoch in range(NUM_EPOCHS):
    for batch in train_iterator:
        optimizer.zero_grad()
        logits = model(batch.text)
        loss = nn.BCEWithLogitsLoss()(logits, batch.label)
        loss.backward()
        optimizer.step()

    with torch.no_grad():
        train_acc = evaluate(model, train_iterator)
        valid_acc = evaluate(model, valid_iterator)

    print(f'Epoch {epoch+1}: Train acc {train_acc}, Valid acc {valid_acc}')