大语言模型训练成本再降一半！新加坡国立大学优化器成革命性突破

人工智能

2023-07-16 11:43:59

大语言模型训练成本的重大突破：AdaBelief优化器

大语言模型（LLM）：NLP 领域的革命性工具

近年来，大语言模型（LLM）以其在自然语言处理（NLP）领域的杰出表现而备受瞩目。从生成引人入胜的内容到翻译语言，LLM 已成为各种任务不可或缺的工具。然而，LLM 的训练成本一直是一个重大挑战。

训练 LLM 的昂贵困境

LLM 的训练需要大量资源，包括内存和计算能力。由于这些模型包含数十亿甚至数千亿个参数，因此在训练过程中需要在内存中存储它们。随着模型的不断更新，内存消耗也不断增加。这导致训练成本飙升，使许多研究人员和企业难以负担。

新加坡国立大学的突破：AdaBelief 优化器

新加坡国立大学的研究人员最近开发了一种名为 AdaBelief 的创新优化器，解决了 LLM 训练中的高内存消耗问题。AdaBelief 通过采用一种新的梯度计算方法，将内存消耗减半，同时不影响性能。

AdaBelief 优化器的工作原理

传统优化器在计算梯度时需要将整个模型存储在内存中。相比之下，AdaBelief 使用了一种称为“记忆池”的技术，该技术仅存储模型的局部信息。这大大减少了内存消耗，从而降低了训练成本。

实践中的验证

为了证明 AdaBelief 优化器的有效性，研究人员使用该优化器训练了一个 LLM。该模型在各种 NLP 任务上的表现与使用传统优化器训练的模型相当，但训练成本却降低了近一半。

AdaBelief 优化器的意义

AdaBelief 优化器的开发是一个重大的突破，它将大幅降低 LLM 的训练成本。这将使更多的研究人员和企业能够负担得起 LLM 的训练，从而加速模型开发和 NLP 领域的进步。

代码示例：使用 AdaBelief 优化器训练 LLM

import transformers

# 创建一个 LLM 模型
model = transformers.AutoModelForSeq2SeqLM.from_pretrained("bert-base-uncased")

# 使用 AdaBelief 优化器
optimizer = transformers.AdaBeliefOptimizer(
    model.parameters(), lr=5e-5, eps=1e-8, betas=(0.9, 0.999), weight_decay=0.0
)

# 训练模型
for epoch in range(10):
    # 训练逻辑
    # ...

    # 更新模型参数
    optimizer.step()