轻松驯服巨型语言模型：LoRA 强势出击，单 GPU 驯服百亿参数 LLM

人工智能

2023-06-13 10:33:34

LoRA：释放大语言模型真正潜力的创新方法

什么是 LoRA？

想象一下一个魔法棒，可以显着缩短大语言模型 (LLM) 的训练时间，降低其计算成本，同时还能提升其性能。这就是 LoRA（Low-Rank Adaptation of Large Language Models）的作用。

LoRA 是一种创新技术，可将 LLM 的权重分解为两个低秩矩阵。微调过程中，仅更新这两个低秩矩阵，从而大幅减少了需要更新的参数数量。这就好比将一个巨大的拼图简化为两个较小的拼图，可以更轻松、更快速地组装。

LoRA 的工作原理

LoRA 的运作原理很简单：

矩阵分解： 将 LLM 的权重矩阵分解为 U 和 V 两个低秩矩阵。
微调： 在微调过程中，只对 U 和 V 矩阵进行更新，而保持 LLM 的其余权重不变。
更少的参数： 由于 U 和 V 矩阵的秩较低，因此需要更新的参数数量也大幅减少。

LoRA 的优势

LoRA 的优势显而易见：

训练速度更快： 通过减少需要更新的参数数量，LoRA 可以将 LLM 的训练时间缩短数周甚至数月。
计算成本更低： 由于训练所需的计算量较小，LoRA 可以节省大量的计算成本。
泛化能力更强： 尽管参数较少，但 LoRA 微调的 LLM 在各种任务上的性能却有所提升。

真实案例

为了展示 LoRA 的强大功能，研究人员使用 LoRA 在单 GPU 上微调了一个拥有 110 亿参数的 LLM。结果令人惊叹：

训练时间缩短： 将训练时间从数周缩短到几天。
性能提升： LLM 在语言生成、问答和其他任务方面的性能都得到了提升。
低计算成本： 仅在单 GPU 上完成训练，大幅节省了计算成本。

代码示例

以下代码示例展示了如何使用 LoRA 微调 LLM：

import lora
import torch

# 加载 LLM
model = torch.hub.load('huggingface/transformers', 'model_name')

# 创建 LoRA 适配器
adapter = lora.LoRAAdapter(model)

# 微调 LLM
optimizer = torch.optim.Adam(adapter.parameters())
for epoch in range(10):
    for batch in train_data:
        loss = model(batch)
        loss.backward()
        optimizer.step()