Azure OpenAI GPT-3.5 Turbo 微调教程：助力你在 Azure 上打造专属语言模型

2023-03-19 12:14:27

用 Azure OpenAI GPT-3.5 Turbo 微调释放自然语言处理 (NLP) 的力量

简介

自然语言处理 (NLP) 正在各行各业掀起一场革命，而预训练语言模型 (PLM) 在其中扮演着至关重要的角色。在众多 PLM 中，Azure OpenAI GPT-3.5 Turbo 以其卓越的文本生成、代码生成、问答等能力脱颖而出。为了充分发挥 GPT-3.5 Turbo 的潜力，我们可以对模型进行微调，使其适应特定的任务或领域。本文将指导你逐步完成 Azure 平台上的 GPT-3.5 Turbo 微调过程，助你解锁 NLP 的无限可能。

准备工作

踏上微调之旅之前，需要做好以下准备：

Azure 订阅
Azure Machine Learning 工作区
GPT-3.5 Turbo 模型（可在 Azure OpenAI 服务中找到）
微调数据集（包含与你希望微调任务相关的数据）
微调脚本（一个用于微调模型的 Python 脚本）

步骤 1：创建 Azure Machine Learning 环境

Azure Machine Learning 环境是微调脚本运行的平台。

登录 Azure 门户。
选择 "Azure Machine Learning"。
创建或选择一个工作区。
在 "计算" 部分下，创建一个新的计算实例，选择 "Azure Machine Learning 计算" 和合适的虚拟机大小。

步骤 2：上传数据到 Azure Machine Learning 数据存储

将微调数据集上传到 Azure Machine Learning 数据存储中。

在 Azure 门户中，选择你的工作区。
选择 "数据存储"。
单击 "上传"，然后选择你的微调数据集文件。

步骤 3：编写微调脚本

使用以下代码创建一个微调脚本：

from azureml.core import Workspace, Dataset
from azureml.train.automl import AutoMLConfig
from azureml.train.automl.run import AutoMLRun

# 获取工作区
workspace = Workspace.from_config()

# 加载微调数据集
dataset = Dataset.get_by_name(workspace, name="微调数据集")

# 创建微调配置
automl_config = AutoMLConfig(task="text_classification",
                            primary_metric="accuracy",
                            training_data=dataset,
                            model_explainability=True)

# 创建微调运行
automl_run = AutoMLRun(experiment_name="微调实验",
                        automl_config=automl_config,
                        resource_configuration="Standard_DS3_v2")

# 启动微调运行
automl_run.submit(show_output=True)

# 等待微调运行完成
automl_run.wait_for_completion(show_output=True)

# 获取微调模型
model = automl_run.get_output_model()

# 保存微调模型
model.save("微调模型.pkl")