返回

Azure Machine Learning 数据集创建执行挂起:如何快速解决?

python

Azure Machine Learning 数据集创建挂起:解决指南

在 Azure Machine Learning (Azure ML) 中创建数据集是一个常见的任务,但有时你可能会遇到一个令人沮丧的问题:执行挂起,永远无法完成。这可能是由于多个原因造成的,包括网络问题、身份验证问题、数据格式不兼容和数据量太大。

网络问题

确保你的 Azure ML 实例可以访问数据存储。检查出站规则是否已配置为使用私有端点。你可以使用 SSH 连接到 Azure ML 实例并使用以下命令解析数据存储的 URL:

nslookup <data_store_url>

确保它解析为私有 IP 地址。

身份验证问题

验证你是否具有访问数据存储的适当权限。确保已将服务主体添加到数据存储的访问控制列表 (ACL)。

数据格式不兼容

确保数据存储中的文件为 CSV、parquet 或其他 Azure ML 支持的格式。如果不兼容,Azure ML 将无法创建数据集。

数据量太大

如果数据量过大,创建数据集的过程可能需要很长时间才能完成。尝试分批处理数据并创建多个数据集。

其他解决方法

  • 使用 Datastore.download() 方法下载文件并从本地创建数据集。
  • 联系 Azure 支持以获得帮助。

示例代码

以下示例代码展示了如何分批处理数据并创建多个数据集:

import azureml.core
from azureml.core import Workspace, Datastore, Dataset

ws = Workspace.from_config()

datastore = Datastore.get(ws, datastore_name='blobs')

# 分批处理数据(可选)
data_path = [
    (datastore, "contacts_part1.csv"),
    (datastore, "contacts_part2.csv"),
    (datastore, "contacts_part3.csv"),
]

datasets = []
for path in data_path:
    dataset = Dataset.File.from_files(path=path)
    datasets.append(dataset)

# 合并数据集
combined_dataset = Dataset.concatenate(datasets)

结论

通过解决网络连接、身份验证、数据格式和数据大小的问题,你可以解决 Azure ML 数据集创建挂起的问题。请记住,如果上述步骤无法解决问题,请随时联系 Azure 支持以获得帮助。

常见问题解答

  1. 为什么我的 Azure ML 数据集创建挂起?

    这可能是由于网络问题、身份验证问题、数据格式不兼容或数据量太大。

  2. 我该如何解决网络问题?

    检查出站规则是否已配置为使用私有端点。

  3. 我如何验证我的身份验证权限?

    确保已将服务主体添加到数据存储的访问控制列表 (ACL)。

  4. 我该如何处理数据格式不兼容?

    确保数据存储中的文件为 CSV、parquet 或其他 Azure ML 支持的格式。

  5. 我该如何处理数据量太大?

    尝试分批处理数据并创建多个数据集。