Azure Machine Learning 数据集创建执行挂起:如何快速解决?
2024-03-18 11:37:09
Azure Machine Learning 数据集创建挂起:解决指南
在 Azure Machine Learning (Azure ML) 中创建数据集是一个常见的任务,但有时你可能会遇到一个令人沮丧的问题:执行挂起,永远无法完成。这可能是由于多个原因造成的,包括网络问题、身份验证问题、数据格式不兼容和数据量太大。
网络问题
确保你的 Azure ML 实例可以访问数据存储。检查出站规则是否已配置为使用私有端点。你可以使用 SSH 连接到 Azure ML 实例并使用以下命令解析数据存储的 URL:
nslookup <data_store_url>
确保它解析为私有 IP 地址。
身份验证问题
验证你是否具有访问数据存储的适当权限。确保已将服务主体添加到数据存储的访问控制列表 (ACL)。
数据格式不兼容
确保数据存储中的文件为 CSV、parquet 或其他 Azure ML 支持的格式。如果不兼容,Azure ML 将无法创建数据集。
数据量太大
如果数据量过大,创建数据集的过程可能需要很长时间才能完成。尝试分批处理数据并创建多个数据集。
其他解决方法
- 使用
Datastore.download()
方法下载文件并从本地创建数据集。 - 联系 Azure 支持以获得帮助。
示例代码
以下示例代码展示了如何分批处理数据并创建多个数据集:
import azureml.core
from azureml.core import Workspace, Datastore, Dataset
ws = Workspace.from_config()
datastore = Datastore.get(ws, datastore_name='blobs')
# 分批处理数据(可选)
data_path = [
(datastore, "contacts_part1.csv"),
(datastore, "contacts_part2.csv"),
(datastore, "contacts_part3.csv"),
]
datasets = []
for path in data_path:
dataset = Dataset.File.from_files(path=path)
datasets.append(dataset)
# 合并数据集
combined_dataset = Dataset.concatenate(datasets)
结论
通过解决网络连接、身份验证、数据格式和数据大小的问题,你可以解决 Azure ML 数据集创建挂起的问题。请记住,如果上述步骤无法解决问题,请随时联系 Azure 支持以获得帮助。
常见问题解答
-
为什么我的 Azure ML 数据集创建挂起?
这可能是由于网络问题、身份验证问题、数据格式不兼容或数据量太大。
-
我该如何解决网络问题?
检查出站规则是否已配置为使用私有端点。
-
我如何验证我的身份验证权限?
确保已将服务主体添加到数据存储的访问控制列表 (ACL)。
-
我该如何处理数据格式不兼容?
确保数据存储中的文件为 CSV、parquet 或其他 Azure ML 支持的格式。
-
我该如何处理数据量太大?
尝试分批处理数据并创建多个数据集。