解决炼丹师养成之路遇到的各种报错与避坑记录

2023-12-04 22:23:25

作为一名炼丹师，在使用PyTorch和深度学习探索炼金术世界时，难免会遇到各种报错和陷阱。本文将深入探讨这些棘手的障碍，并提供全面的解决方案，帮助你踏上顺利的炼丹之路。

问题一：RuntimeError: Address already in use

症状： 当你启动PyTorch程序时，突然遭遇“RuntimeError: Address already in use”的报错，仿佛炼丹炉中的药鼎已被占用。

解决方案：

检查端口占用：
使用命令 netstat -an | grep <port_number> 查看端口占用情况。
关闭占用进程：
使用命令 kill -9 <PID> 关闭占用端口的进程，释放资源。
更改端口设置：
在PyTorch程序中，使用环境变量 CUDA_VISIBLE_DEVICES=<gpu_id> 更改端口，例如 CUDA_VISIBLE_DEVICES=0 将程序分配到GPU 0。
详细输出调试信息：
设置环境变量 TORCH_DISTRIBUTED_DEBUG=DETAIL，让PyTorch输出详细的分布式设置信息，帮助你识别端口占用情况。
更新或重装：
尝试更新PyTorch或重新安装显卡驱动程序，解决潜在的系统问题。

症状： 炼丹过程中，GPU内存告急，PyTorch发出“RuntimeError: cuda runtime error (2)”的警示，仿佛炼丹炉内灵药沸腾，将炉鼎撑破。

解决方案：

检查GPU内存：
使用命令 nvidia-smi 查看GPU内存占用情况。
减少内存消耗：
调整模型大小、训练集规模、批次大小，或使用低精度数据类型（如float16或int8）减少内存需求。
更新驱动程序：
尝试更新显卡驱动程序，提升GPU性能。
设置环境变量：
在PyTorch程序中，设置环境变量 CUDA_LAUNCH_BLOCKING=1，让PyTorch等待GPU内存释放后再分配，避免报错。
重启程序或重装：
重新启动PyTorch程序或重新安装PyTorch、显卡驱动程序，排除系统故障。

症状： 使用PyTorch的DataLoader时，炼丹工人（进程）突然被“RuntimeError: DataLoader worker (pid=XXX) is killed by signal: Killed”无情击杀，阻碍炼丹进程。

解决方案：

检查进程状态：
使用命令 ps aux | grep 'python' | grep 'DataLoader' 查看worker进程状态。
重启程序：
重新启动PyTorch程序，重新创建worker进程。
增加进程数：
在PyTorch程序中，使用代码 dataloader = DataLoader(dataset, num_workers=4) 增加worker进程数量。
优化资源分配：
worker进程数量不得超过CPU核心数量，否则可能导致进程被杀。
更新或重装：
更新PyTorch或重新安装显卡驱动程序，解决潜在的系统问题。