Kubernetes混合GPU架构下GPU访问失败怎么办？

2024-08-01 14:54:10

Kubernetes 混合GPU架构下间歇性GPU访问问题解析

在 Kubernetes 集群中使用 GPU 资源为机器学习等高性能计算任务提供加速，已经成为一种常见做法。然而，在管理本地 Kubernetes GPU 集群，特别是混合使用不同架构的 GPU 时，你是否遇到过 GPU 资源间歇性访问失败的困扰？想象一下，你正准备用 RTX 4090 和 RTX A6000 混合搭建的集群训练模型，却频繁出现 GPU 利用率异常，甚至整个工作节点都无法访问 GPU 的情况，这无疑会极大地影响工作效率。

本文将深入剖析这一问题背后的根源，并提供一套完整的解决方案，帮助你打造稳定可靠的 GPU 集群环境。

问题现象

你已经做足了准备工作：正确安装了 NVIDIA 驱动程序、NVIDIA Docker 和 GPU Operator 等组件，满心期待地运行 GPU Pod，却发现事情并非想象中顺利。有时 GPU 利用率异常，有时甚至整个工作节点都无法访问 GPU，查看日志，你可能会看到这样的错误信息：

NVML: Driver/library version mismatch

这条错误信息意味着 NVIDIA Management Library (NVML) 检测到驱动程序和库版本不匹配。简单来说，就是系统中可能存在多个版本的 NVIDIA 驱动程序，而当前加载的版本与应用程序期望的版本不一致，导致访问冲突，GPU 资源自然也就无法正常使用了。

问题根源

那么，为什么会出现这种驱动版本不匹配的情况呢？这通常与以下几个因素密切相关：

自动更新机制 : Ubuntu 等 Linux 发行版通常默认启用自动更新，这可能导致 NVIDIA 驱动程序在没有重启系统的情况下被更新。由于新旧版本驱动程序的内核模块可能存在冲突，进而引发 GPU 访问问题。
混合GPU架构 : RTX 4090 和 RTX A6000 分别代表了 NVIDIA 最新一代的游戏卡和专业卡架构，它们对驱动程序的要求可能有所不同。当集群中存在多种架构的 GPU 时，自动更新机制可能会安装不兼容的驱动程序版本，加剧了版本冲突的风险。
内核模块冲突 : 内核模块是操作系统内核和硬件设备之间的桥梁。如果系统中存在多个版本的 NVIDIA 内核模块，而当前加载的模块与应用程序期望的版本不一致，同样会导致 NVML: Driver/library version mismatch 错误。

解决方案

为了解决这个问题，我们需要采取一系列措施，确保系统中只存在一个版本的 NVIDIA 驱动程序，并且该版本与所有 GPU 架构兼容：

禁用 NVIDIA 驱动程序的自动更新 :
- 首先，我们需要防止系统自动更新 NVIDIA 驱动程序，避免再次出现版本冲突。
- 打开 apt 的配置文件：
```
sudo vi /etc/apt/apt.conf.d/50unattended-upgrades
```
- 在文件中添加以下内容，将 NVIDIA 相关的软件包添加到自动更新黑名单中：
```
// Python regular expressions, matching packages to exclude from upgrading
Unattended-Upgrade::Package-Blacklist {
   "nvidia-";
   "libnvidia-";
};
```
- 保存文件后，运行以下命令使更改生效：
```
sudo dpkg-reconfigure unattended-upgrades
```
清理已有 NVIDIA 驱动程序 :
- 为了彻底解决版本冲突问题，我们需要清理系统中已有的 NVIDIA 驱动程序和相关文件，为安装新版本做好准备。
- 执行以下命令进行清理：
```
sudo apt-get purge nvidia-* libnvidia-*
```
安装最新稳定版 NVIDIA 驱动程序 :
- 从 NVIDIA 官网下载适用于你所使用的操作系统和 GPU 型号的最新稳定版驱动程序。
- 安装过程中，选择“自定义安装”选项，并确保勾选“Clean Install”选项，以清除之前安装的所有残留文件，保证安装的干净彻底。
重启系统 :
- 安装完成后，重启系统以使新的驱动程序生效。
验证安装 :
- 重启后，运行 nvidia-smi 命令验证驱动程序是否已正确安装，并检查 GPU 是否能够正常识别。

预防措施

为了避免再次遇到类似问题，建议采取以下预防措施：

定期检查内核模块 :
- 使用 dkms status 命令定期检查系统中是否存在多个版本的 NVIDIA 内核模块。
- 如果发现多个版本，使用 sudo dkms remove nvidia/<版本号> --all 命令删除旧版本，只保留最新的版本。
谨慎升级系统内核 :
- 升级系统内核后，务必重新安装 NVIDIA 驱动程序，以确保兼容性，避免出现内核模块与驱动程序不匹配的情况。

总结

在 Kubernetes 混合 GPU 架构下，驱动程序的版本管理至关重要。通过禁用 NVIDIA 驱动程序的自动更新、定期检查和清理内核模块，并谨慎升级系统内核，可以有效避免 GPU 资源访问问题，提升集群的稳定性和可靠性，让你可以更加专注于机器学习等高性能计算任务本身，而不必再为底层硬件资源的稳定性担忧。