阿里云服务器安装nvidia驱动与cuda
在使用阿里云的linux GPU云服务器运行torch代码时,若需要安装并使用cuda,一定要注意是计算型实例还是虚拟化型实例,不同实例类型安装方式有所差异。
我对GPU虚拟化型实例直接按照普通安装方式进行驱动安装,发现无法使用。最后安装GRID解决问题(链接在下方)。
如果想要稳定解决问题建议按照官方文档进行操作,包括阿里云帮助文档以及NVIDIA文档。
以下是阿里云帮助文档对两种不同安装方式的说明:
GPU计算型实例支持安装NVIDIA官网提供的驱动(Tesla驱动),您可通过自动方式或手动方式安装Tesla驱动。
而对于GPU虚拟化型实例,NVIDIA官网并没有发布与虚拟化型实例匹配的驱动(GRID驱动),故您可通过预装镜像方式或云助手方式安装GRID驱动。
以下是链接:
-
NVIDIA driver:【国内】下载 NVIDIA 官方驱动 | NVIDIA或者【原网页】下载 NVIDIA 官方驱动 | NVIDIA
-
CUDA官方下载:CUDA Toolkit - Free Tools and Training | NVIDIA Developer
-
CUDA安装说明:CUDA 12.6 Update 2 Release Notes
-
cuDNN安装说明:Overview — NVIDIA cuDNN