安装 NVIDIA Tesla 驱动
最近更新时间: 2024-10-17 17:10:00
操作场景
GPU 云服务器正常工作需提前安装正确的基础设施软件,对 NVIDIA 系列 GPU 而言,有以下两个层次的软件包需要安装:
驱动 GPU 工作的硬件驱动程序。
上层应用程序所需要的库。
本文以 CentOS 操作系统为例,介绍如何安装 Tesla Driver。
操作步骤
Linux 驱动安装
Linux 驱动安装采用 Shell 脚本安装方式,适用于任何 Linux 发行版,包括 CentOS,Ubuntu 等。
NVIDIA Tesla GPU 的 Linux 驱动在安装过程中需要编译 kernel module,系统需提前安装 gcc 和编译 Linux Kernel Module 所依赖的包,例如kernel-devel-$(uname -r)
等。
执行以下命令,检查当前系统中是否已安装 dkms。
rpm -qa | grep -i dkms
返回结果如下,则表示已安装 dkms。
如未安装 dkms,则执行以下命令进行安装。
sudo yum install -y dkms
登录 NVIDIA 驱动下载 或访问 https://www.nvidia.cn/Download/index.aspx?lang=cn。
根据实例操作系统及 GPU 规格,选择操作系统和安装包。
单击 搜索 搜寻驱动,选择要下载的驱动版本。
注意: 操作系统(Operating System)选择 Linux 64-bit 即表示下载 shell 安装文件。如果选择具体的发行版,则下载的文件是对应的包安装文件。
- 选择特定的版本进入下载页面,单击 下载。
- 如有填写个人信息的页面可选择直接跳过,当出现以下页面时,右键单击 下载 并选择菜单中的 复制链接地址。
参考使用标准方式登录 Linux 实例(推荐),登录 GPU 实例。您也可以根据实际操作习惯,选择其他不同的登录方式:
使用远程登录软件登录 Linux 实例
使用 SSH 登录 Linux 实例
使用wget命令, 粘贴 步骤6 中已获取的链接地址,下载安装包。
或者您可在本地系统下载 NVIDIA 安装包,再上传到 GPU 实例的服务器。
执行以下命令,对安装包添加执行权限。 例如,对文件名为NVIDIA-Linux-x86_64-418.126.02.run添加执行权限。
chmod +x NVIDIA-Linux-x86_64-418.126.02.run
依次执行以下命令,检查当前系统中是否已安装 gcc 和 kernel-devel 包。
rpm -qa | grep kernel-devel
rpm -qa | grep gcc
返回结果如下,则表示已安装 gcc 和 kernel-devel。
如未安装,则请执行以下命令进行安装。
sudo yum install -y gcc kernel-devel
注意: 如升级了 kernel 版本,则需要将 kernel-devel 升级至与 kernel 相同的版本。
执行以下命令,运行驱动安装程序,并按提示进行后续操作。
sudo sh NVIDIA-Linux-x86_64-418.126.02.run
安装完成后,执行以下命令进行验证。
nvidia-smi
如返回信息类似以下的 GPU 信息,则说明驱动安装成功。
Windows 驱动安装
登录 GPU 实例。
访问 NVIDIA 驱动下载 官网。
根据实例操作系统及 GPU 规格,选择操作系统和安装包。GPU 规格信息请参见 实例类型。
本文以 A10 为例。
打开下载驱动程序所在的文件夹,双击安装文件开始安装,按照界面上的提示安装驱动程序并根据需要重启实例。
安装完成后,如需验证 GPU 是否正常工作,请查看设备管理器。
安装失败原因
Linux 系统驱动安装失败表现为 nvidia-smi 无法工作,通常原因如下:
系统缺乏编译 kernel module 所需要的包,如 gcc,kernel-devel-xxx 等,导致无法编译,最终安装失败。
系统里面存在多个版本的 kernel,由于 DKMS 的不正确配置,导致驱动编译为非当前版本 kernel 的 kernel module,导致 kernel module 安装失败。
安装驱动后,升级了 kernel 版本导致原来的安装失效。