安装 NVIDIA Tesla 驱动

最近更新时间: 2024-10-17 17:10:00

操作场景

GPU 云服务器正常工作需提前安装正确的基础设施软件,对 NVIDIA 系列 GPU 而言,有以下两个层次的软件包需要安装:

  • 驱动 GPU 工作的硬件驱动程序。

  • 上层应用程序所需要的库。

本文以 CentOS 操作系统为例,介绍如何安装 Tesla Driver。

操作步骤

Linux 驱动安装

Linux 驱动安装采用 Shell 脚本安装方式,适用于任何 Linux 发行版,包括 CentOS,Ubuntu 等。

NVIDIA Tesla GPU 的 Linux 驱动在安装过程中需要编译 kernel module,系统需提前安装 gcc 和编译 Linux Kernel Module 所依赖的包,例如kernel-devel-$(uname -r)等。

  1. 执行以下命令,检查当前系统中是否已安装 dkms。

    rpm -qa | grep -i dkms

    返回结果如下,则表示已安装 dkms。

如未安装 dkms,则执行以下命令进行安装。

   sudo yum install -y dkms
  1. 登录 NVIDIA 驱动下载 或访问 https://www.nvidia.cn/Download/index.aspx?lang=cn

  2. 根据实例操作系统及 GPU 规格,选择操作系统和安装包。

  3. 单击 搜索 搜寻驱动,选择要下载的驱动版本。

注意: 操作系统(Operating System)选择 Linux 64-bit 即表示下载 shell 安装文件。如果选择具体的发行版,则下载的文件是对应的包安装文件。

  1. 选择特定的版本进入下载页面,单击 下载。

  1. 如有填写个人信息的页面可选择直接跳过,当出现以下页面时,右键单击 下载 并选择菜单中的 复制链接地址。

  1. 参考使用标准方式登录 Linux 实例(推荐),登录 GPU 实例。您也可以根据实际操作习惯,选择其他不同的登录方式:

    • 使用远程登录软件登录 Linux 实例

    • 使用 SSH 登录 Linux 实例

  2. 使用wget命令, 粘贴 步骤6 中已获取的链接地址,下载安装包。

或者您可在本地系统下载 NVIDIA 安装包,再上传到 GPU 实例的服务器。

  1. 执行以下命令,对安装包添加执行权限。 例如,对文件名为NVIDIA-Linux-x86_64-418.126.02.run添加执行权限。

    chmod +x NVIDIA-Linux-x86_64-418.126.02.run
  2. 依次执行以下命令,检查当前系统中是否已安装 gcc 和 kernel-devel 包。

    rpm -qa | grep kernel-devel
    rpm -qa | grep gcc

    返回结果如下,则表示已安装 gcc 和 kernel-devel。

如未安装,则请执行以下命令进行安装。

   sudo yum install -y gcc kernel-devel

注意: 如升级了 kernel 版本,则需要将 kernel-devel 升级至与 kernel 相同的版本。

  1. 执行以下命令,运行驱动安装程序,并按提示进行后续操作。

    sudo sh NVIDIA-Linux-x86_64-418.126.02.run
  2. 安装完成后,执行以下命令进行验证。

    nvidia-smi

    如返回信息类似以下的 GPU 信息,则说明驱动安装成功。

Windows 驱动安装

  1. 登录 GPU 实例。

  2. 访问 NVIDIA 驱动下载 官网。

  3. 根据实例操作系统及 GPU 规格,选择操作系统和安装包。GPU 规格信息请参见 实例类型。

    本文以 A10 为例。

  1. 打开下载驱动程序所在的文件夹,双击安装文件开始安装,按照界面上的提示安装驱动程序并根据需要重启实例。

    安装完成后,如需验证 GPU 是否正常工作,请查看设备管理器。

安装失败原因

Linux 系统驱动安装失败表现为 nvidia-smi 无法工作,通常原因如下:

  1. 系统缺乏编译 kernel module 所需要的包,如 gcc,kernel-devel-xxx 等,导致无法编译,最终安装失败。

  2. 系统里面存在多个版本的 kernel,由于 DKMS 的不正确配置,导致驱动编译为非当前版本 kernel 的 kernel module,导致 kernel module 安装失败。

  3. 安装驱动后,升级了 kernel 版本导致原来的安装失效。