集群启用GPU调度

最近更新时间: 2024-10-17 17:10:00

操作场景

如果您的业务需要进行深度学习、高性能计算等场景,您可以使用容器服务支持 GPU 功能,通过该功能可以帮助您快速使用 GPU 容器。如需要使用 GPU 功能,需要有可以使用的 GPU CVM 资源。

启用 GPU 调度有以下两种方式:

  • 在集群中添加 GPU 节点

    • 新建 GPU 云服务器

    • 添加已有 GPU 云服务器

  • 创建 GPU 服务的容器

    • 通过控制台方式创建

    • 通过应用或 Kubectl 命令创建

前提条件

已登录 TKE 控制台。

注意事项

  • 仅在集群 Kubernetes 版本大于1.8.*时,支持使用 GPU 调度。

  • 容器之间不共享 GPU,每个容器均可以请求一个或多个 GPU。无法请求 GPU 的一小部分。

  • 建议搭配亲和性调度来使用 GPU 功能。

操作步骤

在集群中添加 GPU 节点

添加 GPU 节点有以下两种方法:

  • 新建 GPU 云服务器

  • 添加已有 GPU 云服务器

新建 GPU 云服务器

  1. 在左侧导航栏中,单击集群,进入“集群管理”页面。

  2. 在需要创建 GPU 云服务器的集群行中,单击新建节点

  3. 在“选择机型”页面,将实例族设置为 “GPU机型”,并选择 GPU 计算型的实例类型。

  1. 按照页面提示逐步操作,完成创建。

在进行 “云主机配置” 时,TKE 将自动根据选择的机型进行 GPU 的驱动安装等初始流程,您无需关心基础镜像。

添加已有 GPU 云服务器

  1. 在左侧导航栏中,单击集群,进入“集群管理”页面。

  2. 在需要添加已有 GPU 云服务器的集群行中,单击添加已有节点

  3. 在“选择节点”页面,勾选已有的 GPU 节点,单击下一步

  1. 按照页面提示逐步操作,完成添加。

在进行 “云主机配置” 时,TKE 将自动根据选择的机型进行 GPU 的驱动安装等初始流程,您无需关心基础镜像。

创建 GPU 服务的容器

创建 GPU 服务的容器有以下两种方法:

  • 通过控制台方式创建

  • 通过应用或 Kubectl 命令创建

通过控制台方式创建

  1. 在左侧导航栏中,单击集群,进入“集群管理”页面。

  2. 单击需要创建 Workload 的集群ID/名称,进入待创建 Workload 的集群管理页面。

  3. 在 “工作负载” 下,任意选择 Workload 类型,进入对应的信息页面。例如,选择工作负载 > DaemonSet,进入 DaemonSet 信息页面。

  1. 单击新建,进入“新建Workload”页面。

  2. 根据页面信息,设置工作负载名、命名空间等信息。并在 “GPU限制” 中,设置 GPU 限制的数量。

  1. 单击创建Workload,完成创建。

通过应用或 Kubectl 命令创建

您可以通过应用或 Kubectl 命令创建,在 YAML 文件中添加 GPU 字段。