集群启用GPU调度
最近更新时间: 2024-10-17 17:10:00
操作场景
如果您的业务需要进行深度学习、高性能计算等场景,您可以使用容器服务支持 GPU 功能,通过该功能可以帮助您快速使用 GPU 容器。如需要使用 GPU 功能,需要有可以使用的 GPU CVM 资源。
启用 GPU 调度有以下两种方式:
在集群中添加 GPU 节点
新建 GPU 云服务器
添加已有 GPU 云服务器
创建 GPU 服务的容器
通过控制台方式创建
通过应用或 Kubectl 命令创建
前提条件
已登录 TKE 控制台。
注意事项
仅在集群 Kubernetes 版本大于1.8.*时,支持使用 GPU 调度。
容器之间不共享 GPU,每个容器均可以请求一个或多个 GPU。无法请求 GPU 的一小部分。
建议搭配亲和性调度来使用 GPU 功能。
操作步骤
在集群中添加 GPU 节点
添加 GPU 节点有以下两种方法:
新建 GPU 云服务器
添加已有 GPU 云服务器
新建 GPU 云服务器
在左侧导航栏中,单击集群,进入“集群管理”页面。
在需要创建 GPU 云服务器的集群行中,单击新建节点。
在“选择机型”页面,将实例族设置为 “GPU机型”,并选择 GPU 计算型的实例类型。
- 按照页面提示逐步操作,完成创建。
在进行 “云主机配置” 时,TKE 将自动根据选择的机型进行 GPU 的驱动安装等初始流程,您无需关心基础镜像。
添加已有 GPU 云服务器
在左侧导航栏中,单击集群,进入“集群管理”页面。
在需要添加已有 GPU 云服务器的集群行中,单击添加已有节点。
在“选择节点”页面,勾选已有的 GPU 节点,单击下一步。
- 按照页面提示逐步操作,完成添加。
在进行 “云主机配置” 时,TKE 将自动根据选择的机型进行 GPU 的驱动安装等初始流程,您无需关心基础镜像。
创建 GPU 服务的容器
创建 GPU 服务的容器有以下两种方法:
通过控制台方式创建
通过应用或 Kubectl 命令创建
通过控制台方式创建
在左侧导航栏中,单击集群,进入“集群管理”页面。
单击需要创建 Workload 的集群ID/名称,进入待创建 Workload 的集群管理页面。
在 “工作负载” 下,任意选择 Workload 类型,进入对应的信息页面。例如,选择工作负载 > DaemonSet,进入 DaemonSet 信息页面。
单击新建,进入“新建Workload”页面。
根据页面信息,设置工作负载名、命名空间等信息。并在 “GPU限制” 中,设置 GPU 限制的数量。
- 单击创建Workload,完成创建。
通过应用或 Kubectl 命令创建
您可以通过应用或 Kubectl 命令创建,在 YAML 文件中添加 GPU 字段。