深入剖析Kubernetes
张磊
Kubernetes社区资深成员与项目维护者
立即订阅
21378 人已学习
课程目录
已完结 56 讲
0/4登录后,你可以任选4讲全文学习。
课前必读 (5讲)
开篇词 | 打通“容器技术”的任督二脉
免费
01 | 预习篇 · 小鲸鱼大事记(一):初出茅庐
02 | 预习篇 · 小鲸鱼大事记(二):崭露头角
03 | 预习篇 · 小鲸鱼大事记(三):群雄并起
04 | 预习篇 · 小鲸鱼大事记(四):尘埃落定
容器技术概念入门篇 (5讲)
05 | 白话容器基础(一):从进程说开去
06 | 白话容器基础(二):隔离与限制
07 | 白话容器基础(三):深入理解容器镜像
08 | 白话容器基础(四):重新认识Docker容器
09 | 从容器到容器云:谈谈Kubernetes的本质
Kubernetes集群搭建与实践 (3讲)
10 | Kubernetes一键部署利器:kubeadm
11 | 从0到1:搭建一个完整的Kubernetes集群
12 | 牛刀小试:我的第一个容器化应用
容器编排与Kubernetes作业管理 (15讲)
13 | 为什么我们需要Pod?
14 | 深入解析Pod对象(一):基本概念
15 | 深入解析Pod对象(二):使用进阶
16 | 编排其实很简单:谈谈“控制器”模型
17 | 经典PaaS的记忆:作业副本与水平扩展
18 | 深入理解StatefulSet(一):拓扑状态
19 | 深入理解StatefulSet(二):存储状态
20 | 深入理解StatefulSet(三):有状态应用实践
21 | 容器化守护进程的意义:DaemonSet
22 | 撬动离线业务:Job与CronJob
23 | 声明式API与Kubernetes编程范式
24 | 深入解析声明式API(一):API对象的奥秘
25 | 深入解析声明式API(二):编写自定义控制器
26 | 基于角色的权限控制:RBAC
27 | 聪明的微创新:Operator工作原理解读
Kubernetes容器持久化存储 (4讲)
28 | PV、PVC、StorageClass,这些到底在说啥?
29 | PV、PVC体系是不是多此一举?从本地持久化卷谈起
30 | 编写自己的存储插件:FlexVolume与CSI
31 | 容器存储实践:CSI插件编写指南
Kubernetes容器网络 (8讲)
32 | 浅谈容器网络
33 | 深入解析容器跨主机网络
34 | Kubernetes网络模型与CNI网络插件
35 | 解读Kubernetes三层网络方案
36 | 为什么说Kubernetes只有soft multi-tenancy?
37 | 找到容器不容易:Service、DNS与服务发现
38 | 从外界连通Service与Service调试“三板斧”
39 | 谈谈Service与Ingress
Kubernetes作业调度与资源管理 (5讲)
40 | Kubernetes的资源模型与资源管理
41 | 十字路口上的Kubernetes默认调度器
42 | Kubernetes默认调度器调度策略解析
43 | Kubernetes默认调度器的优先级与抢占机制
44 | Kubernetes GPU管理与Device Plugin机制
Kubernetes容器运行时 (3讲)
45 | 幕后英雄:SIG-Node与CRI
46 | 解读 CRI 与 容器运行时
47 | 绝不仅仅是安全:Kata Containers 与 gVisor
Kubernetes容器监控与日志 (3讲)
48 | Prometheus、Metrics Server与Kubernetes监控体系
49 | Custom Metrics: 让Auto Scaling不再“食之无味”
50 | 让日志无处可逃:容器日志收集与管理
再谈开源与社区 (1讲)
51 | 谈谈Kubernetes开源社区和未来走向
答疑文章 (1讲)
52 | 答疑:在问题中解决问题,在思考中产生思考
特别放送 (1讲)
特别放送 | 2019 年,容器技术生态会发生些什么?
结束语 (1讲)
结束语 | Kubernetes:赢开发者赢天下
特别放送 | 云原生应用管理系列 (1讲)
基于 Kubernetes 的云原生应用管理,到底应该怎么做?
深入剖析Kubernetes
登录|注册

44 | Kubernetes GPU管理与Device Plugin机制

张磊 2018-12-03

你好,我是张磊。今天我和你分享的主题是:Kubernetes GPU 管理与 Device Plugin 机制。

2016 年,随着 AlphaGo 的走红和 TensorFlow 项目的异军突起,一场名为 AI 的技术革命迅速从学术界蔓延到了工业界,所谓的 AI 元年,就此拉开帷幕。

当然,机器学习或者说人工智能,并不是什么新鲜的概念。而这次热潮的背后,云计算服务的普及与成熟,以及算力的巨大提升,其实正是将人工智能从象牙塔带到工业界的一个重要推手。

而与之相对应的,从 2016 年开始,Kubernetes 社区就不断收到来自不同渠道的大量诉求,希望能够在 Kubernetes 集群上运行 TensorFlow 等机器学习框架所创建的训练(Training)和服务(Serving)任务。而这些诉求中,除了前面我为你讲解过的 Job、Operator 等离线作业管理需要用到的编排概念之外,还有一个亟待实现的功能,就是对 GPU 等硬件加速设备管理的支持。

不过, 正如同 TensorFlow 之于 Google 的战略意义一样,GPU 支持对于 Kubernetes 项目来说,其实也有着超过技术本身的考虑。所以,尽管在硬件加速器这个领域里,Kubernetes 上游有着不少来自 NVIDIA 和 Intel 等芯片厂商的工程师,但这个特性本身,却从一开始就是以 Google Cloud 的需求为主导来推进的。

© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《深入剖析Kubernetes》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(13)

  • Eric
    单块GPU资源都不能共享,还得自己fork一份device plugin维护虚拟化的GPU。 社区有时候办事真的不利索

    作者回复: 我已经吐槽的很委婉了

    2018-12-05
    8
  • 每日都想上班
    今天爆出kubenetes安全漏洞需要升级,请问要如何升级
    2018-12-04
    2
  • https://mp.weixin.qq.com/s/NU8Cj6DL8wEKFzVYhuyzbQ
    2019-05-27
    1
  • 勇敢的心
    所以目前是无法实现多用户同时共享单块GPU咯?有没有可以实现这一功能的Magic?还有,目前可能实现GPU或者CPU数量的动态改变吗,在不重建pod的情况下?期待老师的解答
    2018-12-13
    1
  • 乱愣黎
    1、device plugin只能通过patch操作来实现device信息的添加吗?能否在节点添加的时候自动添加
    2、在第1点的情况下,在服务器持续集成的情况下,新旧设备device信息肯定是会不一致的,如何解决device plugin机制无法区分设备属性的情况?
        以本篇文章的内容来看,可以这么设置
        批次A使用nvidia.com/GP100=4,批次B使用amd.com/VEGA64=4
        这样编写资源需求和新旧设备交替都需要人为指定,这样对于运维来说很难受啊
    3、是否能把GPU抽象成类似于CPU的时间片,将整个GPU计算能力池化,然后根据pod.spec.containers.resources里面的require和limits字段来分配GPU计算资源
    2018-12-05
    1
  • hlzhu1983
    张老师,问一下现在k8s关于GPU资源调度粒度是否能像CPU调度粒度那么细?现在还只能按照1块GPU卡来分配GPU资源吗?

    作者回复: 很粗粒度呢

    2018-12-03
    1
  • 小河
    hi,张老师,我现在将gpu的服务迁移到kubernetes上,对外提供的是gRRC接口,我使用了ingres-nginx对gRPC进行负载均衡,但是发现支持并不好,又想使用Istio以sidecar模式代理gPRC,但是又觉得太重,请问目前有什么较好的方案在kuberntes支持对gRPC的负载均衡么😀
    2019-08-04
  • Tarjintor
    那么,理论上,可以做到对一个进程组的gpu使用百分比做限制吗?
    之前对docker做介绍的时候,说过可以限制一个cpu所能使用的百分比
    2019-07-05
  • Hank
    kubeflow 能否解决此事呢? 粗颗粒 转换成细粒度
    2019-03-15
  • 🔜
    [root@bigdata-k8s-master-1 ~]# curl --header "Content-Type: application/json-patch+json" \
    > --request PATCH \
    > --data '[{"op": "add", "path": "/status/capacity/nvidia.com/gpu", "value": "1"}]' \
    > http://localhost:8001/api/v1/nodes/k8s-master-01/status
    {
      "kind": "Status",
      "apiVersion": "v1",
      "metadata": {

      },
      "status": "Failure",
      "message": "jsonpatch add operation does not apply: doc is missing path: /status/capacity/nvidia.com/gpu",
      "code": 500

    什么原因
    2019-03-13
  • 普罗@庞铮
    社区就是江湖,开源不是免费。
    差异性如何体现,lol
    2018-12-22
  • Eurica
    Redhat的提议或类似层面的解决方案,后面还有可能支持吗?
    2018-12-03
  • 刚公司需要 使用nvdia-docker 管理 gpu 用于部署ai 图像 这就来了
    2018-12-03
收起评论
13
返回
顶部