作者回复: 后面的项目会讲
作者回复: 你好,经过我们实测,如果 worker 设置了num-gpus: "1",header那里不设置,也能占上GPU卡,所以这里就没写。至于CPU 内存的问题,是因为我没有额外的CPU节点,导致我的kube-operator还有其他的一些组件都是部署在header所在的GPU节点上的,所以header的CPU和内存就设置的少了,这个正常生产中应该是独占节点的。
作者回复: numOfHosts: 2 会产生两个worker节点,启动模型时会报错
作者回复: 你好,这个我们目前没有遇到过这种场景,所以没法给你完善的方案,只能给你一点个人的思路。其实这个事就和以前用operator去控制tomcat的副本数是差不多的。比如一个tomcat能处理的请求是50,那超过50,就会由operator自动再创建出一个tomcat来。你这个也是类似,具体每个模型能处理多少并发,需要你们自己测试后确定