大寒
2025-11-28
来自北京
思考题一:因为这块我参与进来的时候已经基本稳定运行时期了,对这块的实践有限,只能说下自己所观察到的地方。我认为目前的挑战在于低峰期计算资源如何利用起来以及由于降本带来的整体资源有限这两方面。资源总量不足会让人无奈,比如在高峰期无法承载过多实时任务(而这些任务又是新业务不可缺少的向前迭代环节),目前的做法更多是拆东墙补西墙,也逼迫自己的团队内部去进一步有效缩减成本,但是潜在影响就是有些历史数据会无法被准确完全追溯了,这也是一个权衡点。低峰期资源利用也由于公司规模缩减造成各方面查询都在萎缩,目前看也只能闲置,从我个人来讲这段时间可能是我用来接触推荐等内容的契机(因为资源充裕),目前也只能想到这些了。 思考题二:这个我有点接触,主要是yarn,分配对象是数据团队+智能运营团队。我会根据整体任务特点来进行处理,比如数据团队是大量的批任务+少量流任务,且整体任务量大;智能运营团队任务不多,但是每个都是大任务;而日常大数据查询人员会在工作时段查询。基于此会首先保障数据团队的批任务(天数仓及其下游),分配较大容器并且在0-9点不可抢占,然后给智能运营团队分配剩余中的大部分份额且让其在10-23可抢占别的队列,最后少量容器分配给个人用作查询,且不抢占其他队列 思考题三:预算允许的情况下加资源,预算不允许的情况下优先保障营销活动,暂停部分日常ETL任务,比如维度表同步等。
展开