34 | Borg(一):当电力成为成本瓶颈
徐文浩

你好,我是徐文浩。
从 GFS 这样的分布式文件系统,到 MapReduce 这样的数据批处理系统;从 Bigtable 这样的分布式 KV 数据库,到 Spanner 这样全球部署的强一致性关系数据库;从 Storm 这样只能做到“至少一次”的流式系统,到 Dataflow 这样真正做到“流批一体”的统一数据处理系统。在过去的 30 多讲里,我和你一起看过了各式各样的大数据系统。
在研究这些大数据系统的时候,我们其实有一个假设。这个假设,就是其中的每一个系统,都需要占用一组独立的服务器。而在一个完整的大数据体系中,我们既需要有 GFS 这样的文件系统,也需要 MapReduce/Spark 这样的批处理系统,还需要 Bigtable 这样的 KV 数据库、Hive 这样的数据仓库、Kafka 这样的消息队列,以及 Flink 这样的流式系统。这样一算,我们需要的服务器可真不算少。
成本 - 混合编排的需求起源
但是,当我们采购了很多服务器,搭建起了一系列的大数据系统,我们又会发现这些服务器在很多时候负载不高,显得非常浪费。因为我们在采购服务器的时候,需要根据平时的峰值流量来确定服务器数量。比如,像 Kafka 这样的消息队列,肯定是在早晚高峰,和中午用户比较多的时候,流量比较大,到了半夜流量就比较小。如果我们高峰时间的 CPU 占用要有 60%,那么在低谷时刻,可能只有 10%。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据经典论文解读》,新⼈⾸单¥59
《大数据经典论文解读》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(4)
- 最新
- 精选
- 张耒为啥说是电力成本呢 文章是在讨论资源合理利用,避免闲置的情况 这种应该耗电量更大吧 ? 辛苦老师解答归属地:北京1
- hadoop_admin服务器多的话,监控、心跳都是问题
- csyangchsh1 万台服务器的额外挑战能想到的有两个:网络和机器故障。1
- 那时刻请问老师,CGroup进行资源的限制和权限的隔离,而namespace也有权限的隔离,它们的区别是什么呢?3
收起评论