大数据经典论文解读
徐文浩
bothub 创始人
13296 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 59 讲
大数据经典论文解读
15
15
1.0x
00:00/00:00
登录|注册

34 | Borg(一):当电力成为成本瓶颈

你好,我是徐文浩。
从 GFS 这样的分布式文件系统,到 MapReduce 这样的数据批处理系统;从 Bigtable 这样的分布式 KV 数据库,到 Spanner 这样全球部署的强一致性关系数据库;从 Storm 这样只能做到“至少一次”的流式系统,到 Dataflow 这样真正做到“流批一体”的统一数据处理系统。在过去的 30 多讲里,我和你一起看过了各式各样的大数据系统。
在研究这些大数据系统的时候,我们其实有一个假设。这个假设,就是其中的每一个系统,都需要占用一组独立的服务器。而在一个完整的大数据体系中,我们既需要有 GFS 这样的文件系统,也需要 MapReduce/Spark 这样的批处理系统,还需要 Bigtable 这样的 KV 数据库、Hive 这样的数据仓库、Kafka 这样的消息队列,以及 Flink 这样的流式系统。这样一算,我们需要的服务器可真不算少。

成本 - 混合编排的需求起源

但是,当我们采购了很多服务器,搭建起了一系列的大数据系统,我们又会发现这些服务器在很多时候负载不高,显得非常浪费。因为我们在采购服务器的时候,需要根据平时的峰值流量来确定服务器数量。比如,像 Kafka 这样的消息队列,肯定是在早晚高峰,和中午用户比较多的时候,流量比较大,到了半夜流量就比较小。如果我们高峰时间的 CPU 占用要有 60%,那么在低谷时刻,可能只有 10%。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据经典论文解读》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(4)

  • 最新
  • 精选
  • 张耒
    为啥说是电力成本呢 文章是在讨论资源合理利用,避免闲置的情况 这种应该耗电量更大吧 ? 辛苦老师解答
    归属地:北京
    1
  • hadoop_admin
    服务器多的话,监控、心跳都是问题
  • csyangchsh
    1 万台服务器的额外挑战能想到的有两个:网络和机器故障。
    1
  • 那时刻
    请问老师,CGroup进行资源的限制和权限的隔离,而namespace也有权限的隔离,它们的区别是什么呢?
    3
收起评论
显示
设置
留言
4
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部