40 | 十年一梦,一起来看Facebook的数据仓库变迁(二)
徐文浩
你好,我是徐文浩。
上节课里,我们一起学习了 2010 年 Facebook 的数据仓库的整体架构。我们看到,Facebook 是采用了 容错 + 分层 + 优化 这样的三重手段,来搭建自己的数据仓库体系。他们部署了多个不同职责的 Hadoop 集群,这些集群分工明确、各司其职,让数据分析师的 Adhoc 任务,重要但又不那么重要的生产任务,以及有着严格的完成时间的生产任务,共同运转在自己的数据仓库上。
不过,只有这强大的基础设施还是不够的。对于大数据系统的构建来说,还有两个重要的问题值得关注。
对于海量的数据表,我们如何让内部用户能够快速把我们的数据用起来?
对于这样一个数据系统,我们如何来判断那么多用户到底遇到了什么问题和困扰?
那么今天这节课,我就带你来看看 Facebook 是如何回答这两个问题的。回答了这两个问题之后,整个 Facebook 数据仓库体系也就完整地呈现在你面前了。
基于“事实”数据的协同方式
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
Facebook的数据仓库经历了十年的变迁,采用了容错+分层+优化的三重手段搭建了强大的基础设施。针对海量的数据表,他们通过HiPal提供了交互界面,让数据分析师能够查询进度、检查SQL运行结果,并上传、下载数据集。此外,Facebook还解决了数据发现问题,通过创建Wiki和提取数据表之间的“谱系”,让用户能够协同更新信息。另外,Facebook还通过工具自动分析每张表,找出“专家用户”,并让用户在系统内直接联系这些专家。此外,Facebook还通过Databee系统管理定时任务的依赖关系,解决了任务之间的依赖关系和延时问题。这些工具不仅解决了依赖关系的管理,还能统计和监测任务的时间和延时,帮助进行debug工作。 Facebook的数据仓库体系完整地呈现在读者面前,展现了其协同方式和任务依赖关系管理的技术特点。 文章总结了Facebook数据仓库的演进历程和技术特点。通过HiPal和Databee系统,解决了用户数据发现和任务依赖管理问题。此外,文章还强调了监控的重要性,包括对集群资源的监控以及对用户任务和数据集的监控。这些监控不仅有助于资源优化,还能确保系统稳定可用。Facebook的解决方案并非奇技淫巧,而是常规的工程解决方案,注重让大量用户能够真正把系统用起来和用好。文章鼓励读者不断学习,追踪最新的大数据知识,以应对快速发展的大数据领域。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据经典论文解读》,新⼈⾸单¥59
《大数据经典论文解读》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(3)
- 最新
- 精选
- bd7xzz1.数据密集型应用系统设计 2.mysql到底是怎样运行的 这两本书都非常值得多次阅读。读完了会对数据存储,计算,涉及到的分布式问题,有自己的认识和思考。 tidb的论文也非常值得一读,有很多惊奇的思路2022-08-13归属地:北京2
- clpsz当然是推荐《数据密集型应用系统设计》2022-03-082
- 核桃关于元数据管理这个问题,目前在数仓中,血缘关系管理是一个很重要的东西,但是如何做好很难,说白了也是把不同表之间的来龙去脉搞清楚。另外为了解决调度和各种任务的定时运行这些,目前阿里云开源的EMR系统,也就是E-MapReduce系统,这个就是把airflow和spark那些封装起来了。 当然更进一步的发展,目前也有了图形化的拖拉拽传统机器学习的工具,以前也给运营商做过一套,简单来说就是封装了spark的mllib库那些,然后把一些算法,如抽样,决策树等封装成一个个图标,接着从hive中导入不同的表等,每一个组件(图表)之间使用连线链接起来,类似今天的阿里云的pi 。2022-03-23
收起评论