40 | 十年一梦，一起来看Facebook的数据仓库变迁（二）

徐文浩

你好，我是徐文浩。
上节课里，我们一起学习了 2010 年 Facebook 的数据仓库的整体架构。我们看到，Facebook 是采用了 容错 + 分层 + 优化 这样的三重手段，来搭建自己的数据仓库体系。他们部署了多个不同职责的 Hadoop 集群，这些集群分工明确、各司其职，让数据分析师的 Adhoc 任务，重要但又不那么重要的生产任务，以及有着严格的完成时间的生产任务，共同运转在自己的数据仓库上。
不过，只有这强大的基础设施还是不够的。对于大数据系统的构建来说，还有两个重要的问题值得关注。
对于海量的数据表，我们如何让内部用户能够快速把我们的数据用起来？
对于这样一个数据系统，我们如何来判断那么多用户到底遇到了什么问题和困扰？
那么今天这节课，我就带你来看看 Facebook 是如何回答这两个问题的。回答了这两个问题之后，整个 Facebook 数据仓库体系也就完整地呈现在你面前了。
基于“事实”数据的协同方式虽然在开发 Hive 这个系统的时候，Facebook 其实已经考虑了如何让用户能够把数据用起来。所以，在我们研读 Hive 的论文的时候，就聊过 Hive 相比于 Pig 的一大优势，就是有着良好的元数据管理。而我们在看 Twitter 的大数据整体架构的时候，也看到他们是通过 HCatalog 来补上 Pig 缺失的这一环的。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

Facebook的数据仓库经历了十年的变迁，采用了容错+分层+优化的三重手段搭建了强大的基础设施。针对海量的数据表，他们通过HiPal提供了交互界面，让数据分析师能够查询进度、检查SQL运行结果，并上传、下载数据集。此外，Facebook还解决了数据发现问题，通过创建Wiki和提取数据表之间的“谱系”，让用户能够协同更新信息。另外，Facebook还通过工具自动分析每张表，找出“专家用户”，并让用户在系统内直接联系这些专家。此外，Facebook还通过Databee系统管理定时任务的依赖关系，解决了任务之间的依赖关系和延时问题。这些工具不仅解决了依赖关系的管理，还能统计和监测任务的时间和延时，帮助进行debug工作。 Facebook的数据仓库体系完整地呈现在读者面前，展现了其协同方式和任务依赖关系管理的技术特点。文章总结了Facebook数据仓库的演进历程和技术特点。通过HiPal和Databee系统，解决了用户数据发现和任务依赖管理问题。此外，文章还强调了监控的重要性，包括对集群资源的监控以及对用户任务和数据集的监控。这些监控不仅有助于资源优化，还能确保系统稳定可用。Facebook的解决方案并非奇技淫巧，而是常规的工程解决方案，注重让大量用户能够真正把系统用起来和用好。文章鼓励读者不断学习，追踪最新的大数据知识，以应对快速发展的大数据领域。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《大数据经典论文解读》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(3)

最新
精选

bd7xzz
1.数据密集型应用系统设计 2.mysql到底是怎样运行的这两本书都非常值得多次阅读。读完了会对数据存储，计算，涉及到的分布式问题，有自己的认识和思考。 tidb的论文也非常值得一读，有很多惊奇的思路
2022-08-13归属地：北京

2
clpsz
当然是推荐《数据密集型应用系统设计》
2022-03-08

2
核桃
关于元数据管理这个问题，目前在数仓中，血缘关系管理是一个很重要的东西，但是如何做好很难，说白了也是把不同表之间的来龙去脉搞清楚。另外为了解决调度和各种任务的定时运行这些，目前阿里云开源的EMR系统,也就是E-MapReduce系统，这个就是把airflow和spark那些封装起来了。当然更进一步的发展，目前也有了图形化的拖拉拽传统机器学习的工具，以前也给运营商做过一套，简单来说就是封装了spark的mllib库那些，然后把一些算法，如抽样，决策树等封装成一个个图标，接着从hive中导入不同的表等，每一个组件(图表)之间使用连线链接起来，类似今天的阿里云的pi 。
2022-03-23



收起评论