clpsz
2022-03-08
当然是推荐《数据密集型应用系统设计》
2
bd7xzz
2022-08-13
来自北京
1.数据密集型应用系统设计 2.mysql到底是怎样运行的 这两本书都非常值得多次阅读。读完了会对数据存储,计算,涉及到的分布式问题,有自己的认识和思考。 tidb的论文也非常值得一读,有很多惊奇的思路
1
核桃
2022-03-23
关于元数据管理这个问题,目前在数仓中,血缘关系管理是一个很重要的东西,但是如何做好很难,说白了也是把不同表之间的来龙去脉搞清楚。另外为了解决调度和各种任务的定时运行这些,目前阿里云开源的EMR系统,也就是E-MapReduce系统,这个就是把airflow和spark那些封装起来了。 当然更进一步的发展,目前也有了图形化的拖拉拽传统机器学习的工具,以前也给运营商做过一套,简单来说就是封装了spark的mllib库那些,然后把一些算法,如抽样,决策树等封装成一个个图标,接着从hive中导入不同的表等,每一个组件(图表)之间使用连线链接起来,类似今天的阿里云的pi 。