作者回复: 不错,总结的挺好的,其实我只想再补充一点,就是为了保障数据中台的推进速度,可以尝试成立专人团队,这些人的目标明确就是中台构建,模型的重构和整合,指标的梳理。这些人不接业务需求,这样可以避免日常业务需求对数据团队的中台建设的干扰。否则的话,数据中台的建设进度,经常会受到业务需求压力的干扰,而且如果没有明确的KPI,或者KPI权重不够大,中台建设的动力也会不足。 感谢你的阅读,总结的很棒!
作者回复: 你好,关于每一层的表的命名规范,我在文章中都有提到。 ODS: ODS_ 业务系统数据库名 _ 业务系统数据库表名 DWD/DWS/ADS/DM 的命名规则适合采用“[层次][主题][子主题][内容描述][分表规则]”的命名方式。 DIM:DIM_ 主题域 _ 描述 _ 分表规则 指标命名规范中,对于原子指标,指标名称适合用“动作 + 度量”的命名方式(比如注册用户数、购买用户数),标识的命名用英文简写或者汉语拼音缩写比较好。对于派生指标,指标名称应该严格遵循“时间周期 + 统计粒度 + 修饰词 + 原子指标”的命名方式,标识命名要用“修饰词 _ 原子指标 _ 时间周期”的方式。 感谢你的阅读~
作者回复: 你好,你问的问题,我估计很多人都有这样的疑问。 dws 并不是说一定要通过ads ,dws 也可以被应用直接访问的。在我们的数据中台建设中,一般只有一个应用专属的表,不能被其他应用使用的,才归入ads,如果可以被多个应用共享的,我们还是归入dws。 感谢你的阅读,也感谢你提的好问题,欢迎继续提问~
作者回复: 你好,可以基于数据血缘来实现,一个表的产出任务以及它的下游引用任务,数据血缘都是有的。 对于分析查询,目前我们有两个平台,一个是网易有数,类似tableau,一个是自助分析平台,就是执行SQL的,我们把这两个平台的日志执行信息会拿出来进行离线的分析和统计,然后去看每个query查询了哪些表。 如果你是tableau,可能没这么方便,不过可以试试从impala入手,impala侧日志中是有SQL信息,可以抓出来分析统计。对于spark和hive,可以基于数据血缘来实现。 感谢你的阅读~
作者回复: 说的好,中台对数据开发的要求真的是挺高的,当然,也需要一些好用的工具产品来降低他们的工作量和复杂度,一个优秀的PM当然也是必须的。 我一直强调一个观点,不要用技术的思维看待数据中台,要用管理的思维,数据中台它是一个系统性的工程,对整个数据建设是一次革命! 感谢你的阅读,期待与你在留言区再次相遇,也期待你继续发表你的观点,很棒!
作者回复: 感谢你的认可,也非常开心,我们的这些经验能够对你有所帮助。我真心觉得,数据建设,真的是磨刀不误砍柴工,工具能力的建设,可以起到事半功倍的效果,做任何一项工作,都要想着怎么让这项工作能够有积累,堆人往往能够解决一些前期的问题,但是不是长久的方案。
作者回复: 你好, 维度建模只是模型设计的一种方法,当然你也可以选择其他的模型构建方法,之所以选择维度建模,是因为其是从业务需求场景出发,能够适应业务场景的快速变化。举个例子,在零售场景中,门店是一个维度,可以基于门店,分析销售额,原材料,如果又有一个新的场景,那维度本身还是门店。 维度建模还有一个好处,就是通过一致性维度,可以进行关联分析。比如门店的销售额和门店维度下的商品数量,可以做关联的分析。维度的管理很重要,核心是建立一致性维表。 指标的可分析维度的设计很重要,直接关系到后续模型的设计,需要哪些维度。所以在指标系统里面,必须有指标的可分析维度项。 提出指标需求的业务,需要先梳理出,你要的这个指标,需要哪些可分析维度,然后在模型设计阶段,需要把这些指标和可分析维度固化到模型中。 感谢你的提问~ 希望我们的交流可以帮助解决你的疑惑~祝好~
作者回复: 你好, 有一些压缩算法是支持split的,例如lzo,对于大文件来说比较合适,在保证压缩效率的前提下,有着相对稳定的压缩比。 我在第8讲中,会重点介绍通过数据压缩,优化存储成本的问题。欢迎你继续阅读~ 感谢你的阅读,我们下一次再见~
作者回复: 首先,感谢你的认可。看到对你的实际工作有所帮助和启发,我感到很高兴。 你说的非常正确,业务和数据中台之间本来就要相互反馈,业务人员经常去查一些明细表,那我们中台就要考虑,是不是需要完善汇总层的模型。 你说数据中台对从业人员要求高,我也非常赞同,数据中台从业务中来,最终必须要回到业务。数据中台团队独立于业务,但是绝对不能脱离业务。我在第13讲中,会详细的介绍,感谢你在留言区发表的想法,非常棒! 期待与你再次相遇~
作者回复: 你好,我来回到一下你的两个问题: 1. 原始数据在hdfs上追加写,然后定期Merge刷新的,所以这种不能做到upsert,实时更新。对于离线数据处理来说,这样就够了。 2. dim表根据时间分区,是存在dim表变化的情况,比如每日有一个商品快照分区。