数据中台实战课
郭忆
网易大数据专家
立即订阅
2603 人已学习
课程目录
已更新 9 讲 / 共 16 讲
0/2登录后,你可以任选2讲全文学习。
开篇词 (1讲)
开篇词 | 数据中台,是陷阱?还是金钥匙?
免费
原理篇 (4讲)
01 | 前因后果:为什么说数据中台是大数据的下一站?
免费
02 | 关键抉择: 到底什么样的企业应该建数据中台?
03 | 数据中台建设三板斧:方法论、组织和技术
特别放送|史凯:建设数据中台到底有什么用?
实现篇 (4讲)
04 | 元数据中心的关键目标和技术实现方案
05 | 如何统一管理纷繁杂乱的数据指标?
06 | 数据模型无法复用,归根结底还是设计问题
07 | 同事老打脸说数据有问题,该怎么彻底解决?
数据中台实战课
15
15
1.0x
00:00/00:00
登录|注册

06 | 数据模型无法复用,归根结底还是设计问题

郭忆 2020-04-15
你好,我是郭忆。
上一节课,我带你了解了数据中台如何管理指标,如果我们把指标比喻成一棵树上的果实,那模型就是这棵大树的躯干,想让果实结得好,必须让树干变得粗壮。
先来看一幕真实的场景。
大多数公司的分析师会结合业务做一些数据分析(需要用到大量的数据),通过报表的方式服务于业务部门的运营。但是在数据中台构建之前,分析师经常发现自己没有可以复用的数据,不得不使用原始数据进行清洗、加工、计算指标。
由于他们大多是非技术专业出身,写的 SQL 质量比较差,我甚至见过 5 层以上的嵌套。这种 SQL 对资源消耗非常大,会造成队列阻塞,影响其他数仓任务,会引起数据开发的不满。数据开发会要求收回分析师的原始数据读取权限,分析师又会抱怨数仓数据不完善,要啥没啥,一个需求经常要等一周甚至半个月。分析师与数据开发的矛盾从此开始。
这个矛盾的根源在于数据模型无法复用,数据开发是烟囱式的,每次遇到新的需求,都从原始数据重新计算,自然耗时。而要解决这个矛盾,就要搞清楚我们的数据模型应该设计成什么样子。

什么才是一个好的数据模型设计?

来看一组数据,这两个表格是基于元数据中心提供的血缘信息,分别对大数据平台上运行的任务和分析查询(Ad-hoc)进行的统计。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据中台实战课》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(13)

  • 大尾巴老猫
    1、先满足需求(活下去),再研发公共数据层(构建美好未来)。
    2、获得高层领导的支持,以获得更多的研发资源。
    3、在满足业务需求的过程中,根据业务需求不断对公共数据层进行迭代和优化。
    4、随着时间的推移 ,越来越多的日常业务需求可以用公共数据层(中台来完成)。
    5、日常业务需求开发和公共数据层构建是相互促进的循环。

    作者回复: 不错,总结的挺好的,其实我只想再补充一点,就是为了保障数据中台的推进速度,可以尝试成立专人团队,这些人的目标明确就是中台构建,模型的重构和整合,指标的梳理。这些人不接业务需求,这样可以避免日常业务需求对数据团队的中台建设的干扰。否则的话,数据中台的建设进度,经常会受到业务需求压力的干扰,而且如果没有明确的KPI,或者KPI权重不够大,中台建设的动力也会不足。

    感谢你的阅读,总结的很棒!

    2020-04-15
    3
  • 麻婆豆腐
    郭老师好,请教一个小白的问题,运行任务和分析查询的统计是怎么统计的呢?我们现在的平台有用hive直接查的,有tableau连impala查询的,还有spark定时任务,各种各样的,怎么才能统计出像您这样的表格呢。也想做下自己的模型指标分析。十分感谢!

    作者回复: 你好,可以基于数据血缘来实现,一个表的产出任务以及它的下游引用任务,数据血缘都是有的。

    对于分析查询,目前我们有两个平台,一个是网易有数,类似tableau,一个是自助分析平台,就是执行SQL的,我们把这两个平台的日志执行信息会拿出来进行离线的分析和统计,然后去看每个query查询了哪些表。

    如果你是tableau,可能没这么方便,不过可以试试从impala入手,impala侧日志中是有SQL信息,可以抓出来分析统计。对于spark和hive,可以基于数据血缘来实现。

    感谢你的阅读~

    2020-04-15
    1
    2
  • 泡泡鱼大王
    首先高优先级需求一定是先开发。
    我觉得压缩空间在中台项目本身,
    1.尽早搭建共享数仓部分。
    措施:
    技术上把各个小数仓的元信息和数据模型 通过自动化采集到同一个数据库中,进行分析,提炼指标。分析复用率。
    业务上拉上各个部门核心BA,进行指标砍伐和提炼。
    优先共享数仓产出,同时也应该按照优先级顺序。 高优先级的共享数据仓尽快产出,这样能用上,大家都会觉得中台的重要性。
    2.中台开发过程挑选技术能手和业务能手快速完成迭代。
    3.中台结束应该由业务方发起验收,减少建模的链路提高易用性是核心,这样才能让人人都用上中台。
    4.后期运维需要建立强大监控环节,自顶向下监控资源,减少成本开销。
    总结:技术上按照数仓设计就可以,中台的难点是对人员的业务和技术能力要求极高,同时需要一个优秀的PM。


    2020-04-16
    1
  • Samuel
    郭老师,刚接触数据中台,提的问题可能还比较初级,维表是一个基于的事实表的维表吗?他们之间是什么关系?需要ID关联吗?还是放到一张大的宽表中?多谢了!
    2020-04-16
    1
  • Geek_9319
    一致性维度能否详细解释下,有点不太理解
    2020-04-15
    1
  • 北野豪横
    目前在做一个全新的领域,警务中台系统,跟原本的电商模式有着很大差别,本来一头雾水的项目,读了老师的课有点云开见月明的意思,提出一点个人的感想,不论是模型,还是输出的指标,个人感觉越来越多的应该从底层业务出发,自底向上来驱动整个业务中台,这里需要模型与业务与数据的多项循环反馈机制才能逐渐完善整个中台,如何将指标模块化,如何让各种模型即产中中间层结果,又产出直接结果,形成真正的积木式中台,让一线最懂业务的业务人员能够尽情发挥,搭建出自己想要的结果,形成逐层累积。
    2.同时还要考虑这些模块和指标以及管理真的是我提了一个醒,目前是自己负责一个中台项目的指标模型建设,业务是自己,模型是自己,指标也是自己,但是当个多人参与进来要如果管理是我要学习的地方。
    3.最后感慨一下,数据中台对从业人员的要求真的是高,要懂数据,懂运营,懂业务,懂模型,还要兼顾公司内过个部门的协同和沟通,不过也显示除了,未来人才的趋势就是全方位的人才才能真正立足于未来互联网。
    2020-04-15
    1
  • JohnT3e
    目前公司数据中台建设已有一年有余,今天的内容有很多共鸣之处,收获颇多。

    作者回复: 谢谢你的鼓励,期望能够对你后续的工作有所帮助和启发~

    2020-04-15
    1
  • rageeeee
    老师,维度表的分表策略这个没有看懂,我理解维度表的数据应该是变化不大的,为什么还分那么多区,您能详细的再解释一下吗?
    2020-04-17
  • 从前有座山
    郭老师,您好,非常感谢这么精彩的分享。
    有个问题请教,关于“一致性维度”的,业务场景如下:企业X有A和B两个系统,都有客户表(数据有部分交集(根据一定规则例如名称相同判断的),没有统一的客户中心),数据中台中客户维度是否只有一个?客户表的维度歧义处理是否是数据中台的职责?
    2020-04-17
  • 幸福时光
    非常具有实战的指导意义,感谢老师分享👍
    2020-04-16
  • aof
    老师文章里面说的每一点都有比较明确的实施意义!赞!

    作者回复: 感谢你的阅读,也谢谢你的鼓励。

    2020-04-15
  • 吴科🍀
    任何情况下,都是以业务需求为主。数仓模型的优化,在完成需求的情况下,一步步优化。
    老师,说的回收ods层数据,太对了,避免重复计算,模型重复建设。
    维度建模方面,老师能详细讲解个案例吗,我们现在建模还不规范,想参考一下。
    2020-04-15
  • leslie
    这种解决方案其实是项目管理的事情,雷蓓蓓老师的《项目管理实战20讲》学完之后觉得所谓的安排已经一切从容多了;如何去合理安排每个项目的时间和工作完成度。。。相关的策略是关键。
    换个方式去讲吧。我手上既有数据系统架构和代码优化的工作,同时还有运维系统优化的工作;如何合理去安排其实是我每天早上或者每个周期会去规划的事情,合理规划好自己有限的时间和精力-一切都不是真正的问题;只有紧急情况出现时才会出现如何处理事情优先级的问题。
    谢谢老师今天的分享,期待后续的分享。

    作者回复: 蓓蓓,我12年做网易分布式数据库项目的时候,就是我们项目的PM啦。数据中台是一项系统性的工作,自然项目管理也是不可或缺的一部分。

    感谢你的阅读~

    2020-04-15
收起评论
13
返回
顶部