极客视点
极客时间编辑部
极客时间编辑部
113241 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/04:52
登录|注册

数据中台解决的三大问题

讲述:初明明大小:4.45M时长:04:52
近日,网易杭州研究院大数据专家郭忆结合网易数据中台的建设实践、数据中台的定义,分享了数据中台的落地价值,简单来说就是要解决效率、质量和成本的问题,以下为重点内容。

数据中台是什么?

郭忆认为,数据中台是企业级大数据通过系统化的方式实现统一、标准、安全、共享的数据组织,以服务化的方式赋能前台数据应用,提高数据的使用效率。
数据中台与数据平台最本质的区别在于数据中台是具备业务属性的,输入的是原始数据,输出的是指标。数据中台包含了业务对数据的组织方法论,体现在主题域、业务过程的划分、数据模型的设计,以及对指标、维度、度量的管理。如果要确定一个数据是指标还是维度,就必须理解业务。

数据中台解决的三大问题

在明确了数据中台与大数据平台的区别之后,我们需要探讨的是,数据中台到底解决了什么问题。归结起来,主要是三个:效率、质量和成本。
效率问题可以分为数据研发的效率、数据发现的效率和数据分析的效率。
首先是数据研发的效率问题。在项目初期,由于业务模式还不固定,变化比较快,往往缺少良好的主题域和分层设计,烟囱式的开发模式占据主导,随着业务复杂度和规模的上升,大量重复性的数据开发,制约了数据需求交付效率。一个需求往往需要一个星期甚至更长的时间才能上线,需求响应速度经常被业务部门诟病。
其次是数据发现的效率问题。开发数据和使用数据的人是不同的人,面对动辄数万张表,每张表有数十个甚至上百个字段,准确理解每张表的含义是一件非常困难的事。如果没有一个好用的系统,往往需要大量的沟通成本,工作效率也大打折扣。
最后是数据分析的效率问题。数据分析本身就存在门槛,取数对于大多数非技术专业的运营和分析师就是一个大问题,遇到技术问题更是不知所措。另外,传统的数据分析基本依赖分析师的个人经验,如何将经验变成一种知识,甚至是一种规范,沉淀到产品中,通过系统自动地进行全维度的钻取分析,降低数据分析的门槛,这也是业务面临的难题。
质量是数据中台需要解决的第二个问题,质量包括数仓设计的质量、指标的一致性、数据研发的质量。
数仓设计得好不好,主要体现在三个方面,完善度、复用性和规范性。数仓设计一般采用的是面向主题域的分层设计,对于 ODS 层保存的是业务原始数据,DWD 保存的是经过清洗的明细数据,DWS 是经过轻度聚合的汇总数据,ADS 或者 DM 是应用层、集市层数据,这是一个常见的 4 层模型划分。
完善度就是对于使用者而言,“要啥有啥”,对于不同分层,完善度的衡量方式也各有不同。复用性主要强调的是一个表被多个表使用的情况,复用性越高,说明数仓的设计越合理,更多的数据在数仓被复用。规范性主要是指数仓中的表、字段的命名规范统一,相同指标、维度、度量的标识是一致的。
质量还包括数据的质量,如数据的一致性、准确性、及时性以及完整性。
一致性具体表现在集市层相同的指标数据是否一致、维度是否一致、相关指标的趋势是否一致、不同数据源对同一个实体的值是否一致。
准确性体现在数值计算的逻辑是否符合预期,数据格式是否正确。
及时性主要体现在数据产出时延方面。
完整性主要是表记录是否完整,包括记录数是否完整,字段是否完成。
成本是数据中台需要解决的第三个问题,成本包括计算资源成本、存储资源的成本以及人力研发成本。
数据如果不定时清理,就会占据存储空间。郭忆团队经常发现,大数据成本比业务增长还要快,这一方面是由于烟囱式的开发导致的数据重复加工,浪费计算和存储资源,另一方面也是由于没有定时清理无用数据,浪费了大量的存储资源。而人力的成本其实跟效率有关系,如果效率得到提升,研发成本也会得到控制。
以上就是数据中台要解决的最重要的三个问题,即效率、质量、成本,而且,这三个方面也是相互关联的。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • Jerry
    这篇讲的是离线数据分析吧,比较传统。实时数据应该怎么玩?比如flink
    1
收起评论
显示
设置
留言
1
收藏
99+
沉浸
阅读
分享
手机端
快捷键
回顶部