数据中台实战课
郭忆
网易大数据专家
立即订阅
3793 人已学习
课程目录
已完结 19 讲
0/2登录后,你可以任选2讲全文学习。
开篇词 (1讲)
开篇词 | 数据中台,是陷阱?还是金钥匙?
免费
原理篇 (4讲)
01 | 前因后果:为什么说数据中台是大数据的下一站?
免费
02 | 关键抉择: 到底什么样的企业应该建数据中台?
03 | 数据中台建设三板斧:方法论、组织和技术
特别放送|史凯:建设数据中台到底有什么用?
实现篇 (12讲)
04 | 元数据中心的关键目标和技术实现方案
05 | 如何统一管理纷繁杂乱的数据指标?
06 | 数据模型无法复用,归根结底还是设计问题
07 | 同事老打脸说数据有问题,该怎么彻底解决?
08 | 交付速度和质量问题解决了,老板说还得“省”
09 | 数据服务到底解决了什么问题?
10 | 数据服务难道就是对外提供个API吗?
11 | 怎么一劳永逸地解决数据安全问题?
12 | 数据的台子搭完了,但你还得想好戏该怎么唱
13 | 数据研发就只是写代码吗?
14 | 数据被加工后,你还要学会使用和管理数据
15 | 数据中台在网易电商业务的最佳实践
结课测试 (1讲)
结课测试 | 建设数据中台的这些知识,你都掌握了吗?
结束语 (1讲)
结束语 | 数据中台从哪里来,要到哪里去?
数据中台实战课
15
15
1.0x
00:00/00:00
登录|注册

13 | 数据研发就只是写代码吗?

郭忆 2020-05-01
你好,我是郭忆。
到现在,我已经讲了 10 几个数据中台的工具产品,除此之外,我还提到了数据产品、数据架构师、数据开发、应用开发、分析师……多个角色。既然数据中台要用到这么多工具,又涉及这么多角色,如果没有配套的协同流程和规范,那也没办法达到数据中台高效、高质量、低成本的建设目标。来看几件有意思的事儿。
郝有才(数据开发)修改了数据中台一个数据加工任务,变更了产出的数据表字段,因为没有通知到下游数据的负责人,结果影响了 10 多个任务,大量数据应用出现异常。这属于比较典型的“协作事故”,咱们再接着看一个跨团队之间协作的问题。
张漂亮(业务系统的服务端开发)今天业务上线,她提交了数据库变更工单,修改了商品交易明细表的商品类型枚举值。但这个升级并没有通知数据部门,结果导致基于商品类型计算的多个指标数值出现错误,严重影响了第二天多个数据产品的数据产出。
这些教训告诉我们,建设数据中台是一项系统性的工程,你不但要有技术的思维,更要有管理者的视角。所以接下来,我会带你了解数据中台中三个最常见的协作流程:数据研发、数据分析、资产管理。我们一起看一下,不同角色使用场景化的工具产品是如何进行高效协作的?
因为流程协作涉及的料也很多,我会用两讲的时间来讲这部分内容。今天,我们就先从数据研发的场景讲起,如果你是一名普通的数据开发,你肯定很熟悉下面的这些场景。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据中台实战课》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(8)

  • 吴科🍀
    五一节,老师还在发布新课,赞!
    我们业务部门提新需求,首先去标签系统提需求,如果是已有的指标就分配相关的权限。如果是新的指标就分配给数据开发人员进行开发。
    传统的离线指标,关键上游系统变更沟通好,及时通知数据研发部门,更新元数据管理。数据研发完成后,根据数据依赖配置好调度,并设置报警规则。
    对实时指标还需要进一步宣导,比如实时计算近三个月的客服拨打各省电话各渠道的排名,范围太大实时计算几乎实现不了。
    实时计算指标的窗口范围,对应spark/flink的窗口大小,一般不要超过1-2天,否则计算压力会很大。
    目前的实时计算,还是需要写java或者scala的任务。后续上线实时计算平台,可以写SQL完成实时任务的开发,提高研发效率。
    老师,你们实时计算与离线计算是怎么分工的,数据开发需要具备怎样的技能呢。

    作者回复: HI, 吴科,
    今年之前,网易的离线和实时数据架构,还是采用的Lamda架构,即实时采用kafka+flink的方式,离线采用spark+hdfs的方式,从ods原始数据开始,kafka会归档一份数据到hdfs,然后分别计算,在数据应用场景上,T+1的数据用离线计算的,T+0的数据用实时链路的。历史数据以离线计算为准。

    今年,我们引入的iceburg,正在研发批流一体的实时数据中台架构,iceburg可以实现upsert功能,可以实时更新,避免merge操作。用iceburg统一离线和实时的存储,同时在计算引擎上,主要使用flink,然后辅助用Spark进行校验。目前整套数据湖的方案还在研发中,当然Iceburg也存在一些挑战,比如怎么和现有的impala mpp集成,怎么基于iceburg文件粒度的元数据统计优化计算引擎性能,都是我们目前正在推进的工作。

    感谢你的阅读~祝好~

    2020-05-01
    4
  • leslie
    数据中台之中还是涉及了CICD和SRE的东西,看来某些知识其实现在的边界越来越淡了,没有绝对的界限-都是当下。

    作者回复: 对的哦,看来你也悟到了,其实数据中台和由微服务构建的技术中台很多技术原理都是相通的,比如数据服务,跟微服务中API网关有异曲同工之妙,这些例子还有很多,我只能说技术的原理都是相通,互相借鉴的,学透了一个,另外一个就会觉得似曾相识,当然,你也可以看看,数据中台中的核心知识点,是不是可以应用到其他的领域,比如AI中台等等,你一定也可以有新的发现。

    很多创新都是把一些其他领域实践过方法论应用在一个新的领域,解决了新领域的某些问题,所以沉淀这些方法论就很重要,这也是每个公司为什么在职级晋升答辩时候,很看重这方面能力的原因。

    这里多说了两句,希望对你有所帮助,感谢你的留言😃

    2020-05-03
    3
  • WeehuaZheng
    看了这篇文章,才了解到这么多数据平台工具和产品对数据中台来说是多么重要,完全的标准化开发流程,全部依赖工具自动化加人工审核。有这么一套东西,数据服务肯定质量高,效率高。

    作者回复: HI,WeehuaZheng,我在一个分享中,曾经提到过,数据建设过程中存在的效率、质量和成本的问题,背后深层次的原因,其实是流程规范、技术工具以及组织架构跟不上导致的。

    而这三个原因又是环环相扣,息息相关的。组织架构是根本,流程规范和技术工具其实是相关的,流程规范制订的再好,必须要有技术工具帮他落地,否则流程规范就会成为空中楼阁,很难实施。

    祝好~

    2020-05-26
    2
  • Sandflass
    老师五一发课辛苦了,想问一下老师做思维导图的工具是什么呀?又可以画导图又可以画表格并关联多个表格,好赞啊。

    作者回复: 我自己画图平时用的xmind的,编辑小姐姐会重新改一下,用keynote画的。

    2020-05-01
    2
  • aof
    看了这篇,真的想去一个真正在做数据的公司!

    想想自己公司在做的那些东西,真是在瞎搞😂😂

    作者回复: 或者看看是否可以说服自己的老板,建立一套规范化的数据研发,管理,应用流程?😁

    2020-05-02
    5
    1
  • 没什么大不了
    提到协作,我有一个问题,经常有这种情况,应用层不愿意使用中台的产出表(现在还没有做到做成提供数据服务的阶段),原因是应用层一旦数据出问题,需要找数据中台的研发核查是什么原因,而数据中台的研发还需要一层一层往上找,甚至找到是业务系统的问题,这样应用层觉得比较麻烦,如果是应用层自己从ods层开发,那出问题后他能快速定位到问题而不需要通过数据中台的研发就能自己解决问题,但是这样的话就会存在数据被重复开发体系不了数据的模型的复用,造成资源的浪费,请问遇到这种情况要怎么协调才好呢?如果是源头数据出问题,那应用层不会管那么多的就会认为是数据中台的责任,数据中台研发又觉得委屈,感觉是吃力不讨好的那种
    2020-06-22
  • louShang
    没有看明白, 模型设计开发 、 任务设计开发的关系和衔接 ? 模型设计如果自动代码化, 并不能解决所有的业务分析需求场景, 肯定是需要单独的sql开发的, 这个时候, 模型和任务怎么衔接 ?

    作者回复: 你好,louShang,

    模型设计完成以后,就进入到ETL开发的阶段,模型设计完成的是任务输入表和输出表的设计建模,ETL 完成的是任务代码的Coding。 当然,我们现在正在尝试的是,根据输入表和输出表,自动构建ETL任务,当然我们还仅仅是在集市层,没有复杂聚合场景下尝试,不过经过初步的测试,已经可以解放很大的数据研发的效能。

    如果一些通过自动化代码构建无法完成的场景,是需要数据开发来构建对应的任务的。模型通过模型设计中心完成设计后,发布到测试环境,然后在测试环境开发对应的ETL任务,测试通过后,模型一键发布到生产环境,任务提交上线即可。

    感谢你的提问,祝好~

    2020-05-21
  • JohnT3e
    目前遇到的问题:由于部门建设和人员能力原因,会将ETL纵向切成几个过程,每个过程由不同人去完成,导致整体上缺乏统一考虑,一次排查涉及多个人员,协调起来很费劲。个人认为对于数据开发还是横向切ETL,每个人负责一个或者几个ETL流程方便设计和维护,但同时对数据开发有一定的能力要求。

    作者回复: 你好,能具体再描述一下纵向切分和横向切分分别代表什么含义么?

    一般数据开发团队的人员划分中,是按照主题域进行组织划分的。一个主题域由几个数据开发负责。

    2020-05-01
    2
收起评论
8
返回
顶部