数据中台实战课
郭忆
网易大数据专家
31971 人已学习
新⼈⾸单¥59
登录后,你可以任选2讲全文学习
课程目录
已完结/共 19 讲
数据中台实战课
15
15
1.0x
00:00/00:00
登录|注册

13 | 数据研发就只是写代码吗?

数据建设中的流程协作问题
数据质量问题复盘和记录
报警认领、排查、修复
任务运维中心承载运维流程
应用开发创建应用,申请授权
数据发布成API接口
数据抽取到中间存储
数据服务承载数据交付流程
任务发布上线需通过审批
数据质量中心配置稽核校验规则
数据测试中心验证数据、进行数据探查和比对
数据域负责人检查模型设计的相关复用性、完善度、规范性
模型提交审批后自动发布到生产环境
模型设计包括字段关联、指标落实
数据地图用于发现已存在的表
模型设计中心承载模型设计
指标状态:待评审
指标系统承载需求场景
数据需求以指标形式出现
需求定义清晰
思考时间
运维阶段
交付阶段
研发阶段
需求阶段
数据研发流程

该思维导图由 AI 生成,仅供参考

你好,我是郭忆。
到现在,我已经讲了 10 几个数据中台的工具产品,除此之外,我还提到了数据产品、数据架构师、数据开发、应用开发、分析师……多个角色。既然数据中台要用到这么多工具,又涉及这么多角色,如果没有配套的协同流程和规范,那也没办法达到数据中台高效、高质量、低成本的建设目标。来看几件有意思的事儿。
郝有才(数据开发)修改了数据中台一个数据加工任务,变更了产出的数据表字段,因为没有通知到下游数据的负责人,结果影响了 10 多个任务,大量数据应用出现异常。这属于比较典型的“协作事故”,咱们再接着看一个跨团队之间协作的问题。
张漂亮(业务系统的服务端开发)今天业务上线,她提交了数据库变更工单,修改了商品交易明细表的商品类型枚举值。但这个升级并没有通知数据部门,结果导致基于商品类型计算的多个指标数值出现错误,严重影响了第二天多个数据产品的数据产出。
这些教训告诉我们,建设数据中台是一项系统性的工程,你不但要有技术的思维,更要有管理者的视角。所以接下来,我会带你了解数据中台中三个最常见的协作流程:数据研发、数据分析、资产管理。我们一起看一下,不同角色使用场景化的工具产品是如何进行高效协作的?
因为流程协作涉及的料也很多,我会用两讲的时间来讲这部分内容。今天,我们就先从数据研发的场景讲起,如果你是一名普通的数据开发,你肯定很熟悉下面的这些场景。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

数据研发的关键流程和重要性 数据研发不仅仅是编写代码,而是一个系统性的工程,需要技术思维和管理者视角。本文介绍了数据中台建设中的协作流程和规范,强调了需求阶段的重要性。数据需求通常以指标的形式出现,需求的清晰定义对后续流程的高效运作至关重要。文章还介绍了数据研发的四个阶段:需求阶段、开发阶段、交付阶段和运维阶段,以及其中涉及的多个环节和角色。了解这些流程和环节对于理解数据研发的运转非常关键。此外,文章还提到了数据研发的场景和重点,以及建议关注的关键点。通过具体案例和流程介绍,帮助读者了解了数据研发的全貌和重要性。数据研发不仅仅只是编写代码,而是一个系统性的工程,需要技术思维和管理者视角。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据中台实战课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(12)

  • 最新
  • 精选
  • 吴科🍀
    五一节,老师还在发布新课,赞! 我们业务部门提新需求,首先去标签系统提需求,如果是已有的指标就分配相关的权限。如果是新的指标就分配给数据开发人员进行开发。 传统的离线指标,关键上游系统变更沟通好,及时通知数据研发部门,更新元数据管理。数据研发完成后,根据数据依赖配置好调度,并设置报警规则。 对实时指标还需要进一步宣导,比如实时计算近三个月的客服拨打各省电话各渠道的排名,范围太大实时计算几乎实现不了。 实时计算指标的窗口范围,对应spark/flink的窗口大小,一般不要超过1-2天,否则计算压力会很大。 目前的实时计算,还是需要写java或者scala的任务。后续上线实时计算平台,可以写SQL完成实时任务的开发,提高研发效率。 老师,你们实时计算与离线计算是怎么分工的,数据开发需要具备怎样的技能呢。

    作者回复: HI, 吴科, 今年之前,网易的离线和实时数据架构,还是采用的Lamda架构,即实时采用kafka+flink的方式,离线采用spark+hdfs的方式,从ods原始数据开始,kafka会归档一份数据到hdfs,然后分别计算,在数据应用场景上,T+1的数据用离线计算的,T+0的数据用实时链路的。历史数据以离线计算为准。 今年,我们引入的iceburg,正在研发批流一体的实时数据中台架构,iceburg可以实现upsert功能,可以实时更新,避免merge操作。用iceburg统一离线和实时的存储,同时在计算引擎上,主要使用flink,然后辅助用Spark进行校验。目前整套数据湖的方案还在研发中,当然Iceburg也存在一些挑战,比如怎么和现有的impala mpp集成,怎么基于iceburg文件粒度的元数据统计优化计算引擎性能,都是我们目前正在推进的工作。 感谢你的阅读~祝好~

    2020-05-01
    13
  • leslie
    数据中台之中还是涉及了CICD和SRE的东西,看来某些知识其实现在的边界越来越淡了,没有绝对的界限-都是当下。

    作者回复: 对的哦,看来你也悟到了,其实数据中台和由微服务构建的技术中台很多技术原理都是相通的,比如数据服务,跟微服务中API网关有异曲同工之妙,这些例子还有很多,我只能说技术的原理都是相通,互相借鉴的,学透了一个,另外一个就会觉得似曾相识,当然,你也可以看看,数据中台中的核心知识点,是不是可以应用到其他的领域,比如AI中台等等,你一定也可以有新的发现。 很多创新都是把一些其他领域实践过方法论应用在一个新的领域,解决了新领域的某些问题,所以沉淀这些方法论就很重要,这也是每个公司为什么在职级晋升答辩时候,很看重这方面能力的原因。 这里多说了两句,希望对你有所帮助,感谢你的留言😃

    2020-05-03
    11
  • Weehua
    看了这篇文章,才了解到这么多数据平台工具和产品对数据中台来说是多么重要,完全的标准化开发流程,全部依赖工具自动化加人工审核。有这么一套东西,数据服务肯定质量高,效率高。

    作者回复: HI,WeehuaZheng,我在一个分享中,曾经提到过,数据建设过程中存在的效率、质量和成本的问题,背后深层次的原因,其实是流程规范、技术工具以及组织架构跟不上导致的。 而这三个原因又是环环相扣,息息相关的。组织架构是根本,流程规范和技术工具其实是相关的,流程规范制订的再好,必须要有技术工具帮他落地,否则流程规范就会成为空中楼阁,很难实施。 祝好~

    2020-05-26
    3
  • 西南偏北
    看了这篇,真的想去一个真正在做数据的公司! 想想自己公司在做的那些东西,真是在瞎搞😂😂

    作者回复: 或者看看是否可以说服自己的老板,建立一套规范化的数据研发,管理,应用流程?😁

    2020-05-02
    6
    3
  • louShang
    没有看明白, 模型设计开发 、 任务设计开发的关系和衔接 ? 模型设计如果自动代码化, 并不能解决所有的业务分析需求场景, 肯定是需要单独的sql开发的, 这个时候, 模型和任务怎么衔接 ?

    作者回复: 你好,louShang, 模型设计完成以后,就进入到ETL开发的阶段,模型设计完成的是任务输入表和输出表的设计建模,ETL 完成的是任务代码的Coding。 当然,我们现在正在尝试的是,根据输入表和输出表,自动构建ETL任务,当然我们还仅仅是在集市层,没有复杂聚合场景下尝试,不过经过初步的测试,已经可以解放很大的数据研发的效能。 如果一些通过自动化代码构建无法完成的场景,是需要数据开发来构建对应的任务的。模型通过模型设计中心完成设计后,发布到测试环境,然后在测试环境开发对应的ETL任务,测试通过后,模型一键发布到生产环境,任务提交上线即可。 感谢你的提问,祝好~

    2020-05-21
    2
  • Sandflass
    老师五一发课辛苦了,想问一下老师做思维导图的工具是什么呀?又可以画导图又可以画表格并关联多个表格,好赞啊。

    作者回复: 我自己画图平时用的xmind的,编辑小姐姐会重新改一下,用keynote画的。

    2020-05-01
    2
  • JohnT3e
    目前遇到的问题:由于部门建设和人员能力原因,会将ETL纵向切成几个过程,每个过程由不同人去完成,导致整体上缺乏统一考虑,一次排查涉及多个人员,协调起来很费劲。个人认为对于数据开发还是横向切ETL,每个人负责一个或者几个ETL流程方便设计和维护,但同时对数据开发有一定的能力要求。

    作者回复: 你好,能具体再描述一下纵向切分和横向切分分别代表什么含义么? 一般数据开发团队的人员划分中,是按照主题域进行组织划分的。一个主题域由几个数据开发负责。

    2020-05-01
    3
    1
  • wang-possible
    请问,sql静态检查,有哪些开源工具吗?最好是可以自己设置规则的是,比如,关键字之间的相对位置,检查有无使用分区字段,sql嵌套层数

    作者回复: 目前,这个是我们自研的,没看到有一些开源的工具产品。

    2020-09-17
  • 没什么大不了
    提到协作,我有一个问题,经常有这种情况,应用层不愿意使用中台的产出表(现在还没有做到做成提供数据服务的阶段),原因是应用层一旦数据出问题,需要找数据中台的研发核查是什么原因,而数据中台的研发还需要一层一层往上找,甚至找到是业务系统的问题,这样应用层觉得比较麻烦,如果是应用层自己从ods层开发,那出问题后他能快速定位到问题而不需要通过数据中台的研发就能自己解决问题,但是这样的话就会存在数据被重复开发体系不了数据的模型的复用,造成资源的浪费,请问遇到这种情况要怎么协调才好呢?如果是源头数据出问题,那应用层不会管那么多的就会认为是数据中台的责任,数据中台研发又觉得委屈,感觉是吃力不讨好的那种
    2020-06-22
    1
    1
  • 希言自然
    老师,您好~估计您已经不在关注这个课程了?抱着试试的心态,想请教下,文中“数据开发可以基于中间存储发布 API 接口,定义输入和输出参数,测试 API 后发布上线。这个时候,数据开发的工作才算完成。”这个API是以什么形式?文件?表(* 让数据应用方自行JDBC连接?)或通过其他方式例如JDBC方式写入数据需求的对象系统的表?
    2023-10-07归属地:上海
收起评论
显示
设置
留言
12
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部