13 | 数据研发就只是写代码吗?
该思维导图由 AI 生成,仅供参考
- 深入了解
- 翻译
- 解释
- 总结
数据研发的关键流程和重要性 数据研发不仅仅是编写代码,而是一个系统性的工程,需要技术思维和管理者视角。本文介绍了数据中台建设中的协作流程和规范,强调了需求阶段的重要性。数据需求通常以指标的形式出现,需求的清晰定义对后续流程的高效运作至关重要。文章还介绍了数据研发的四个阶段:需求阶段、开发阶段、交付阶段和运维阶段,以及其中涉及的多个环节和角色。了解这些流程和环节对于理解数据研发的运转非常关键。此外,文章还提到了数据研发的场景和重点,以及建议关注的关键点。通过具体案例和流程介绍,帮助读者了解了数据研发的全貌和重要性。数据研发不仅仅只是编写代码,而是一个系统性的工程,需要技术思维和管理者视角。
《数据中台实战课》,新⼈⾸单¥59
全部留言(12)
- 最新
- 精选
- 吴科🍀五一节,老师还在发布新课,赞! 我们业务部门提新需求,首先去标签系统提需求,如果是已有的指标就分配相关的权限。如果是新的指标就分配给数据开发人员进行开发。 传统的离线指标,关键上游系统变更沟通好,及时通知数据研发部门,更新元数据管理。数据研发完成后,根据数据依赖配置好调度,并设置报警规则。 对实时指标还需要进一步宣导,比如实时计算近三个月的客服拨打各省电话各渠道的排名,范围太大实时计算几乎实现不了。 实时计算指标的窗口范围,对应spark/flink的窗口大小,一般不要超过1-2天,否则计算压力会很大。 目前的实时计算,还是需要写java或者scala的任务。后续上线实时计算平台,可以写SQL完成实时任务的开发,提高研发效率。 老师,你们实时计算与离线计算是怎么分工的,数据开发需要具备怎样的技能呢。
作者回复: HI, 吴科, 今年之前,网易的离线和实时数据架构,还是采用的Lamda架构,即实时采用kafka+flink的方式,离线采用spark+hdfs的方式,从ods原始数据开始,kafka会归档一份数据到hdfs,然后分别计算,在数据应用场景上,T+1的数据用离线计算的,T+0的数据用实时链路的。历史数据以离线计算为准。 今年,我们引入的iceburg,正在研发批流一体的实时数据中台架构,iceburg可以实现upsert功能,可以实时更新,避免merge操作。用iceburg统一离线和实时的存储,同时在计算引擎上,主要使用flink,然后辅助用Spark进行校验。目前整套数据湖的方案还在研发中,当然Iceburg也存在一些挑战,比如怎么和现有的impala mpp集成,怎么基于iceburg文件粒度的元数据统计优化计算引擎性能,都是我们目前正在推进的工作。 感谢你的阅读~祝好~
2020-05-0113 - leslie数据中台之中还是涉及了CICD和SRE的东西,看来某些知识其实现在的边界越来越淡了,没有绝对的界限-都是当下。
作者回复: 对的哦,看来你也悟到了,其实数据中台和由微服务构建的技术中台很多技术原理都是相通的,比如数据服务,跟微服务中API网关有异曲同工之妙,这些例子还有很多,我只能说技术的原理都是相通,互相借鉴的,学透了一个,另外一个就会觉得似曾相识,当然,你也可以看看,数据中台中的核心知识点,是不是可以应用到其他的领域,比如AI中台等等,你一定也可以有新的发现。 很多创新都是把一些其他领域实践过方法论应用在一个新的领域,解决了新领域的某些问题,所以沉淀这些方法论就很重要,这也是每个公司为什么在职级晋升答辩时候,很看重这方面能力的原因。 这里多说了两句,希望对你有所帮助,感谢你的留言😃
2020-05-0311 - Weehua看了这篇文章,才了解到这么多数据平台工具和产品对数据中台来说是多么重要,完全的标准化开发流程,全部依赖工具自动化加人工审核。有这么一套东西,数据服务肯定质量高,效率高。
作者回复: HI,WeehuaZheng,我在一个分享中,曾经提到过,数据建设过程中存在的效率、质量和成本的问题,背后深层次的原因,其实是流程规范、技术工具以及组织架构跟不上导致的。 而这三个原因又是环环相扣,息息相关的。组织架构是根本,流程规范和技术工具其实是相关的,流程规范制订的再好,必须要有技术工具帮他落地,否则流程规范就会成为空中楼阁,很难实施。 祝好~
2020-05-263 - 西南偏北看了这篇,真的想去一个真正在做数据的公司! 想想自己公司在做的那些东西,真是在瞎搞😂😂
作者回复: 或者看看是否可以说服自己的老板,建立一套规范化的数据研发,管理,应用流程?😁
2020-05-0263 - louShang没有看明白, 模型设计开发 、 任务设计开发的关系和衔接 ? 模型设计如果自动代码化, 并不能解决所有的业务分析需求场景, 肯定是需要单独的sql开发的, 这个时候, 模型和任务怎么衔接 ?
作者回复: 你好,louShang, 模型设计完成以后,就进入到ETL开发的阶段,模型设计完成的是任务输入表和输出表的设计建模,ETL 完成的是任务代码的Coding。 当然,我们现在正在尝试的是,根据输入表和输出表,自动构建ETL任务,当然我们还仅仅是在集市层,没有复杂聚合场景下尝试,不过经过初步的测试,已经可以解放很大的数据研发的效能。 如果一些通过自动化代码构建无法完成的场景,是需要数据开发来构建对应的任务的。模型通过模型设计中心完成设计后,发布到测试环境,然后在测试环境开发对应的ETL任务,测试通过后,模型一键发布到生产环境,任务提交上线即可。 感谢你的提问,祝好~
2020-05-212 - Sandflass老师五一发课辛苦了,想问一下老师做思维导图的工具是什么呀?又可以画导图又可以画表格并关联多个表格,好赞啊。
作者回复: 我自己画图平时用的xmind的,编辑小姐姐会重新改一下,用keynote画的。
2020-05-012 - JohnT3e目前遇到的问题:由于部门建设和人员能力原因,会将ETL纵向切成几个过程,每个过程由不同人去完成,导致整体上缺乏统一考虑,一次排查涉及多个人员,协调起来很费劲。个人认为对于数据开发还是横向切ETL,每个人负责一个或者几个ETL流程方便设计和维护,但同时对数据开发有一定的能力要求。
作者回复: 你好,能具体再描述一下纵向切分和横向切分分别代表什么含义么? 一般数据开发团队的人员划分中,是按照主题域进行组织划分的。一个主题域由几个数据开发负责。
2020-05-0131 - wang-possible请问,sql静态检查,有哪些开源工具吗?最好是可以自己设置规则的是,比如,关键字之间的相对位置,检查有无使用分区字段,sql嵌套层数
作者回复: 目前,这个是我们自研的,没看到有一些开源的工具产品。
2020-09-17 - 没什么大不了提到协作,我有一个问题,经常有这种情况,应用层不愿意使用中台的产出表(现在还没有做到做成提供数据服务的阶段),原因是应用层一旦数据出问题,需要找数据中台的研发核查是什么原因,而数据中台的研发还需要一层一层往上找,甚至找到是业务系统的问题,这样应用层觉得比较麻烦,如果是应用层自己从ods层开发,那出问题后他能快速定位到问题而不需要通过数据中台的研发就能自己解决问题,但是这样的话就会存在数据被重复开发体系不了数据的模型的复用,造成资源的浪费,请问遇到这种情况要怎么协调才好呢?如果是源头数据出问题,那应用层不会管那么多的就会认为是数据中台的责任,数据中台研发又觉得委屈,感觉是吃力不讨好的那种2020-06-2211
- 希言自然老师,您好~估计您已经不在关注这个课程了?抱着试试的心态,想请教下,文中“数据开发可以基于中间存储发布 API 接口,定义输入和输出参数,测试 API 后发布上线。这个时候,数据开发的工作才算完成。”这个API是以什么形式?文件?表(* 让数据应用方自行JDBC连接?)或通过其他方式例如JDBC方式写入数据需求的对象系统的表?2023-10-07归属地:上海