作者回复: 感谢你的认可,希望对你有所帮助!
作者回复: 非常感谢你的认可,真的有点小感动了,希望对你的工作和团队有所帮助,有时间可以来杭州喝茶~祝好~
作者回复: 你好~ 很多朋友都会说,我怎么知道我现在建设的是一个中台,还是一个基于Hadoop之上构建的数据仓库呢? 这还要从中台的内涵来讲,中台的核心,包括两部分,其一是OneData,其二是OneService。检验第一个,你是不是OneData,我们就要看,你的数据模型复用度如何? 是否存在跨层引用,数据是否符合规范? 详细的这部分内容可以参考我在模型设计章节提出的如何度量数据中台的模型设计。其二,就是OneService,核心是数据服务化,就是你的数据,是不是通过API服务的方式实现对外的解耦,能不能实现接口的复用。 我觉得这是评估你建设的是不是一个真的数据中台的两个比较基本的判断方法~
作者回复: 领悟很深刻!赞!
作者回复: 你好,感谢你的认可,也非常高兴,自己的一些经验可以帮助到你,让你有所收获。 数据中台是企业数据应用发展到一定阶段必然的选择,在数据中台建设中,建议采用渐进式的建设方法,结合数据应用场景,以1~2个场景作为出发点,关键是建立规范化的数据建设流程,让数据能够真正在业务场景中用起来。 我把一般企业数据建设和应用划分为4个阶段,第一个阶段,是BI 报表阶段,这个时候数据以可视化展现为主要目标。第二个阶段,是大数据平台阶段,主要是面临各种异构数据源系统,需要对数据进行清洗加工,ETL。第三个阶段,企业数据应用场景深化,需要结合具体业务场景,研发一些具备从数据展现,持续监控,发现问题,诊断问题,给出决策建议,到一键执行的完整闭环的数据产品,构建产品矩阵,此时就会涉及到数据中台的建设,强调数据和接口的共享和复用。最后数据应用会向实时化和智能化迈进,实时数据中台和AI中台的建设由此开展。 不过最近,我在思考,可能在第一个阶段和第二个阶段之间,还存在一个轻量化数仓的阶段,本身企业的数据量还不需要引入Hadoop这么重的分布式架构,需要轻量化的ETL解决方案,例如kettle,所以可能有1.5阶段轻量化数仓。 看到你的留言,一激动,多说了两句,把最近的一些想法也简单聊了两句,欢迎你有任何新的想法和经验,也可以在留言区与我们分享~ 再会~祝好~
作者回复: 嗯嗯,不好意思,最近回复的慢了一点,因为有好几个问题,问的都挺好的,我想组织一下,稍微花点时间详细回复一下。我这两天就会回复完的哈~ 感谢你的认可,也希望我们这些经验能帮助到你的日常工作~
作者回复: 对的,抓住业务痛点,用数据中台的方法论帮助业务解决当下的问题,才能凸显数据中台的价值。数据中台是数据建设发展到一定阶段的必然选择,所以不要急,如果现在没遇到这些问题,说明规模或者深度还不到,不过迟早一天会遇到,可以先按正确的方法去建设,到时候就不会出现“先污染,后治理”的问题啦! 也感谢你的阅读,祝好!
作者回复: 你好,这门课程,主要介绍的是数据中台的落地实践,数据中台的核心在于OneData和OneService,所以并没有写Hadoop和调度平台,前者属于大数据的计算、存储引擎,后者属于大数据开发平台的范畴。 开源Hadoop的运维确实复杂度很高,但是网易从09年就开始搭建Hadoop集群,还有一直Hadoop的内核开发团队,针对Hadoop做了很多功能增强,比如垃圾回收站机制,另外,我们还自己研发了一套easyops的自动化安装、运维的系统,可以监测任务的大规模异常,通过工具化的方式,提高的运维的效率。 调度平台,我们是基于azkaban二次开发的,其他的oozie、airflow其他企业也有用。调度功能相对还是非常复杂的,尤其是大规模故障恢复的时候,尤为重要。 感谢你提问,祝好~
作者回复: 你好,希望对你有所帮助,有什么问题可以在留言区与我互动。
作者回复: 你好,首先我先回答下第一个问题。 数据中台,不能产品化, 但是数据中台的构建工具可以产品化,我们网易现在也提供了整个数据中台构建的完整工具链,但是我们没法卖一个数据中台,因为数据中台是带数据的,而且是根据每个企业的业务过程构建的,不能完全复制照搬,但是中台中的模型、数据分析门户,在行业内相似业务过程之间,是可以被复制的。 第一个问题回答以后,第二个问题,也就明朗了,没有跨行业、跨公司的数据中台通用解决方案,但是可以有跨行业、跨公司的数据中台构建工具,方法论,这些是通用的,而且是构建数据中台必须的。行业内,不同企业之间,模型具备一定的复用性。 我觉得数据中台,不可能提供SaaS化的服务,如果对这个问题感到困惑,说明还没有真正理解数据中台的内涵。但是数据中台的支撑工具,比如指标系统、DQC、数据资产中心、数据地图,完全是可以产品化的。 最后一个问题,未来数据中台的迭代方向:我觉得有几个: 第一个实时化。目前的数据中台方案,大部分是基于离线的hive表实现的,实时数据中台,构建于实时数据湖之上,能够实现批流一体。 第二个方向,是智能化,比如DQC,添加稽核规则,具体添加什么规则,规则的阈值怎么设定,最好产品层面,可以根据历史数据,进行推荐。 第三个方向,是容器化。数据中台构建于hadoop之上,spark on k8s技术日趋成熟,后续在线和离线统一,是趋势。 感谢你的提问~祝好~ 最近我们在由网易举办的数字+大会上发布了网易数据生产力,即数据中台+数据产品工具栈解决方案,欢迎了解~