04 | 元数据中心的关键目标和技术实现方案

郭忆



该思维导图由 AI 生成，仅供参考

你好，我是郭忆。
在上一节课程中，我从宏观的角度，系统性地带你了解了数据中台建设的方法论、支撑技术和组织架构，从这节课开始，我们正式进入实现篇，我会从微观的角度出发，带你具体分析数据中台的支撑技术，以电商场景为例，分别讲解元数据中心、指标管理、模型设计、数据质量等技术如何在企业落地。
这节课，咱们来聊聊元数据。
为什么要先讲元数据呢？我来举个例子。在原理篇中，我提到数据中台的构建，需要确保全局指标的业务口径一致，要把原先口径不一致的、重复的指标进行梳理，整合成一个统一的指标字典。而这项工作的前提，是要搞清楚这些指标的业务口径、数据来源和计算逻辑。而这些数据呢都是元数据。
你可以认为，如果没有这些元数据，就没法去梳理指标，更谈不上构建一个统一的指标体系。当你看到一个数 700W，如果你不知道这个数对应的指标是每日日活，就没办法理解这个数据的业务含义，也就无法去整合这些数据。所以你必须要掌握元数据的管理，才能构建一个数据中台。
那么问题来了：元数据中心应该包括哪些元数据呢？ 什么样的数据是元数据？
元数据包括哪些？结合我的实践经验，我把元数据划为三类：数据字典、数据血缘和数据特征。我们还是通过一个例子来理解这三类元数据。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

元数据中心是数据中台建设中的关键组成部分，包括数据字典、数据血缘和数据特征三类元数据。业界产品如Netflix的Metacat和Apache Atlas提供了有益的设计思路，Metacat采用多数据源集成型架构设计，支持不同数据源的统一元数据层，而Apache Atlas实现了实时数据血缘采集。网易元数据中心设计考虑了多业务线、多租户支持、多数据源的支持、数据血缘、与大数据平台集成和数据标签等五个关键目标。数据地图作为元数据中心的界面，提供了多维度的检索功能，数据预览、收藏和权限申请等功能，对于提高数据发现的效率，实现非技术人员自助取数有重要作用。文章强调了元数据中心设计上的扩展性、数据血缘的字段级别支持以及数据地图的重要性。元数据中心作为数据中台的基石，提供了数据治理的必须的数据支撑。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《数据中台实战课》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(68)

最新
精选

麻婆豆腐
郭老师好，听了您的课，感觉个个都直击痛点啊！本节课里数据字典和数据血缘感觉都有开源的可以参考或者直接使用，那么数据特征的管理是怎么处理的呢？手动维护吗？比如标签、关联指标之类描述性的。
作者回复: 感谢你的肯定，这也确实是我们在网易数据中台构建过程中遇到的真实问题沉淀总结而来的。数据特征，标签的维护，其实是靠基于元数据中心之上的各个数据中台支撑产品下沉到元数据中心上的。比如指标系统创建了一个指标，在模型设计中，我们会为某个表的某个字段关联一个指标，然后指标和表就产生了关联关系，就会下沉到元数据中心中，以标签的形式存在。标签的来源，来自各个基于元数据中心的数据中台工具产品。
2020-04-13
5
14
Silence L
郭老师好，看了元数据我又两个问题请教一下： 1.文中元数据中心依赖了Atlas，ranger，neo4j，es，kafka等，是否依赖的太多，太重 2.ranger通过tag实现权限管理，是否数据权限管理都使用ranger，不会另外单独一个数据权限模块么？还有一个额外的非本篇的问题，在网易大数据环境中，是否使用了kerberos？
作者回复: 1. 元数据中心并没有依赖atlas，我们是参考atlas的数据血缘runtime血缘采集方式，实现了数据血缘部分，他与ranger是集成关系，可以基于tag实现授权。neo4j是元数据中心底层的图数据库，es提供了元数据的检索，kafka主要是接受采集来的实时血缘，这三个系统是元数据中心必须依赖的。 2. 数据权限，我们统一使用ranger来管理。产品的数据权限管理模块，底层是基于ranger实现包装的。 3. 在网易大数据环境中，我们基于kerberos实现用户认证。我看你提到了很多关于用户、认证、权限相关的问题，我会在第10讲数据安全中，重点介绍网易数据中台安全保障的5大机制，欢迎你继续阅读。
2020-04-13

10
惜心（伟祺）
业务指标数据来源加工sql 把数据生命周期当作产品服务，提供给公司人员使用和公司把具体产品提供给外面实验是一个思路使用这些表的员工就是公司核心用户，平台上孵化更多产品服务客户一层一层的内聚
作者回复: 对的，其实思路是一致的，数据产品可以看成是一个C端产品，它的客户不是开发，而是运营，所以在产品设计上，要尽可能的降低门槛，注重引导。
2020-04-10
3
10
Galen
感觉一般的小团队，搞不定啊
作者回复: 你好，其实不然，元数据中心业界有开源的产品，其实最差也可以用开源的来搭一套，只是没有那么易用罢了。元数据中心本身还是一个偏实现层的产品，基于元数据中心之上，我会为你介绍五个元数据的应用场景，这部分开源的产品会比较少涉及，但是如果你能深入理解这些产品背后设计思想，应用场景，解决的问题，即使你要选取外面的商业化产品，你也可以有自己的一个判断。感谢你的阅读，期待与你在留言区再次相遇~
2020-04-11
4
9
Marco
老师，如果表数据是通过java 程序的etl，又如何解析血缘关系？
作者回复: 目前，我们数据中台中所有的数据都是以表的形式存在的，血缘都是以表的血缘。并没有做文件、数据集的血缘。感谢你的阅读，期待与你在留言区再次相遇。
2020-04-10

6
旺仔
“数据字典部分，我们参考了 Metacat 实现，我们由一个统一的 Connector Mananger 负责管理到各个数据源的连接。对于 Hive、MySQL，元数据中心并不会保存系统元数据，而是直接连数据源实时获取。对于 Kafka、HBase、Redis 等 KV，我们在元数据中心里内置了一个元数据管理模块，可以在这个模块中定义 Value 的 schema 信息。” 老师您好，这部分有个细节的问题想了解下，你们在元数据平台会保存表基础信息么，比如保存表名作为一个关联的依据，然后查详情的时候 connector 去获取表的字典信息，因为平台本身要去加一些标签的话也需要有个载体，如果是这样的话，是定期同步表的列表到元数据平台吗？
作者回复: 查询的话，走的是ES，我们会把对应数据源的表结构信息同步到ES一份，方便做快速的查询。标签也在ES中，标签分为表级别的和字段级别的，分别打在字段和表名上。感谢你的提问~
2020-05-05

5
Robbin
在传统企业里，高层领导都是业务出身，而像元数据中心这种产品，如何能说服业务领导同意建设，同时数据地图在设计时如何能让纯业务人员感受到其价值？
作者回复: 你好，你说的很对，元数据中心本身是一个偏实现层的产品，领导其实根本就不关心是否存在这样的一个数据中台的底层。但是数据地图，是元数据中心的界面，通过数据地图，领导可以看到数据中台的统一元数据视图，另外，结合数据地图的使用频率、使用范围，可以凸显数据地图的价值。数据地图在设计时，一方面他的使用对象是数据开发，另外一方面，他的使用对象又是业务人员。让业务人员感受到数据地图的价值，主要是能够让业务人员搜索指标、数据报表，帮助他们快速找到自己想要的数据。无论是数据表，还是数据报表，还是指标，都能够通过数据地图进行搜索和导览。
2020-04-11

5
JohnT3e
我能想到的一个场景是：静态血缘解析可以对一个正在开发的SQL提供参考信息，看系统中表有哪些SQL处理，避免SQL冗余和冲突。
作者回复: 我来举个场景，你来看看。当我们要提交任务上线，建立任务依赖时，如果我们依赖的表，还没有被调度产生数据，此时就会导致我们根据这张表找不到表的产出任务，系统就无法自动推荐依赖任务。所以此时就需要静态血缘的介入啦。对于还未执行，但是保存，SQL语法检查通过的任务，我们可以通过解析SQL获取静态血缘，然后当其他任务读取这张表，要建立到这张表产出任务的依赖时，我们可以根据静态血缘，找到这张表的产出任务。欢迎你继续在留言区与我互动~
2020-04-10
3
5
hantics
郭老师好，我们遇到一个组织架构问题，业务都不愿做数据治理，因为没有KPI，而中台方又对数据没那么了解，导致主题域/指标梳理困难
作者回复: 所以数据中台，既要独立于业务，又不能脱离业务，数据中台，数据产品（互联网公司希望叫数据pd）角色很关键，他要深入业务，了解业务目标，要通过数据，帮助业务实现目标，孵化数据产品，收管指标。
2020-07-03

4
0xFFFFFFFF
我看文章的时候一直在想，所有的处理和计算是如何都保证是由SQL完成的？如果数据的计算逻辑是用户的程序完成的，最后只是写到了table里面，这时候如何保证数据血缘？
作者回复: 你好~ MR和Spark，非SQL的代码，在运行时，hadoop client和Spark client也可以通过Plugin的方式获取到输入表和输出表的关系，并不一定非要SQL。感谢你的提问~祝好
2020-05-21
3
4

收起评论