05 | 如何统一管理纷繁杂乱的数据指标?
该思维导图由 AI 生成,仅供参考
- 深入了解
- 翻译
- 解释
- 总结
构建全局一致的指标字典是数据管理中的重要问题,本文通过详细介绍了解决方法。作者首先强调了元数据在指标管理中的重要性,并提出了数据中台OneData 数据体系的概念。通过电商业务案例,作者阐述了指标口径不一致所带来的问题,并总结了7个常见的指标问题。随后,作者提出了解决指标口径不一致问题的方法,即构建全局一致的指标口径,输出企业的指标字典。文章还介绍了指标管理的方法,包括面向主题域管理、拆分原子指标和派生指标、指标命名规范、关联的应用和可分析维度以及分等级管理。此外,文章还提到了指标系统的重要性,以及基于指标系统构建全局的指标字典的步骤。整体而言,本文深入浅出地介绍了指标管理中常见的问题及解决方法,对于数据管理和数据质量方面的技术人员具有一定的参考价值。
《数据中台实战课》,新⼈⾸单¥59
全部留言(68)
- 最新
- 精选
- Geek_e1bb7a郭老师,我想问一个有关原子指标的问题,基金公司的基金规模 这个算不算原子指标?因为他每天都在变,你不加上限定的日期根本不行
作者回复: 基金规模,这个应该是一个原子指标。 我想跟你强调一个点,你听了就明白了。你有没有想过,为什么要区分原子指标和派生指标呢? 全当原子指标,不就好了,这样能确保每个指标的业务口径都在指标系统里面强管理。 但是这样的后果,是指标的管理工作量太大了,而且整个数据分析的瓶颈会压在指标的管理上。所以就想出来一个方法,能不能把原子指标中,不涉及口径的指标,可以拆出来,而这些就是派生指标。 派生指标和原子指标有明确的区分,派生指标是时间周期+统计粒度+修饰词+原子指标。 时间周期和统计粒度并不涉及指标的口径。 所以关键就在了修饰词这个上面,到底哪些修饰词是带口径的,哪些是不带口径的,我觉得难度就在这个上面。比如新用户销售额,这个是原子还是派生,很多人会误把他作为派生,其实新本身这个词是带口径的,新的定义大家可能是不一致的,而且也没有新对应的维度,所以我们会把新用户销售额作为原子指标。 那什么修饰词是不带口径的呢? 比较常见的就是一个维度属性值组成的修饰词,比如黑卡会员销售额、母婴销售额这种,他们本身对应的维表的,所以大家对维度的理解是一致的。 针对你的这个Case,基金规模,这个属于原子指标。加上日期,比如最近一天基金规模,那这个属于派生指标。派生指标一定是要根据某个原子指标来派生的,所以要先有原子指标基金规模的口径定义。 感谢你的阅读,期待与你在留言区再次相遇~
2020-04-15947 - 许长贵我认真的读完了这一篇的内容,感觉受益颇多,我看了一下下面的一些留言,很多是关于原子指标和派生指标的划分不是很明确,我斗胆说一下我的理解,指标定义里面需要区分口径的,并且没有其他任何和口径相关的修饰词,那么就可以作为原子口径,有原子口径,并且有任何和口径无关的的修饰词的指标就是派生指标
作者回复: 你好,长贵,关于指标管理,尤其是原子指标和派生指标拆分这部分的内容,其实确实理解起来比较有难度。 关于你的理解,我认为是对的。但是在具体实施过程中,有没有口径,跟口径相不相关,这部分其实比较难判断。 我结合自己的经验,有一个比较容易判断的标准,就是如果修饰词有对应的维表,那就可以作为派生指标,如果修饰词没有对应的维表,那就作为原子指标管理。 举个例子来说吧,新会员消费额,新没有对应的维表,就不能作为派生指标。黑卡会员消费金额,有黑卡对应的会员类型维度,所以黑卡会员消费金额是派生指标。这样就比较容易落地了。 感谢你的阅读~期待与你再留言区再次相遇~
2020-05-05225 - richard老师,请教下,关于指标的在系统中的唯一性是怎么实现的,看文章说是新建一个指标需要人工评审,唯一性是在评审的时候人工去确认吗,还是说走什么系统的方法进行检验,谢谢😜
作者回复: 这个问题问的蛮好的,如何帮助指标管理者快速的发现这是一个重复的指标,对于提高指标系统的管理效率很关键。 我们提供了一个文本相似性检测的功能,基于word2vector实现,可以把相似指标定义,业务口径的指标找出来,然后由人来判断是否是重复的。
2020-06-02416 - 麻婆豆腐请教下郭老师,“指标管理必须跟元数据中心关联起来,从元数据中心自动同步数仓的主题域和业务过程,同时会以特定的类型标签下沉到元数据中心对应的表和字段上,可以应用到数据地图上关联了表和指标“ 这段话看起来应该是跟数仓动态关联的,但是我看后面指标录入的时候又是手动录入的,不是很明白是手动维护呢?还是自动同步的?如果是跟数仓动态关联的话是怎么关联的呢?
作者回复: 指标业务口径的录入,是指标管理人员在指标系统内完成的,然后指标和数据模型,也就是表的关联,是在模型设计中心完成的。 指标与表关联后,指标会作为标签,落到元数据中心中,然后在数据地图上,查一张表的时候,就可以看到这个表上哪些字段对应的是哪些指标啦。 感谢你的阅读,为了让你更全面的了解整个过程,我在第12讲中,会从研发的角度,把整个各个环节串联起来,带你走一遍整个流程。
2020-04-1410 - 没什么大不了有一个业务场景:收件量,对应两种口径:结算口径和操作口径,结算口径和操作口径来源同一个dwd表,那么这个收件量作为原子指标,结算口径和操作口径作为派生指标吗?还是说结算口径和操作口径都做为原子指标呢?
作者回复: 派生指标是基于原子指标之上,通过构建派生词+时间周期,构建出来的。 派生词,我们一定以维表的属性值作为派生词,比如结算口径收件量和操作口径收件量,我们要先确定,是否有结算口径和操作口径对应的维表。一般来说,没有结算口径和操作口径的维表,所以会将结算口径收件量和操作口径收件量作为两个原子指标来处理。 这里也类同,前台毛利率、后台毛利率,虽然都有毛利率这样的字眼,但是他们两个都是原子指标。
2020-06-1028 - shen老师你好,衍生指标 支持嵌套么,有些xxx率的指标 组成非常复杂,是5+ 指标嵌套而成,在这样的情况下有什么好的建议么
作者回复: xxx率的指标,可以定义为复合指标,即由多个原子指标,按照一定的计算规则,组成。复合指标,最重要的是确保原子指标的口径是一致的。
2020-09-1326 - 沙漠里的骆驼原子指标是不是一般无法产出具体的指标数据,而仅仅是一个定义?
作者回复: 对的
2020-06-1726 - ningkun标签与指标有什么区别?对于一些营销类的数据应用会基于客户的各种标签进行组合出客群,那么这些标签在数据中台的来源是指标吗?是基于dw层的数据模型单独搞一套客户粒度的标签层吗?
作者回复: 你好,我来回到一下这个问题。 从问题中来看,你说的标签,是业务层面的标签,比如中年女性,消费金额大于100的人,这些标签都对应了一个数据集。 业务标签不是指标。业务标签是具体的数值,对应的是一个确定的数据集。 文章中指标作为一类标签,这个标签不是你描述的业务标签,而是元数据的标签,它描述的是数据的属性,并不对应一个确定的数据集。你比如,黑卡会员消费金额,这个不对应一个固定的数据集合。 标签数据一般都是根据一些指标筛选出来的维度,一个标签一般对应的是一条SQL或者一个固定的表中的数据。一般不存在独立的标签层,可以直接放到集市层中。 感谢你的阅读~
2020-04-236 - 西南偏北呆在一个被不懂大数据又装懂而且瞎指挥的公司里,苦不堪言😭
作者回复: 积极布道,积极洗脑,引导公司不断改进。
2020-04-1336 - 蘇上方假设派生指标是直接基于两个表的数据计算出来的,并没有落盘,那这个指标是怎么打在这个表上呢
作者回复: 这个问题问的挺好的, 有一些指标,其实并没有实际落盘,而是间接计算而来的,这种情况,我们有一种间接关联指标,会把相关联的表字段跟这个指标关联起来,并且关联方式为间接关联。这种也能够通过这个指标找到对应的表,根据表也可以知道影响了哪些指标。
2020-08-315