08 | 交付速度和质量问题解决了,老板说还得“省”
该思维导图由 AI 生成,仅供参考
- 深入了解
- 翻译
- 解释
- 总结
数据中台的精细化成本管理对企业发展至关重要。本文指出了在建设数据中台时容易陷入的8种成本陷阱,并提出了相应的解决方法。首先,通过全局资产盘点,企业可以建立全链路的数据资产视图,并计算末端数据的成本和价值。其次,通过发现问题,重点关注持续产生成本、低价值的数据应用和高消耗的数据,以制订相应的策略进行治理优化。最后,通过治理效果评估,企业可以量化治理成果,节省资源消耗,体现数据部门的价值,支撑业务并为公司省钱。这些方法不仅可以帮助企业避免成本陷阱,还能够实现精细化成本管理,节省资源开支,为企业的发展提供有力支持。 文章还介绍了成本治理中心的重要性,强调了持续发现问题并进行治理优化的必要性。同时,通过介绍EasyCost平台,强调了系统化方式对成本管理的重要性。此外,文章提到了数据中台的潜在成本陷阱,以及精细化成本管理的方法,包括对无用数据的下线、低价值应用的下线以及高消耗任务的优化。 最后,文章提出了一个思考问题,即如何对存在大量字段的宽表进行成本优化。通过这些内容,读者可以快速了解数据中台成本管理的重要性、成本陷阱及解决方法,以及对宽表成本优化的思考。这些内容对于技术人员和企业决策者来说都具有重要的参考价值。
《数据中台实战课》,新⼈⾸单¥59
全部留言(23)
- 最新
- 精选
- 君为根据字段访问频率和指标时效性,通常优化大宽表的思路有: 一、优化访问频率低并且时效性低的字段:对宽表的任务进行拆分,将这些字段拆出来一个或多个任务单独跑,根据实际情况设置每个任务执行计划cron的频率。这些任务会生成临时变,保留最近的数据。在宽表任务中进行字段合并union all,拆出来的字段就不需要再计算。 二、优化时效性高的字段,例如客流量越实时越好。同样拆出来单独任务跑数据,生成临时表,设置高频率任务执行计划,根据一致的维度,对宽表进行字段更新。
作者回复: 思路挺好的~可以通过字段血缘,获取字段的访问热度~ 感谢你的回答~期待与你在留言区再次相遇~
2020-04-2012 - Nick收货良多,简直太赞了~ 如果郭忆出实体书我第一时间购买😊
作者回复: 感谢你的认可啦,其实有写书的想法,我连名字都想好了,《网易数据中台实践之路》,只是想拿极客时间先练练手~祝好~
2020-06-01410 - Geek_f071bc老师,请问下。怎么获取到高峰时期一个任务使用了多少核cpu,多少G内存资源的数据?如何获取哪些用户使用了哪些表?
作者回复: 你好,yarn 上面的任务日志中都有相关的信息,通过解析日志可以获取的到任务每个application消耗的资源。 哪些用户使用了哪些表,可以通过数据血缘和执行时用户的keytab建立关系,或者再简单一点,再提供SQL查询的系统中,记录用户和SQL的关系。但是这样可能覆盖率不全。 感谢你的阅读~
2020-04-2035 - leslie其实最大的问题不只是表过于宽,而是这种表的做了所有重负荷的操作且索引的效率很难平衡到最合理,甚至设计方面就有缺陷,这才是后面处理起来最麻烦的事情。 关于老师今天课程的问题其实有一个最简单的方式-分表,不过分表必然带来程序端大量的改动这是无法避免但是可能是最快捷实际的方式。 可能最近的课程刚好是我看到和碰到的一些典型问题,有时确实觉得处理起来很棘手;中台其实就是在解决各种棘手的问题。 谢谢老师今天的分享,期待后续课程。
作者回复: 你好,看到你也遇到了一样的问题。 拆表是解决方案,可以根据字段血缘,按照字段的使用热度进行拆分。 关于应用层的修改,可以通过数据服务的逻辑模型解决。 感谢你的提问,希望能够对你的日常工作提供一些思路~
2020-04-204 - 你好老师,还有一个问题, 网易的ods和dwd分别是什么压缩格式,parquit还是lzo?考虑压缩率和分片了吗,谢谢
作者回复: 你好,一般lzo用的比较多,支持 split,在保证压缩效率的前提下,有着相对稳定的压缩比。
2020-05-012 - 你好老师, 1,对于接入层和明细层这两层都全量存储是不是有点重复? 2,汇总层存储周期设置为一月或一年,那有必要添加一个归档层吗? 网易是咋设置的? 谢谢
作者回复: 你好 1. 不重复, 你说的接入层,是指原始数据ODS嘛? ODS是贴源的数据,就是业务系统是什么样子的,到数据中台中就是什么样子的。DWD 是明细数据,清洗后的数据,比如一些非法的数据格式已经过滤掉了,另外还聚合了一些基本的维度信息。所以ODS和DWD 并不存在重复的问题。 2. 汇总层的数据一般不保留全部历史数据,归档一般在明细数据层保存完整的历史数据。 感谢你的提问~
2020-05-012 - Olivia_饶满满的干货
作者回复: 你好~ 感谢你的认可,希望对你有所帮助,能够解决你的问题。 期待在留言区与你交流~
2020-04-252 - 蒋良俊非常实用的经验,谢谢分享。
作者回复: 感谢你的认可和鼓励,希望对你有帮助,期望与你再次相遇。
2020-04-202 - 张振华老师,从业务数据库中把源数据导入到数据屏幕中,这个数据同步的过程是怎么处理的,是定时全量同步,还是增量同步,如果中间出问题了,怎么处理?有没有类似的方案,推荐下
作者回复: 你好,数据屏幕?打错了吧?是数据中台? 我们是通过数据传输中心同步的, 支持全量同步和增量同步两种方式,还支持实时和批量。 对于全量的同步,如果出错的话,可以单个线程重试解决。对于增量同步,根据checkpoint重新拉就可以了。 感谢你的阅读~
2020-04-221 - 邓我觉得要根据计算成本和使用频度把表拆开成多张表,使用频度低计算成本高的字段独拆出来,方便计算成本和降低风险
作者回复: 你好,说的思路是对的,这个要根据字段血缘,计算字段的访问热度解决~
2020-04-221