数据中台实战课
郭忆
网易大数据专家
31971 人已学习
新⼈⾸单¥59
登录后,你可以任选2讲全文学习
课程目录
已完结/共 19 讲
数据中台实战课
15
15
1.0x
00:00/00:00
登录|注册

08 | 交付速度和质量问题解决了,老板说还得“省”

思考时间
成本治理中心
实现精细化成本管理
成本的陷阱
精细化成本管理

该思维导图由 AI 生成,仅供参考

你好,我是郭忆。
在上一节课中,我们讨论了如何保障数据中台的数据质量,让数据做到“准”。我认为,除了“快”和“准”,数据中台还离不开一个“省”字。尤其是随着数据规模越来越大,成本越来越高,如果不能合理控制成本,还没等你挖掘出数据的应用价值,企业利润就已经被消耗完了。
所以,能否做到精细化的成本管理,关乎数据中台项目的成败。还是分享一个我见过的事儿。
某电商业务数据建设资源增长趋势(CU= 1vcpu + 4G memory)
这张图展示了某电商平台的大数据资源消耗增长趋势,尤其值得你关注的是,到了 2019 年,全年的资源规模已经达到了 25000CU,全年机器预算达到了 3500W。对一个在创业的企业来说,这显然是一笔不小的开支。
终于有一天,数据团队的负责人李好看(化名)就被 CEO 叫到了办公室,CEO 问了几个问题:
这 3500W 花在什么业务上?
你们做了哪些成本优化的举措,效果如何?
一系列的灵魂拷问,直接把李好看问懵了,他心想:团队的成本是按机器又不是数据应用核算的。在数据中台中,数据应用之间的底层数据是复用的,那具体每个数据产品或者报表花了多少钱,自己没有这样的数据啊,怎么可能知道。
可对 CEO 来说,这些问题很重要,因为资源总是有限的,他必须确保资源都用在战略目标的关键节点上。比如,对于电商团队,今年的核心 KPI 是提升单个注册会员在平台的消费额,那从老板角度来讲,他必须确保资源都投入与 KPI 相关业务中,例如基于数据对注册会员进行精准化营销,来提升会员在平台的消费额。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

数据中台的精细化成本管理对企业发展至关重要。本文指出了在建设数据中台时容易陷入的8种成本陷阱,并提出了相应的解决方法。首先,通过全局资产盘点,企业可以建立全链路的数据资产视图,并计算末端数据的成本和价值。其次,通过发现问题,重点关注持续产生成本、低价值的数据应用和高消耗的数据,以制订相应的策略进行治理优化。最后,通过治理效果评估,企业可以量化治理成果,节省资源消耗,体现数据部门的价值,支撑业务并为公司省钱。这些方法不仅可以帮助企业避免成本陷阱,还能够实现精细化成本管理,节省资源开支,为企业的发展提供有力支持。 文章还介绍了成本治理中心的重要性,强调了持续发现问题并进行治理优化的必要性。同时,通过介绍EasyCost平台,强调了系统化方式对成本管理的重要性。此外,文章提到了数据中台的潜在成本陷阱,以及精细化成本管理的方法,包括对无用数据的下线、低价值应用的下线以及高消耗任务的优化。 最后,文章提出了一个思考问题,即如何对存在大量字段的宽表进行成本优化。通过这些内容,读者可以快速了解数据中台成本管理的重要性、成本陷阱及解决方法,以及对宽表成本优化的思考。这些内容对于技术人员和企业决策者来说都具有重要的参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据中台实战课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(23)

  • 最新
  • 精选
  • 君为
    根据字段访问频率和指标时效性,通常优化大宽表的思路有: 一、优化访问频率低并且时效性低的字段:对宽表的任务进行拆分,将这些字段拆出来一个或多个任务单独跑,根据实际情况设置每个任务执行计划cron的频率。这些任务会生成临时变,保留最近的数据。在宽表任务中进行字段合并union all,拆出来的字段就不需要再计算。 二、优化时效性高的字段,例如客流量越实时越好。同样拆出来单独任务跑数据,生成临时表,设置高频率任务执行计划,根据一致的维度,对宽表进行字段更新。

    作者回复: 思路挺好的~可以通过字段血缘,获取字段的访问热度~ 感谢你的回答~期待与你在留言区再次相遇~

    2020-04-20
    12
  • Nick
    收货良多,简直太赞了~ 如果郭忆出实体书我第一时间购买😊

    作者回复: 感谢你的认可啦,其实有写书的想法,我连名字都想好了,《网易数据中台实践之路》,只是想拿极客时间先练练手~祝好~

    2020-06-01
    4
    10
  • Geek_f071bc
    老师,请问下。怎么获取到高峰时期一个任务使用了多少核cpu,多少G内存资源的数据?如何获取哪些用户使用了哪些表?

    作者回复: 你好,yarn 上面的任务日志中都有相关的信息,通过解析日志可以获取的到任务每个application消耗的资源。 哪些用户使用了哪些表,可以通过数据血缘和执行时用户的keytab建立关系,或者再简单一点,再提供SQL查询的系统中,记录用户和SQL的关系。但是这样可能覆盖率不全。 感谢你的阅读~

    2020-04-20
    3
    5
  • leslie
    其实最大的问题不只是表过于宽,而是这种表的做了所有重负荷的操作且索引的效率很难平衡到最合理,甚至设计方面就有缺陷,这才是后面处理起来最麻烦的事情。 关于老师今天课程的问题其实有一个最简单的方式-分表,不过分表必然带来程序端大量的改动这是无法避免但是可能是最快捷实际的方式。 可能最近的课程刚好是我看到和碰到的一些典型问题,有时确实觉得处理起来很棘手;中台其实就是在解决各种棘手的问题。 谢谢老师今天的分享,期待后续课程。

    作者回复: 你好,看到你也遇到了一样的问题。 拆表是解决方案,可以根据字段血缘,按照字段的使用热度进行拆分。 关于应用层的修改,可以通过数据服务的逻辑模型解决。 感谢你的提问,希望能够对你的日常工作提供一些思路~

    2020-04-20
    4
  • 你好
    老师,还有一个问题, 网易的ods和dwd分别是什么压缩格式,parquit还是lzo?考虑压缩率和分片了吗,谢谢

    作者回复: 你好,一般lzo用的比较多,支持 split,在保证压缩效率的前提下,有着相对稳定的压缩比。

    2020-05-01
    2
  • 你好
    老师, 1,对于接入层和明细层这两层都全量存储是不是有点重复? 2,汇总层存储周期设置为一月或一年,那有必要添加一个归档层吗? 网易是咋设置的? 谢谢

    作者回复: 你好 1. 不重复, 你说的接入层,是指原始数据ODS嘛? ODS是贴源的数据,就是业务系统是什么样子的,到数据中台中就是什么样子的。DWD 是明细数据,清洗后的数据,比如一些非法的数据格式已经过滤掉了,另外还聚合了一些基本的维度信息。所以ODS和DWD 并不存在重复的问题。 2. 汇总层的数据一般不保留全部历史数据,归档一般在明细数据层保存完整的历史数据。 感谢你的提问~

    2020-05-01
    2
  • Olivia_饶
    满满的干货

    作者回复: 你好~ 感谢你的认可,希望对你有所帮助,能够解决你的问题。 期待在留言区与你交流~

    2020-04-25
    2
  • 蒋良俊
    非常实用的经验,谢谢分享。

    作者回复: 感谢你的认可和鼓励,希望对你有帮助,期望与你再次相遇。

    2020-04-20
    2
  • 张振华
    老师,从业务数据库中把源数据导入到数据屏幕中,这个数据同步的过程是怎么处理的,是定时全量同步,还是增量同步,如果中间出问题了,怎么处理?有没有类似的方案,推荐下

    作者回复: 你好,数据屏幕?打错了吧?是数据中台? 我们是通过数据传输中心同步的, 支持全量同步和增量同步两种方式,还支持实时和批量。 对于全量的同步,如果出错的话,可以单个线程重试解决。对于增量同步,根据checkpoint重新拉就可以了。 感谢你的阅读~

    2020-04-22
    1
  • 我觉得要根据计算成本和使用频度把表拆开成多张表,使用频度低计算成本高的字段独拆出来,方便计算成本和降低风险

    作者回复: 你好,说的思路是对的,这个要根据字段血缘,计算字段的访问热度解决~

    2020-04-22
    1
收起评论
显示
设置
留言
23
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部