数据中台实战课
郭忆
网易大数据专家
立即订阅
2671 人已学习
课程目录
已更新 11 讲 / 共 16 讲
0/2登录后,你可以任选2讲全文学习。
开篇词 (1讲)
开篇词 | 数据中台,是陷阱?还是金钥匙?
免费
原理篇 (4讲)
01 | 前因后果:为什么说数据中台是大数据的下一站?
免费
02 | 关键抉择: 到底什么样的企业应该建数据中台?
03 | 数据中台建设三板斧:方法论、组织和技术
特别放送|史凯:建设数据中台到底有什么用?
实现篇 (6讲)
04 | 元数据中心的关键目标和技术实现方案
05 | 如何统一管理纷繁杂乱的数据指标?
06 | 数据模型无法复用,归根结底还是设计问题
07 | 同事老打脸说数据有问题,该怎么彻底解决?
08 | 交付速度和质量问题解决了,老板说还得“省”
09 (一)| 数据服务到底解决了什么问题?
数据中台实战课
15
15
1.0x
00:00/00:00
登录|注册

08 | 交付速度和质量问题解决了,老板说还得“省”

郭忆 2020-04-20
你好,我是郭忆。
在上一节课中,我们讨论了如何保障数据中台的数据质量,让数据做到“准”。我认为,除了“快”和“准”,数据中台还离不开一个“省”字。尤其是随着数据规模越来越大,成本越来越高,如果不能合理控制成本,还没等你挖掘出数据的应用价值,企业利润就已经被消耗完了。
所以,能否做到精细化的成本管理,关乎数据中台项目的成败。还是分享一个我见过的事儿。
某电商业务数据建设资源增长趋势(CU= 1vcpu + 4G memory)
这张图展示了某电商平台的大数据资源消耗增长趋势,尤其值得你关注的是,到了 2019 年,全年的资源规模已经达到了 25000CU,全年机器预算达到了 3500W。对一个在创业的企业来说,这显然是一笔不小的开支。
终于有一天,数据团队的负责人李好看(化名)就被 CEO 叫到了办公室,CEO 问了几个问题:
这 3500W 花在什么业务上?
你们做了哪些成本优化的举措,效果如何?
一系列的灵魂拷问,直接把李好看问懵了,他心想:团队的成本是按机器又不是数据应用核算的。在数据中台中,数据应用之间的底层数据是复用的,那具体每个数据产品或者报表花了多少钱,自己没有这样的数据啊,怎么可能知道。
可对 CEO 来说,这些问题很重要,因为资源总是有限的,他必须确保资源都用在战略目标的关键节点上。比如,对于电商团队,今年的核心 KPI 是提升单个注册会员在平台的消费额,那从老板角度来讲,他必须确保资源都投入与 KPI 相关业务中,例如基于数据对注册会员进行精准化营销,来提升会员在平台的消费额。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据中台实战课》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(9)

  • 崔军伟
    根据字段访问频率和指标时效性,通常优化大宽表的思路有:
    一、优化访问频率低并且时效性低的字段:对宽表的任务进行拆分,将这些字段拆出来一个或多个任务单独跑,根据实际情况设置每个任务执行计划cron的频率。这些任务会生成临时变,保留最近的数据。在宽表任务中进行字段合并union all,拆出来的字段就不需要再计算。
    二、优化时效性高的字段,例如客流量越实时越好。同样拆出来单独任务跑数据,生成临时表,设置高频率任务执行计划,根据一致的维度,对宽表进行字段更新。
    2020-04-20
    3
  • Geek_f071bc
    老师,请问下。怎么获取到高峰时期一个任务使用了多少核cpu,多少G内存资源的数据?如何获取哪些用户使用了哪些表?
    2020-04-20
    1
    1
  • leslie
    其实最大的问题不只是表过于宽,而是这种表的做了所有重负荷的操作且索引的效率很难平衡到最合理,甚至设计方面就有缺陷,这才是后面处理起来最麻烦的事情。
    关于老师今天课程的问题其实有一个最简单的方式-分表,不过分表必然带来程序端大量的改动这是无法避免但是可能是最快捷实际的方式。
    可能最近的课程刚好是我看到和碰到的一些典型问题,有时确实觉得处理起来很棘手;中台其实就是在解决各种棘手的问题。
    谢谢老师今天的分享,期待后续课程。
    2020-04-20
    1
  • 蒋良俊
    非常实用的经验,谢谢分享。

    作者回复: 感谢你的认可和鼓励,希望对你有帮助,期望与你再次相遇。

    2020-04-20
    1
  • 张振华
    老师,从业务数据库中把源数据导入到数据屏幕中,这个数据同步的过程是怎么处理的,是定时全量同步,还是增量同步,如果中间出问题了,怎么处理?有没有类似的方案,推荐下
    2020-04-22
  • 我觉得要根据计算成本和使用频度把表拆开成多张表,使用频度低计算成本高的字段独拆出来,方便计算成本和降低风险
    2020-04-22
  • Jie
    容器化后在线实时和离线批量混合部署可以优化高低峰资源配置

    作者回复: 对的,离线和在线混部是未来的一个重要方向,可以进一步提升资源的利用率。但是也面临不少挑战,因为离线很多任务都需要SLA保障的,如果根据服务负载随时Kill离线任务,对于离线数据的保障,有很大的挑战。

    感谢你的阅读~

    2020-04-22
  • 赵澈
    对于银行的数据中台项目,成本并不是考虑的重点,指标的全面性和查询的性能是关键,请问老师,在这种情况下如何兼顾成本和性能之间的关系?
    2020-04-21
  • aof
    那篇关于数据倾斜的文章,之前读过好几遍,确实很经典,也很有参考价值!

    思考题:可以通过列式存储(比如parquet)来优化,列式存储在查询的时候只会加载指定的列(不过一般情况下,保存表都会用列式存储的吧)。如果可以拆分的话,可以考虑拆分成两个小宽表
    2020-04-20
    4
收起评论
9
返回
顶部