大数据应用实战
曹犟
神策数据联合创始人 & CTO
1141 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 16 讲/共 30 讲
大数据应用实战
15
15
1.0x
00:00/00:00
登录|注册

14|数据质量:从问题到体系构建,质量管理的全流程

你好,我是曹犟。
在上一节课中,我们学习了 ETL,了解了如何让数据从“原始”变成“可用”。但是,ETL 从来都不是一劳永逸的事情,并不是开发好了 ETL 任务就可以高枕无忧,在后续的整个维护过程中,都需要持续地建立完整的数据质量体系,通过整体的质量监控与维护,保持数据持续可用。这也是我们今天要讨论的,数据治理中最重要也是最具挑战性的环节:数据质量管理。

运营活动的“乌龙事件”

我先分享一个真实发生的案例。某电商 App 的运营团队策划了一场“老用户召回”活动。目标很明确,给 3 个月未登录的用户发放 50 元优惠券,希望能把这些流失用户拉回来。
运营同学信心满满地从 CDP 中筛选出几万目标用户,并通过智能运营平台发送了短信和 push 推送。
这本来是一次很简单的运营活动,类似的活动之前也做过几次,谁想到第二天,客服电话被打爆了:大量每天都在用 App 的活跃用户收到了“好久不见,我们想你了”的消息,感觉被冒犯。而部分真正流失的老用户反而没有收到优惠券。
团队连夜排查,终于发现了问题:上游数据在之前发生了一次变更,漏掉了通知下游 CDP 团队,所以 ETL 任务却没有相应更新,导致“最后登录时间”这个字段在那之后一直是错误的。
系统没有任何质量监控,这个错误一直没有被察觉,运营团队基于错误的数据圈选了用户群体,从而造成了一系列损失:短信费用打水漂,品牌形象严重受损,营销窗口被浪费,活动 ROI 为负。运营团队也公开质疑数据团队的能力,而数据团队也有苦说不出。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 数据质量管理是数据治理中最重要且具有挑战性的环节,需要持续维护和管理,涉及组织协作问题和流程管理问题。 2. 数据质量的核心维度包括准确性、完整性、一致性、及时性、有效性和唯一性,而质量问题可能发生在数据流的各个环节。 3. 数据质量问题的影响是全方位的,可能导致资源浪费、战略失误、预算浪费、用户体验损害、产品与服务故障等。 4. 数据质量管理的核心理念包括预防优于补救、建立全流程的质量管控、以及成本与质量的权衡。 5. 移动端埋点管理面临权责不清、版本管理难题和修复周期长等挑战。 6. 产品化的解决方案包括埋点协同工作流、可视化的质量管控、远程控制下发能力和数据缓冲区机制。 7. 数据质量管理需要通过产品化手段来落地,缩短问题的发现和修复周期,降低质量保障的人力成本。 8. 大模型技术正在深刻改变数据质量管理,实时检测和数据可观测性是未来的趋势。 9. 数据质量管理需要持续投入、不断优化,是一个从被动响应到主动监控,再到体系化管理的演进过程。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据应用实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(1)

  • 最新
  • 精选
  • 大寒
    1.主要集中在传输处理,即在数据仓库内部做数据质量检测。我认为这样做的原因是在于不同团队的协同机制无法做到完善,所以只能保障数据团队内部(含分析师)可掌控的数据质量情况。这个也是成本间的权衡,关键点就在于人手不足(含人员流动,业务收缩等因素)以及顶层领导重视程度(老师所提到的考核机制在这个阶段可能会是“得罪人”的事项,会给人“多做多错”的感受,这个是我个人的推测)。所以在业务导向更重的情况下,源头采集监测较难实行。而应用监测上来说就是没有完善的指标体系,所以量化什么指标监控也是空中楼阁。 2.我个人倾向于实用优先+完美主义路上多走一小步,即要满足业务诉求前提下多提供一些质量完善的措施。比如我曾经碰到一个诉求,是要看兑换码兑换的源端,这个数据在服务端没有存我只能拿客户端日志来匹配,这样便造成了一小部分数据有问题。原则上将追求准确性应该是让业务开发再迭代处理,但是考虑到现阶段运营只是拿数据做参考,所以也就和运营讨论后认可了当前做法。这件事给我的启示便是不要替运营擅自做决定,因为不同角色的立场是不同的,个人需要做的是往前走一小步而不是一大步,因为一大步往往预示着更多的精力投入但是运营很可能不认可最后成为无用功。 3.另外老师追问一些问题,数据质量监控的实现是否大部分依赖于sql查询?源头采集有哪些技术可以应用于监控上?同时埋点这里有个头痛的问题,就是大部分数据是准确的,但是某个版本一两个埋点的控件出现问题(可能是传入的参数不对,也可能是修改没了),这种情况我该怎么做到监控发现(原因在于每个埋点的控件含义是不同的),比如页面id传输和页面的控件id都是准确的,但是某个点击埋点的点击控件参数有问题?
    2025-11-24归属地:北京
收起评论
显示
设置
留言
1
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部