如何解决数据质量问题?
极客时间编辑部
讲述:丁婵大小:7.44M时长:05:25
你好,欢迎收听极客视点。
大数据的建设和管理是一个专业且复杂的工程,涵盖了业务梳理、标准制定、元数据管理、数据模型管理、数据汇聚、清洗加工、中心存储、资源目录编制、共享交换、数据维护、数据失效等等过程。在任何一个环节出错,都将导致数据的错误。甚至,源头数据本身就是错误的。
最近,龙石数据苏槐在 InfoQ 发文分析了数据质量出现的原因以及解决办法。苏槐认为,数据质量问题不仅仅是一个技术问题,它也可能出现在业务和管理的过程中。
数据质量出现的原因
数据质量的技术因素包括:数据标准制定不统一、不规范、不完整;数据模型设计混乱、重复、不合理、不准确;数据源本身存在质量问题:数据梳理报告不完整或不正确;数据采集过程的质量问题;数据清洗加工的质量问题。
数据质量的业务因素,包括对业务理解不到位、数据输入不规范、数据造假等,此外,业务系统烟囱林立,导致整合困难,也是目前的一个痛点。
数据质量的管理因素包括企业数据人才缺乏、流程管理不完善、成员对数据不够重视以及企业奖惩机制不明确,没有数据认责机制和数据规划等。
如何解决数据质量问题?
如前所述,大数据的建设和管理是一个专业且复杂的工程,任何一个环节出问题,都将导致数据质量问题,带来很大的业务风险,这也正是业务部门对大数据建设成果报有怀疑态度的重要原因。
龙石数据依据多年数据治理和数据质量实践经验,根据大数据建设项目的执行过程,将它分为事前预防、事中监控、事后改善三个阶段。
事前预防
首先,制定质量管理机制。即根据组织特点,制定符合自身环境的工作制度,制定每个环节的工作流程,规定各个参与方的责任,确定各项数据的权威部门,制定数据质量指标,制定数据质量修复流程等等。
其次,制定数据质量标准。因为这直接影响大数据建设的成果和数据质量的高低,需要在融合国家标准、行业标准和地方标准的基础上,融合组织自身的业务特色需求。
然后,制定质量监测模型。数据质量模型代表的是业务需求,它是从业务需求的角度而描述出来的质量需求。
最后,制定质量监测规则。这代表了具体的质量检测手段,它是从技术角度来描述数据质量要求是如何被满足的,包括规范性、完整性、准确性、一致性、时效性、可访问性,等等。
事中监控
首先,监控原始数据质量。在数据采集过程中,将原始数据分为“好数据”和“坏数据”,“好数据”入库,“坏数据”则反馈给源头修复。
其次,监控数据中心质量。使用简单的空值检查、规范性检查、值域检查、逻辑检查、一致性检查等规则就可以检查出问题,也可能需要诸如多源比较、数据佐证、数据探索、波动检查、离群检查等方法才可以检查出问题。
然后,反馈数据质量问题。数据质量监控过程中,会发现两类问题,一类是源头的数据质量问题,另一类是数据中心的数据质量问题,数据质量团队需要将这些问题及时反馈给源头部门和数据仓库建设团队。
最后,数据质量考核。这是为了引起各个参与团队对数据质量的重视,需要及时统计分析各种数据质量问题,并制定出相应的应对措施。
事后改善
在这个阶段,需要做以下几件事:
建立相关的流程和工具,通过手工、工单、自动化等手段修复数据质量问题,为业务创新提供可靠的数据支撑。
通过数据中心的建设,质量问题的修复,必然能够促进数据的应用。建立通畅的数据质量反馈通道,让各个部门参与到数据质量的再次完善中来,从而形成建设、应用和反馈的良性循环。
完善质量管理制度。在数据建设和质量完善的过程中,结合自身组织结构和业务特色,不断完善工作制度。
紧跟业务变化,不断完善符合业务需求的数据质量标准。
完善质量监测模型。监测模型代表的业务需求,业务形态的变化、数据标准的变化和质量新需求的出现,同样要求监测模型能够做出相应的变化。
不断引入各种新技术来更加智能地发现和修复数据质量问题,完善质量监测规则。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- 小斧数量质量需要中台的建设与细节的监管规则。
收起评论