大数据发展过程中的质量问题
极客时间编辑部
讲述:初明明大小:4.43M时长:04:50
你好,欢迎收听极客视点。
据华为公司在 2019 年对其自身客户关于数字化转型的一项调查,只有 5% 的企业处于观望阶段,31% 的企业在做规划准备,36% 的企业已经开始先期试点,26% 的企业已经大规模推行,数字化转型已经进入深水期。这意味着 95% 的企业已经开始数字化转型的工作。然而,大数据发展过程中仍然存在不少困难和问题。最近,龙石数据苏槐在InfoQ发文梳理了大数据发展过程中的质量问题,希望对你有所启发。
目前在大数据发展过程中存在的问题包括:缺少整体规划和实施路径、缺少高层支持、部门壁垒难以打破、业务价值体现不足、技术能力不足等。其中最核心的一个问题就是业务价值体现不足,没有业务价值的支撑,就不会有各部门领导的支持,更不会有高层的支持和资金的支持。所以,数字化转型一定要以价值为导向,在一个“点”上做出实际效果以后再进行“面”上的拓展。
大数据发展过程中的质量问题
要体现数据价值,前提就是数据质量的保障,质量没有得到 100% 保证的数据是很难体现出业务价值的,如果基于这些有问题的数据做决策支持或做业务办理,将会得到灾难性的结果,让领导层和数据使用方对大数据失去信心。
被誉为“数据博士”的吉姆·巴克(Jim barker),用一个简单的医学概念来定义两种类型的数据质量问题。第一类数据质量问题是比较简单而明显的问题,可以使用自动化工具检测到。第二类数据质量问题是非常隐秘的问题,大家都知道它是存在的,但它看不见摸不着,更处理不了,因为它需要放在特殊情境才能被检测到。
两类问题的区别简而言之可归纳为如下几点:
第一类数据质量问题首先需要“know what”才能来检测数据的完整性、一致性、唯一性和有效性。这些属性靠数据质量软件甚至手动都可以找到。你不需要有很多的背景知识,或者数据分析经验。只要按照 4 个属性验证它的存在,就可以判定它错误。
第二类数据质量问题需要“know why”来检测时效性、一致性和准确性属性。需要研究能力、洞察力和经验,而不是简简单单就可以找得出来的。这些数据集往往从表面上看起来没有问题。但是问题往往存在于细节中,需要时间去发现。
所以,解决这些数据质量问题的关键就是需要一个复杂的、策略化的方法,而非孤立的、片面的看问题。一旦数据质量不好,我们就需要寻求自动化与人工的双重方式才能解决这个问题了。
根据吉姆·巴克的经验,第一类基本涵盖了 80% 的数据质量问题,但只消耗了 20% 的经费成本,这类问题可以快速解决。第二类数据问题往往需要多方的输入,以便发现、标记和根除。虽然客户关系管理系统中的每个人都有购买日期,但购买日期可能不正确,或者与发票或发货清单不符。只有专家才能通过仔细核查其内容来解决问题并手动改进客户关系管理系统。
国家标准中的数据质量评价指标
目前为止,最权威的标准是由全国信息技术标准化技术委员会提出的数据质量评价指标(GB/T36344-2018 ICS 35.24.01),它包含以下几个方面:
规范性:指的是数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。
完整性:指的是按照数据规则要求,数据元素被赋予数值的程度。
准确性:指的是数据准确表示其所描述的真实实体(实际对象)真实值的程度。
一致性:指的是数据与其它特定上下文中使用的数据无矛盾的程度。例如许可证信息与法人基础信息是否一致,检查计划与检查记录是否匹配。
时效性:指的是数据在时间变化中的正确程度。
可访问性:指的是数据能被访问的程度。
除此之外,还有一些业内认可的补充指标,并且在质量工作的实际开展中,可以根据数据的实际情况和业务要求进行扩展,例如:
唯一性:数据是否存在重复记录(国标归在准确性中)。
稳定性:数据的波动是否是稳定的,是否在其有效范围内。
可信性:数据来源是否权威、真实、鲜活。
以上就是大数据发展过程中的质量问题,下一篇文章将介绍如何解决这些问题,欢迎持续关注。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- 小斧规范性:指的是数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。 完整性:指的是按照数据规则要求,数据元素被赋予数值的程度。 准确性:指的是数据准确表示其所描述的真实实体(实际对象)真实值的程度。 一致性:指的是数据与其它特定上下文中使用的数据无矛盾的程度。例如许可证信息与法人基础信息是否一致,检查计划与检查记录是否匹配。 时效性:指的是数据在时间变化中的正确程度。 可访问性:指的是数据能被访问的程度。
收起评论