① 数据治理周周谈(三):数据质量管理
数据质量管理的定义和目的
数据质量管理是指对是指对数据从产生、获取、存储、共享、维护、应用等数据全生命周期可能出现的各类数据质量问题,进行识别、检测、度量、预警以及处理等一系列管理活动。
数据质量管理的目的是通过提升数据的完整性、准确性和真实性,为企业提供坚实、可靠的数据基础,提升数据的使用价值,对企业的日常经营、精准营销、管理决策、风险管理等领域发挥积极有效作用。
数据质量的评估维度
如何判断数据质量的优劣?从哪些方面可以评估数据质量?在实践中,我们认为一般可以通过数据质量评估维度进行评估。数据质量评估维度是数据质量的特征之一,它们为度量和管理数据的质量提供了一种途径和标准。在一个具体的数据质量项目中,要选择最适用于业务需求的数据质量维度进行测量,以评价数据的质量。
在《GB/T36344-信息技术数据质量评价指标》中,国家标准化管理委员会明确了数据质量评价指标框架。
规范性:数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。
完整性:按照数据规则要求,数据元素被赋予数值的程度。
准确性:数据准确表示其所描述的真实实体(实际对象)真实值的程度。
一致性:数据与其他特定上下文中使用的数据无矛盾的程度。
时效性:数据在时间变化中的正确程度。
可访问性:数据能被访问的程度。
国际数据管理协会(DAMA)在其发布的《DAMA数据管理知识体系指南》提出了其数据质量评估框架:
对于数据质量的评估指标在国家标准、国际实践中存在一定的差异,企业应根据自身业务实际情况,在内部管理要求下建设适合的数据质量评估体系、维度和指标。
数据质量问题产生的原因
数据质量问题导致的后果是显而易见的,那么导致数据质量问题的根本原因是哪些呢?影响数据质量的主要因素是技术、业务和管理三个方面,以下从这三个方面来分析产生的原因。
技术方面
数据源存在数据质量问题,例如:有些数据是从生产系统采集过来的,在生产系统中这些数据就存在重复、不完整、不准确等问题,而采集过程有没有对这些问题做清洗处理,这种情况也比较常见。
数据采集过程质量问题, 例如:采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。
数据传输过程的问题,例如:数据接口本身存在问题、参数配置错误、网络不可靠等都会造成数据传输过程中的发生数据质量问题。
数据装载过程的问题,例如:数据的清洗、转换、装载规则配置有问题。
数据存储的质量问题,例如:存储设计不合理,存储能力有限,人为后台调整数据,引起的数据丢失、数据无效、数据失真、记录重复。
业务系统存在数据孤岛,烟囱式建设,系统间的数据不一致问题严重。
业务方面
业务端数据录入不规范,一些常见的数据录入问题,如大小写、全半角、单位等。业务端输入时,系统没有嵌入相关数据校验规则,导致录入受人为因素影响大,如应输入合同金额,100000元、十万元、拾万元等。人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。
管理方面
企业管理思维层面没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,存储在系统中的数据就应该是质量过硬的。
企业内部没有明晰数据的认责管理制度,没有设定相应的归口管理部门,出现数据质量问题找不到对应的负责人。
数据录入规范不统一,同一业务部门在处理相同业务时,因为规范不统一,人为因素造成数据冲突或者矛盾。
缺乏从上至下的数据规划,没有设定相应的数据质量管理目标,没有制定数据质量相关的政策、管理和考核制度。
缺乏有效的数据质量问题处理机制,从数据质量问题的发现、指派、处理、优化没有统一的流程和制度支撑,数据质量问题无法做到闭环管理和考核。
数据质量管理解决方案
针对以上从技术、业务、管理三个方面产生数据质量问题的原因剖析,有必要从事前预防控制、事中过程监控、事后监督管理三个方面进行数据质量监控以持续改进数据质量。
事前控制预防
建立企业内涵盖各业务主题的数据标准,统一指标定义、指标口径、涵盖每个业务字段的录入规范。对于手动录入的数据,尽可能的使用非开放式的输入手段,如下拉菜单、单复选框、时间控件、标签(支持自定义学习型)等,必须开放的输入部分,进行必要的及时校验。另外对于系统原因造成的数据质量问题,我们需要建立数据标准体系,对于可以改造的生产系统,在数据标准的指导下进行改造,对于不能改造的系统,通过一些技术手段进行清洗转换,在数据产生的环节把控数据质量,这样效率必然是最高的。
建立企业内部的数据认责制、数据质量管理部门,制定数据质量监控流程和考核办法亦有助于数据质量的事前控制预防机制的完善。
事中过程监控
事中数据质量的控制,即在数据的维护和使用过程中去监控和处理数据质量。通过建立数据质量的流程化控制体系,对数据的新建、变更、采集、加工、装载、应用等各个环节进行流程化控制。在这个过程中可以借助数据质量管理工具中的相关模块对数据流向的各个节点进行数据质量监测,可以实时预警数据质量,从数据的源头端控制好数据质量,支持系统自动化校验和人工审核相结合的方式进行管理。在这个过程中,亦可将在数据质量管理工具中嵌入企业的数据质量问题处理机制相关流程和审批流,有效辅助和监控数据质量。
事后监督管理
对于已经存储在 数仓 中的数据,发现质量问题,就得使用数据质量管控工具了。在数据仓库或数据中心建立时,就按照数据标准对关键字段进行统一命名、格式、精度等,排除数据的歧义。根据数据标准,在数据质量管理工具中建立相应的规则模型,对于导入的历史数据,可以借助运行规则模型发现数据质量问题,并在平台中对于数据质量问题进行全流程的追踪。
结语
数据质量管理是企业数据治理一个重要的组成部分,企业数据治理的所有工作都是围绕提升数据质量目标而开展的。要做好数据质量的管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。
数据质量问题对于很多企业已经是迫在眉睫需要解决的问题了,是时候开展 数据治理 了。数据质量的提升并不是一蹴而就的,做一次数据整改就能解决所有数据质量问题。对于已有数据,通过数据质量管理工具进行校验和清洗,另外需要通过数据标准和数据质量建立起完善的数据质量管控体系,在各个环节进行监控,定期检查数据质量,确定解决方案,并加以改进,不断地提升数据质量。
② 什么叫经济数据偏差
经济数据偏差是指在进行经济数据采集、统计以及分析比较得出的价值数据与真实经济活动数据有一定程度的偏离。经济数据偏差是由其内生性决定的, 比如由于国民经济统计体系本身存在缺陷,地方政府 GDP 政绩冲动或者微观经济主体规避税收和管制的动机,都可能造成经济数据的扭曲。在观测者-被观测者-决策者模型中,存在三方都有可能欺骗的可能和动机。经济数据偏差会对于经济决策带来严重后果。