❶ 数据质量的评价指标有哪些
1、对于高速数据,主要看眼形图。
2、对于普通信号,主要看失真度、延迟时间、上升时间、下降时间、超调量、稳定性等。
数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
❷ 数据质量的主要特征
1. 协作性。 业务部门和IT部门为数据质量共同担责,业务分析师、数据管理员、IT开发人员和管理员各自将具有明确分工和适于其独特技能和视角的技术。
2. 前瞻性。业务部门和IT部门认识到所有机构都会不同程度地受到劣质数据的影响,有必要再劣质数据严重影响到企业业绩之前,积极探查数据以发现和纠正问题。
3. 可重复使用。有关数据探查与清晰的业务规则可被重复运用于任意数量的应用程序,而不论数据时内部预置、在合作伙伴处还是在云环境中。
4. 普遍深入性。数据质量方案将扩展至所有相关人员、数据领域、项目和应用程序,而不论数据是内部预置、在合作伙伴处还是在云环境中。
❸ 数据质量分析的主要内容包括哪些
包括:
1、影响GIS数据质量的因素
2、 GIS数据源的质量问题
3、GIS数据库建立过程中的质量问题
4、GIS分析处理过程引入的数据质量问题
❹ 数据质量管理的数据质量管理评估维度
由于数据清洗(DataCleaning)工具通常简单地被称为数据质量(Data Quality)工具,因此很多人认为数据质量管理,就是修改数据中的错误、是对错误数据和垃圾数据进行清理。这个理解是片面的,其实数据清洗只是数据质量管理中的一步。数据质量管理(DQM),不仅包含了对数据质量的改善,同时还包含了对组织的改善。针对数据的改善和管理,主要包括数据分析、数据评估、数据清洗、数据监控、错误预警等内容;针对组织的改善和管理,主要包括确立组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制定组织监督审核机制、实施改进、评估改善效果等多个环节。
任何改善都是建立在评估的基础上,知道问题在哪才能实施改进。通常数据质量评估和管理评估需通过以下几个维度衡量。 完整性 Completeness:完整性用于度量哪些数据丢失了或者哪些数据不可用。
规范性 Conformity:规范性用于度量哪些数据未按统一格式存储。
一致性 Consistency:一致性用于度量哪些数据的值在信息含义上是冲突的。
准确性 Accuracy:准确性用于度量哪些数据和信息是不正确的,或者数据是超期的。
唯一性 Uniqueness:唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的。
关联性 Integration:关联性用于度量哪些关联的数据缺失或者未建立索引。 配置管理 Config Management:此维度用于度量数据在其生命周期内的一切资源是否得到了控制和规范,即数据的计划、产生、变更直至消亡的过程中,与数据相关的计划、规范、描述是否收到控制。评估指标包括:评估配置项的细化粒度、评估基线准确度和频度以及变更流程是否合理完善等。
培训 Training:此维度用于度量数据的生产和使用者在数据生命周期内的一切活动中是否经过了知识和技能的培训、培训效果是否满足岗位需要;受训的知识和技能是否经过审核和确认,受训的内容是否与企业文化和价值观一致;培训流程是否合理完善等;
验证和确认 Verify & Validation:此维度用于度量数据在其生命周期内是否得到验证和确认。评估内容包括是否通过验证流程确保工作产品(数据)满足指定的要求、是否通过“确认”流程保证工作产品(数据)在计划的环境中满足使用的要求;“验证”和“确认”的流程是否完善;
监督和监控 Monitoring:此维度用于度量产生和使用数据的流程在数据的整个生命周期内是否真正受控。脱离监控的信息、技术、计划、流程、制度,会导致数据质量低下。监督和监控的流程是否完善。
❺ 数据质量
(1)国土资源部提供政策、行政措施支撑,中国地质调查局负责全国地质钻孔数据的建库、质量检查和验收工作,并按照统一标准,集成省级地质钻孔数据库,建立全国性的国家级地质钻孔数据库。
(2)各省国土资源厅负责组织辖区内(地矿、冶金、煤炭、有色、建材、黄金部队)各个部门的建库和质量监控和验收工作,并向国土资源部报送省级的地质钻孔数据库和工作总结报告。
(3)质量控制与建库工作同步进行,负责建库的基层地勘单位(资料室),设立质量监督人员,随时检查数据采集、数据入库的质量,并填写地质钻孔数据建库工作日志表,地质钻孔数据采集、录入自(互)检表,地质钻孔岩性分层数据自(互)检表,地质钻孔数据库建设成果数据检查记录表,备查。
(4)质量评价,按照质量评判标准和质量管理程序,由计算机自动对入机数据进行质量评判和等级判定,判定结果自动保存在数据表中,并自动搜索、提取错误记录汇总到错误信息表,供专家根据相关标准对错误数据进行检查、核实。
(5)各省(区、市)及下属的局(地矿、冶金、煤炭、有色、建材、黄金)设立建库质量监控、评价荐审专家组,负责辖区内的建库质量检查和项目评审工作。
❻ 质量数据的分类
数据录入过程
质量数据是指由个体产品质量特性值组成的样本(总体)的质量数据集,在统计上称为变量;个体产品质量特性值称变量值。 根据质量数据的特点,可以将其分为计量值数据和计数值数据。
1.计量值数据
计量值数据是可以连续取值的数据,属于连续型变量。其特点是在任意两个数值之间都可以取精度较高一级的数值。它通常由测量得到,如重量、强度、几何尺寸、标高、位移等。此外,一些属于定性的质量特性,可由专家主观评分、划分等级而使之数量化,得到的数据也属于计量值数据。
2.计数值数据
计数值数据是只能按0,1,2,……数列取值计数的数据,属于离散型变量。它一般由计数得到。计数值数据又可分为计件值数据和计点值数据。
(1)计件值数据,表示具有某一质量标准的产品个数。如总体中合格品数、一级品数。
(2)计点值数据,表示个体(单件产品、单位长度、单位面积、单位体积等)上的缺陷数、质量问题点数等。如检验钢结构构件涂料涂装质量时,构件表面的焊渣、焊疤、油污、毛刺数量等。
数据一致性
很多用户甚至一些数据仓库项目的开发人员经常将数据质量和数据仓库项目开发中的ETL过程的数据一致性混为一谈,错误的认为数据仓库项目(也即ETL过程)能够修复数据以提高数据质量,其实数据质量和ETL过程的数据一致性是两个不同的概念。ETL过程的数据一致性是指根据相同的业务理解(基于源系统模型和基于数据仓库模型),在源系统查询和统计的信息与在数据仓库中得到的结果在各个细节层次(包括明细层次)上都是相同的。数据一致性是ETL过程必须保证的。质量是数据存在于企业的源系统中的,如常见的客户代码的不规范,同一个客户在不同的系统中(例如业务处理系统和财务系统)有不同的代码,甚至同一个客户在同一个系统中也有不同的代码,以保险公司的业务处理系统为例,同一个客户先后在同一个保险公司投保,不同的业务员可能会输入不同的客户代码;更常见的是那些没有实现大集中的分布式的应用,同一个客户(如工商银行)在不同的分公司(如河南分公司和湖北分公司)投保,业务员很可能会输入不同的代码;再如,在业务处理系统中,有些录入人员为了录入的方便,常常将一些内容不输或者采用默认值,造成一些重要录入信息的缺失或错误。这些数据质量问题对数据分析系统造成严重的干扰和破坏。数据仓库项目虽然不能够修复数据以提高数据质量,但能发现存在的部分问题从而提醒用户哪些数据是有质量问题的,给出用户一些改进的建议,同时在分析和决策时应降低对这些数据的依赖程度,也可以提供辅助的方法跟踪、监测数据质量问题。
❼ 数据质量控制
在数据库建设过程中,数据的质量问题直接影响系统的运行和将来数据库的实际应用。使用空间数据质量检查软件和人工抽检作为数据质量数据控制体系的重要手段。
数据质量检查主要是对空间、非空间数据库的入库数据进行质量检查,其中空间数据主要是逐项检查数据图层(包括MapGIS 与Arc/Info格式)的图形和属性(胡大国,2004),检查的重点是扫描原图精度(图廓点点位、图廓边边长、图廓对角线长度、坐标网线间距)、栅格图像精度、数据采集精度、图层套合精度、拓扑一致性(重点是公共界线的重合性,如断层与地层、地层与侵入体等)、TIC点精度、命名的标准化程度、分层的正确性、数据的完整性、水系方向、图元与属性的对应性、属性代码的准确性等(表8-3、表8-4)。而非空间数据主要是检查浙江省农业地质环境调查的设计、实施、成果等阶段的文档、图片、多媒体资料是否齐全、正确。
表8-3 空间图形控制
另外,还要对数据字典、元数据进行质量检查,特别是用于系统的解释数据库内容的数据字典,检查的重点是图层名称描述的正确性、数据项、代码的完整性和正确性、非空间数据名称描述的正确性等,最后所有的数据还要导入到AGEI S 系统中进行软件调试和数据检查。