❶ 什么是数据治理
从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。
数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
数据采集清洗:通过可视化的 ETL 工具将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。
基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。
元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。
血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。
质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapRece,HBase 等。
商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。
数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。
❷ 数据治理的定义,有谁知道
数据治理就是在明确责任的前提下,发挥数据的有效性和提升业务价值而采用的一系列业务、技术和管理相结合的活动。
❸ 数据治理的好处有哪些
1、对数据的共同理解——数据治理为数据提供了一致的视图和通用术语,同时各个业务部门保留了适当的灵活性。
2、提高数据质量——数据治理创建了一个确保数据准确性、完整性和一致性的计划。
3、数据地图——数据治理提供了一种高级能力,可以了解与关键实体相关的所有数据的位置,这是数据集成所必需的。就像GPS 可以代表物理景观并帮助人们在未知景观中找到方向一样,数据治理使数据资产变得可用并且更容易与业务成果联系起来。
4、每个客户和其他业务实体的360 度视图——数据治理建立了一个框架,以便企业可以就关键业务实体的“单一版本真相”达成一致,并在实体和业务活动之间创建适当的一致性级别。
5、一致的合规性— 数据治理提供了一个平台来满足政府法规的要求,例如欧盟通用数据保护条例 (GDPR)、美国 HIPAA(健康保险流通与责任法案)和行业要求,例如 PCI DSS(支付卡行业数据安全标准)。
6、改进数据管理——数据治理将人的维度带入高度自动化、数据驱动的世界。它建立了数据管理的行为准则和最佳实践,确保传统数据和技术领域(包括法律、安全和合规等领域)以外的问题和需求得到一致解决。
❹ 数据治理十步法
以下文章来源于谈数据 ,作者石秀峰
1、找症状,明确目标
任何企业实施数据治理都不是为了治理数据而治理数据,其背后都是管理和业务目标的驱动。企业中普遍存在的数据质量问题有:数据不一致、数据重复、数据不准确、数据不完整、数据关系混乱、数据不及时等。
由于这些数据问题的存在对业务的开展和业务部门之间的沟通造成了较大的困扰,产生了很大的成本;各异构的系统中数据不一致,导致业务系统之间的应用集成无法开展;数据质量差无法支撑数据分析,分析结果与实际偏差较大。然而要实现数据驱动管理、数据驱动业务的目标,没有高质量的数据支撑是行不通的。
目标:企业实施数据治理的第一步,就是要明确数据治理的目标,理清数据治理的关键点。
技术工具:实地调研、高层访谈、组织架构图。
输入:企业数据战略规划,亟待解决的业务问题,经营发展需求,业务需求等;
输出:数据治理的初步沟通方案,项目任务书,工作计划表;
2、理数据,现状分析
针对企业数据治理所处的内外部环境,从组织、人员、流程、数据四个方面入手,进行数据治理现状的分析。
某企业数据治理痛点分析
组织方面:是否有专业的数据治理组织,是否明确岗位职责和分工。
人员方面:数据人才的资源配置情况,包括数据标准化人员、数据建模人员,数据分析人员,数据开发人员等,以及数据人才的占比情况。
流程方面:数据管理的现状,是否有归口管理部门,是否有数据管理的流程、流程各环节的数据控制情况等;
数据方面:梳理数据质量问题列表,例如:数据不一致问题,数据不完整,数据不准确、数据不真实、数据不及时、数据关系混乱,以及数据的隐私与安全问题等。
目标:分析企业数据管理和数据质量的现状,确定初步数据治理成熟度评估方案。
技术工具:实地访谈、调研表、数据质量问题评议表、关键数据识别方法论(例如:主数据特征识别法);
输入:需求及现状调研表、访谈记录、数据样本、数据架构、数据管理制度和流程文件;
输出:数据问题列表、数据U/C矩阵、数据治理现状分析报告、数据治理评估方案;
3、数据治理成熟度评估
数据治理成熟度反映了组织进行数据治理所具备的条件和水平,包括元数据管理、数据质量管理、业务流程整合、主数据管理和信息生命周期管理。
CMMI DMM数据管理能力成熟度评估模型
数据治理成熟度评估是利用标准的成熟度评估工具结合行业最佳实践,针对企业的数据治理现状进行的客观评价和打分,找到企业数据治理的短板,以便制定切实可行的行动方案。数据治理成熟度结束后形成初步的行动方案,一般包括数据治理战略,数据治理指标,数据治理规则,数据治理权责。数据治理愿景和使命是数据治理的整体目标;数据治理指标定义了数据治理目标的衡量方法;数据治理规则和定义包括与数据相关的政策、标准、合规要求、业务规则和数据定义等;权利和职责规定了由谁来负责制订数据相关的决策、何时实施、如何实施,以及组织和个人在数据治理策略中该做什么。
目标:结合业界标准的数据治理成熟度模型,根据企业管理和业务需求进行数据治理成熟的评估,形成初步的数据治理策略和行动路线。
技术工具:数据治理评估模型,例如:DCMM,CMMI DMM,IBM数据治理成熟度评估模型等;
输入:第2步的输入以及数据治理评估模型、数据治理评估工具(评估指标、打分表等);
输出:数据治理评估结果,数据治理策略,初步的行动方案;
4、数据质量问题根因分析
数据治理的目的是解决数据质量问题提升数据质量,从而为数据驱动的数字化企业提供源动力,而提到数据质量问题,做过BI、数仓的同学一定知道,这是一个技术和业务“经常打架”相互推诿的问题。
某企业数据问题根因分析鱼骨图
产生数据质量问题的原因有很多,有业务方面的、有管理方面的、也有技术方面的,按照80/20法则,80%的问题是由20%的原因造成起的。所以,如果能够解决这20%的问题,就能得到80%的改进。
目标:分析并找到数据质量问题产生的根本原因,制定行之有效的解决方案;
技术工具:头脑风暴、5W1H、SWOT、因果(鱼刺)图、帕拉图等;
输入:数据问题列表、数据U/C矩阵、数据治理现状分析报告、数据治理评估结果;
输出:数据质量评估结果、对业务的潜在影响和根本原因。
5、业务影响及实施优先级评估
通过数据治理成熟度评估,从组织、流程、制度、人员、技术等方面找到企业在数据治理的待提升的领域和环节,再通过数据质量根因分析找到数据质量问题发生的根本原因,进一步明确了数据治理的目标和内容。再接下来,就需要确定数据治理策略,定义数据治理的实施优先级。
某企业主数据治理实施优先级评估
不同的数据治理领域解决的是不同的问题,而数据治理的每个领域都有它的实施难点,对企业来说,需要从业务的影响程度,问题的紧急程度、实施的难易程度等多个维度进行分析和权衡,从而找到符合企业需求并满足企业发展的方案。
目标:确定数据治理核心领域和支撑体系的建设/实施优先级;
技术工具:四象限法则(分别从业务影响程度/实施难以程度,问题重要程度/问题紧急程度绘制优先级矩阵)、KANO模型
输入:数据治理成熟度能力评估结果、数据质量问题根因分析结果;
输出:数据治理实施优先级策略
6、制定数据治理行动路线和计划
路线图是使用特定技术方案帮助达到短期或者长期目标的计划,用于新产品、项目或技术领域的开发,是指应用简洁的图形、表格、文字等形式描述技术变化的步骤或技术相关环节之间的逻辑关系。路线图是一种目标计划,就是把未来计划要做的事列出来,直至达到某一个目标,就好像沿着地图路线一步一步找到终点一样,故称路线图。
某企业数据治理实施路线图
企业数据治理的实施路线图的制定是以企业数据战略——愿景和使命为纲领,以急用优先为原则,以分步实施为策略进行了整体设计和规划。实施路线图主要包含的内容:分几个阶段实施,每个阶段的目标、工作内容、时间节点要求、环境条件等。笔者观点:任何一个企业的数据治理都不是一蹴而就,一步到位的,需要循序渐进、持续优化!实施路线图就是基于此产生的,因此说数据治理实施路线图也是说服利益相关者支持的一个重要手段。
目标:确定数据治理的阶段以及每个阶段的目标;
技术工具:路线图法
输入:数据治理成熟度能力评估结果、业务影响及实施优先级评估结果;
输出:数据治理实施路线图或称阶段目标计划
7、制定数据治理详细实施方案
数据治理详细实施方案是用于指导主数据的各项实施工作,一般包括:数据治理核心领域、数据治理支撑体系、数据治理项目管理三个方面。
数据治理总体框架图
数据治理核心领域包括:数据架构、数据服务、元数据管理、数据质量管理、数据标准管理、主数据管理、数据安全管理、数据生命周期管理。
数据治理支撑体系包括:组织(组织架构、组织层次、岗位职责)、制度(管控模式、规章制度、考核机制)、流程(归口部门、管理流程、流程任务等)、技术(数据集成、数据清洗、数据开发、数据应用、数据运营、支撑平台、实施方案等)。
数据治理项目管理方案包括:项目组队、项目计划、质量保证计划、配置管理计划、培训和售后等。
关于数据治理的核心领域,详见笔者之前分享的数据治理框架解读系列文章。
关于数据治理的支撑体系,详见笔者之前分享的数据治理成功关键要素系列文章。
目标:基于数据质量根因分析、业务影响和实施优先级评估结果,制定详细实施方案;
输入:业务影响及实施优先级评估结果,行动路线和计划;
输出:数据治理详细实施方案。
8、数据治理实施过程控制
数据治理实施过程控制是对数据治理项目的范围控制、进度控制、质量控制和成本控制,通过对企业的各项资源的合理协调与利用,而达成的数据治理目标的各种措施。从项目管理的角度来讲也是项目管理的黄金三角:范围、时间、质量、成本。
任何项目的质量和进度是需要良好的项目管理来保证的,数据治理也一样。与传统的软件工程项目不同,数据治理项目有着范围边界模糊、影响范围广、短期难见效、实施周期长等特点:
①范围边界模糊,数据治理涉及到的关键领域如元数据管理、数据质量管理、数据标准管理、主数据管理等很多是存在交叉的,边界很难界定,例如:实施数据质量管理项目,会涉及元数据管理、数据标准管理等,同样一个元数据管理项目也会涉及数据标准和数据质量。
②影响范围广,数据治理的实施不是一个部门能够完成的,是需要从高级管理层、到各业务部门、信息部门通力协作,共同完成的;
③短期难见效,数据治理项目实施完成后,其数据治理的效果被每个业务点滴操作所“稀释”,并不像其他项目,例如BI,那样明显的体现出来,所以主导数据治理的部门会经常遭到质疑。
④实施周期长,在没有清晰的数据治理目标和范围约定的情况下,数据治理是一个“无底洞”。所以,在实施数据治理项目之前制定好实施路线图和详细的实施方案就显得格外重要(第6、7步)。
目标:通过对数据治理项目实施过程的进度控制、质量控制和成本控制以实现数据治理的目标;
技术工具:PP(项目计划)、PMC(项目控制)、IPM(集成项目管理)、RSKM(风险管理)——CMMI过程域;
输入:6-7步的输出:数据治理实施路线图,数据治理详细实施方案;
输出:各项项目控制措施,例如:项目计划、SOW、项目风险列表、项目报告、项目总结等;
9、监控评估数据治理实施效果
随着大数据技术的不断发展,应当从企业的全局数据治理环境的角度,明确数据治理关键技术运用及其标准规范,构建成效评估指标体系,进行治理效果评价;并运用数据治理能力成熟度模型再次评估,界定数据管理层次,从而使得跨系统、跨业务、跨部门的数据治理体系的建设与实施能够通过各方协作顺利进行,实现卓越数据治理,进而通过数据驱动业务、数据驱动管理和运营以实现企业的降本、增效、提质、创新。
某企业数据治理看板(数据已脱敏)
数据治理成效评估指标体系应根据企业及数据治理项目的实际情况制定,一般包括:时间性、数量性、完整性、准确性四个维度。
①时间性即数据的及时性。该维度主要通过源业务系统数据接入的上报及时性、接入及时性等方面进行核对。通过分析月指标、周指标、日指标的数据及时率,得出在规定时间和频度周期内接入系统的比例,以此反映数据接入及时性。
②数量性。该维度是从数据存量,数据增量,数据访问量,数据交换量、数据使用量等指标反映数据的使用情况,可以分为月度指标、周指标、日指标、时分指标等。
③准确性。这个维度主要由各类数据中逻辑的准确性、数据值的准确性、数据频段和字段之间的准确性以及数据的精度等内容组成。该准确率同样包括:月度、每周、每日等准确率指标。
④完整性。此维度主要以单元维度完整性、数据业务维度组合完整性、索引值完整性等不同方面进行核对,是验证数据质量完整性的主要组成部分,包括月度指标、周指标、日指标数据的完整性等内容。
目标:检验各项数据治理指标的落实情况,查漏补缺,夯实数据治理效果;
技术工具:数据治理效果的评价指标体系、各种数据图表工具;
输入:数据治理效果评估指标;
输出:数据治理评估的月报、周报、日报等;
10、数据治理持续改进
数据治理模式应业务化、常态化,不应是一个项目、“一阵风”的模式。
图片源自互联网
数据治理工作应向企业生产、销售业务一样作为一项重点的业务工作来开展,构建专业的数据治理组织,设置合适的岗位权责,建立相应的管理流程和制度,让数据标准贯彻到每个业务环节,形成一种常态的工作。在笔者看来,在数据源头加强企业数据的治理,让常态化治理成为日常业务,才能从根本上彻底解决企业数据质量的各种问题,让数据真正转化为企业资产,以实现数据驱动流程优化、数据驱动业务创新、数据驱动管理决策的目标。
目标:数据治理常态化,持续提升数据质量,驱动流程优化和管理创新。
输入:持续的、规范的、标准的各项业务操作;数据治理监控的各项指标和报告;
输出:持续输出的高质量的数据;
博主观点:原理大家都懂,实践时困难重重。在专家的指导下,应用适当的工具可让理论转化为现实。华矩科技,专业的数据治理服务与技术提供商。
❺ 数据治理的概念、难点和最佳实践方法
从信息化到数字化,我们见证了互联网对社会和个人的深刻影响。随着新技术、新理念的不断推出,数字化转型则在这两年强势兴起,逐渐改变着企业和市场的格局。而数据正驱动业务转型、组织变革。企业由信息化向数字化转型,是顺应大势,顺势而为才能借东风之势。
数字化转型的目的和核心是数据赋能业务,通过智能数据归一、数据统一治理与服务、数据实体化融合、数据资产化的方式,帮助实现业务转型、创新和增长。而我们的基石就是高质量数据。
一、数据治理的概念是什么?
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
国际数据管理协会给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。
用3W来解释:
WHO:面向董事会治理层、高管层的标准、任何类型的组织
WHAT:通过一系列原则,指导当前和将来使用的创建、收集、存储、分发、共享的数据,并依赖数据决策,影响相关管理过程。发挥数据价值、减少数据风险
WHY:良好的数据治理有助于领导层确保数据在整个组织通过以下方面对组织的绩效作出积极的贡献
二、数据治理能解决什么问题?
政府、企业想要释放数据的强大力量,必须提供准确、可靠、及时的数据。睿治帮助政府和企业有效管理数据,以避免因数据价值得不到很好体现而对政府和企业造成负面影响,进而帮助企业提高竞争力,为政府和企业提供更优质、更及时、更完整的数据,让其在政务管理和经营市场中脱颖而出。
制定统一标准:帮助政府和企业建设数据标准,制定统一标准
挖掘数据价值:帮助企业和政府梳理资源,形成数据资产,丰富分析应用全面掌控数据来龙去脉,以获得更多的数据洞察力,进而挖掘出隐藏在资源中的价值。
控数据质量:帮助企业和政府建立数据质量管理体系,对数据质量实时监控,及时整改,全面提升政府和企业数据的完整性、准确性、及时性,减少因数据不可靠导致的决策偏差攻损失。
提升信息服务水准:帮助政府和企业制定相关流程、政策、标准,保证信息的可用性、可获取性、优质性、一致性以及安全性,提升信息服务水准。
降低数据安全风险:提升政府和企业数据资产安全性,并帮助建立相关安全规范和响应机制,全面保障其数据安全
数据治理最佳实践路径。
三、数据治理的实践方法
数据治理是一个长期的过程,涉及到企业中所有跨功能和跨业务的决策机制。业界也有这么一个说法:数据治理即是管理问题,也是技术问题。
在管理角度,数据治理是一个至上而下的过程,需要企业高层从全局角度出发制定战略规划,规范数据从业务输入到战略管理过程的全流程治理;
在技术落地层面,需要自下向上推进,从实际内容来看,数据治理是一套工具集。目前业界还缺乏通用、有效的数据融合治理与数据质量管理的工具。
俗话说,工欲善其事,必先利其器。亿信华辰基于以上视角,结合十几年大数据技术经验,打造了智能数据治理平台——睿治,去帮助企业规范的定义与加工数据、清晰的管理数据、安全的应用数据。
睿治数据治理平台是一套完善、通用的的数据治理工具,融合数据集成、数据交换、实时计算存储、元数据管理、数据标准管理、数据质量管理、主数据管理、数据资产管理、数据安全管理、数据生命周期管理十大产品模块,可帮助企业实现数据的融合治理与数据质量管理。
睿治平台十大功能模块可基于政企用户不尽相同的发展现状,选择性组合使用,快速匹配数据治理的各类场景应用,突破数据治理的技术基础门槛。
❻ 什么是数据治理
数据治理是流程、角色、政策、标准和指标的集合,可确保有效和高效地使用信息,使企业能够实现其目标。它建立了流程和职责,以确保整个企业或企业中使用的数据质量和安全性。数据治理定义了谁可以对什么数据、在什么情况下、使用什么方法采取什么行动。