❶ 如何实现成功的数据治理
从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。
数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
数据采集清洗:通过可视化的 ETL 工具将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。
基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。
元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。
血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。
质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapRece,HBase 等。
商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。
数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。
❷ 如何将数据进行数据可视化展现
当前,许多企业已建立了自己的人力资源管理系统,也累积了相当的人力资源业务数据。然而,正如业内的那句老话“rich data, poor information”,以前累积的数据,并没有很好的得到利用。原因是这些数据来源太广,格式不统一,并且其中极少量的数据记录格式不正确;同时,累计的数据量相当庞大,但许多细节对高层管理人员来说并不重要,他们需要快速、全面的掌握企业的人力资源全貌,综合、全面、宏观的信息支持,将是领导们关注的对象。
面对庞大复杂的员工管理数据,企业高管人员需要通过数据来了解他们的员工会做什么?应该雇佣谁?应该晋升谁?谁是顶层员工?谁有可能离职?
在数据分析方面,借助于DataViz自助式数据分析和可视化展现功能,深度挖掘人力资源数据,通过可视化动态交互探索数据规律。辅助企业高管更加直观和高效地洞悉潜藏在数据背后的知识与智慧。
❸ 企业数据治理成功实现工作如何开展
1、需要企业高层支持,将数据治理工作放在企业重点工作中,保证对数据治理项目人力物力的投入,提高数据治理相关部门和人员的执行力。
2、建立完善的数据治理组织,数据治理管理制度,并明确组织内各角色的职责。数据治理团队可由业务部门牵头,IT部门联合组成,然后结合企业的现状,制定相应的管理办法、管理流程、认责体系、人员角色和岗位职责等,颁布相关的数据治理的企业规章制度。
3、建立数据规范。数据规范是指对企业核心数据进行有关存在性、完整性、质量及归档的测量标准,为评估企业数据质量,并且为手动录入、设计数据加载程序、更新信息以及开发应用软件提供的约束性规则,数据规范一般包括数据标准、数据模型、业务规则、元数据、主数据和参考数据。
❹ 大数据时代如何做好数据治理
企业数据分析系统的数据来源是各个业务系统或手工数据,这些数据的格式、内容等都有可能不同。如果不进行数据治理,数据的价值难以发挥。只有对数据标准进行规范,管理元数据、数据监控等,才能得到高质量的数据。得到规范的数据后,才可在此基础上进行主题化的数据建模、数据挖掘、数据分析等。
2013年被众多的IT人定义为中国的大数据元年,这一年国内的大数据项目开始在交通、电信、金融部门被广泛推动。各大银行对Hadoop的规划、POC尤其风生水起,带动了一波大数据应用的热潮,这个热潮和当初数据仓库进入中国时的2000年左右很相似:应用还没有想好,先归集一下数据,提供一些查询和报表,以技术建设为主,业务推动为辅。这就导致了这股Hadoop热潮起来的时候,传统企业都是以数据归集为主的,而BAT这样的企业则天生以数据为生,早早进入了数据驱动技术和业务创新的阶段。
随着Hadoop技术的提升,数据如何进来,如何整合,开展什么样的应用都已经有了成熟的案例,可是,同传统数仓时代一样,垃圾进垃圾出,如何破?相比传统数仓时代,进入Hadoop集群的数据更加的多样、更加的复杂、量更足,这个数仓时代都没有处理好的事情,如何能够在大数据时代处理好,这是所有大数据应用者最最期盼的改变,也是大数据平台建设者最有挑战的难题:数据治理难的不是技术,而是流程,是协同,是管理。 睿治数据治理平台平台架构
元数据:采集汇总企业系统数据属性的信息,帮助各行各业用户获得更好的数据洞察力,通过元数据之间的关系和影响挖掘隐藏在资源中的价值。
数据标准:对分散在各系统中的数据提供一套统一的数据命名、数据定义、数据类型、赋值规则等的定义基准,并通过标准评估确保数据在复杂数据环境中维持企业数据模型的一致性、规范性,从源头确保数据的正确性及质量,并可以提升开发和数据管理的一贯性和效率性。
数据质量:有效识别各类数据质量问题,建立数据监管,形成数据质量管理体系,监控并揭示数据质量问题,提供问题明细查询和质量改进建议,全面提升数据的完整性、准确性、及时性,一致性以及合法性,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。
数据集成:可对数据进行清洗、转换、整合、模型管理等处理工作。既可以用于问题数据的修正,也可以用于为数据应用提供可靠的数据模型。
主数据:帮助企业创建并维护内部共享数据的单一视图,从而提高数据质量,统一商业实体定义,简化改进商业流程并提高业务的响应速度。
数据资产:汇集企业所有能够产生价值的数据资源,为用户提供资产视图,快速了解企业资产,发现不良资产,为管理员提供决策依据,提升数据资产的价值。
数据交换:用于实现不同机构不同系统之间进行数据或者文件的传输和共享,提高信息资源的利用率,保证了分布在异构系统之间的信息的互联互通,完成数据的收集、集中、处理、分发、加载、传输,构造统一的数据及文件的传输交换。
生命周期:管理数据生老病死,建立数据自动归档和销毁,全面监控展现数据的生命过程。
数据安全:提供数据加密、脱敏、模糊化处理、账号监控等各种数据安全策略,确保数据在使用过程中有恰当的认证、授权、访问和审计等措施。
建立完整的、科学的、安全的、高质量的数据管控技术体系,是首要的任务。作为数据管控的基石,为了更好支撑后续工作的开展,技术体系必须一步到位,是功能完备、高质量、高扩展性的,而不是仅实现部分功能,或者功能不完善的“半成品”。
叠加更多业务数据、细化数据业务属性与管理属性、优化与调整数据管控流程,尤其是适应未来的现代企业数据管控制度的建立完善,是逐步积累推广、不断磨合改进的长期过程。这些工作应及早启动,并成为后续大数据平台建设工作的重点。
谈大数据时代的数据治理 当前要做的是功能框架的完善,而完善的着力点则是“数据资产目录”:用资产化的视角来管理一个企业的数据,只有把数据作为资产来认识和管理,大数据项目才能达成预期,也能够治理好。大数据时代带来的价值,个人认为主要有两个,一个是技术架构,主要是架构理念的进步,另外一个更重要的则是对数据的重视。大数据时代是数据的时代,IT向DT转型,不单单是BAT,所有的IT公司,未来都在数据这两个字上。
对于一个企业来说,把数据作为资产,才是建设大数据的最终目的,而不是仅仅是因为Hadoop架构带来性价比和未来的扩展性。当一个企业把数据作为资产,他就像管理自己名下存折、信用卡一样,定期梳理,无时无刻不关心资产的变化情况,关注资产的质量。
而资产目录就是管理资产的形式和手段,他像菜单一样对企业的资产进行梳理、分门别类,提供给使用者;使用者通过菜单,点选自己需要的数据,认可菜单对应的后端处理价值,后厨通过适当的加工,推出相应的数据服务;这是一个标准的流程,而这些流程之上,附着一整套数据管理目标和流程。
大数据平台以数据资产目录为核心,将元数据、数据标准、主数据、数据质量、数据生命周期、数据轮廓等信息在逻辑层面关联起来,在管理层面上整合成统一的整体,构建起数据管理体系,全面的支持数据服务等具体应用。
大数据平台实现了数据存储、清洗和应用。在数据汇入和汇出的过程中,需要对数据的元数据进行统一记录和管理,以利于后续的数据应用和数据血缘分析。数据质量一直是数据集成系统的基础工作,对数据的各个环节设置数据质量检查点,对数据质量进行剖析、评估,以保证后续应用的可信度。
在数据收集的过程中,随着数据维度、指标的聚集,如何找到所需的业务指标及属性,并且评估相关属性的业务及技术细节,需要对收集的所有数据进行业务属性,并进行分类,建立完善的数据资产目录。
数据资产目录是整个大数据平台的数据管理基础,而数据资产目录由于数据的多样性,在使用的过程中,必然涉及数据权限的申请、审批管控流程,而管控流程的建立依赖于相应岗位的设立和对应职责的建立。
大数据平台的数据管理架构规划,通过数据物理集中和数据逻辑整合,彻底摆脱企业“数据竖井”的困境。大数据平台数据管理架构分为功能架构、流向规划和数据架构三个层面。
数据管理功能架构:借鉴DAMA数据管理和DMM数据成熟度理论,着眼于数据管理技术和数据管理流程融合,组织数据管理功能。
数据流向规划架构:规划整个大数据平台的数据流向,并在数据流入、数据整合、数据服务的具体环节实现精细化管理。
数据管理的数据架构:以数据资产目录为核心,数据项为最小管理单元,将技术元数据(实体、属性和关系)、业务元数据和管理元数据(数据标准、主数据、数据质量、数据安全)融合为彼此紧密联系、密不可分的整体,共同构成精细化管理的数据基础。
数据管理在整个大数据平台不仅仅是一个主要功能模块,它还是整个企业层面数据治理的重要组成部分,它是技术和管理流程的融合,也需要合理管控流程框架下组织机构之前的协调合作。如何利用统一的数据管理模块对企业所有进入到数据湖的数据进行有效管控,不单单取决于数据管理模块本身,也取决于元数据的合理采集、维护,组织结构及制度的强力支持保证。
谈大数据时代的数据治理 大数据平台数据管理参照了DAMA对于数据管理的九个管理目标,并进行裁剪,并对部分管理目标进行了合并,并参照了CMMI制定DMM数据成熟度目标,采用循序渐进,逐步完善的策略对管理目标进行分阶段完成,制定完整的管控流程和数据治理规范,以便持续的对数据进行管理,递进实现DMM定义的成熟度目标。
亿信睿治数据治理管理平台和DAMA的对应关系如下:
谈大数据时代的数据治理 大数据平台数据管理的核心内容是数据资产目录,围绕数据资产目录的数据流入、数据整合、数据服务都是数据管理的核心。数据管理主要管理数据的流动,以及管理流动带来的数据变化,并对数据底层的数据结构、数据定义、业务逻辑进行采集和管理,以利于当前和未来的数据使用。为了更好的对数据进行管理和使用,制度层面的建设、流程的设立必不可少,同时也兼顾到数据在流动过程中产生的安全风险和数据隐私风险。
因此数据管理介入到完整的数据流转,并在每个节点都有相应的管理目标对应,整个数据流框架如下图所示:
谈大数据时代的数据治理 企业在建制大数据平台的同时,对进入数据湖的数据进行梳理,并按照数据资产目录的形式对外发布。在发布数据资产之后,则对进出数据湖的数据进行严格的出入库管理,保证数据可信度,并定期进行数据质量剖析检查,确保数据资产完善、安全、可信,避免“不治理便破产”的谶言。
❺ 如何成功实现数据治理
随着信息技术的飞速发展,各领域的数据量都在爆发式增长,尤其在云计算、物联网、移动互联网等it技术得到广泛应用之后,数据的增长实现了从量变到质变的转型,大数据如浪潮般席卷而来,人类社会进入大数据时代。大数据不仅仅只是一次颠覆性的技术革命,更是一场思维方式、行为模式与治理理念的全方位变革,尤其在治理领域,大数据带来了巨大的变革潜力和创新空间。在“全面深化改革,推进国家治理体系和治理能力现代化”的时代背景下,应充分重视大数据在治理中的重要价值,牢牢抓住大数据为治理提供的创新机遇,切实提高各级部门的治理能力。
一、大数据为治理理念转型带来新机遇
治理理念的转型是提升治理能力的前提,理念的转型需要新文化、新思维的融入,大数据所蕴含的数据文化与数据思维恰好可以为治理理念转型提供突破口,基于大数据探索治理的多元、多层、多角度特征,最终实现以为主体的管制理念向以协同共治、公共服务为导向的治理理念的转型。在大数据时代,治理的依据不再是个人经验和长官意志,而是实实在在的数据,在过去深入群众、实地调研考察的基础上,系统采集的客观数据和实证分析的科学结果将成为最为重要的决策依据。“尊重事实、推崇理性、强调精确”的特征和“用数据说话、用数据决策、用数据管理、用数据创新”的理念将成为治理理念转型的核心要义。
二、大数据为治理模式创新带来新机遇
大数据通过把数学算法运用于海量数据,从数据中寻找相关关系,通过这种相关性预测事情发生的可能性,这是大数据方法论的核心思想。此外,依托于大数据技术和,通过、众包等灵活的组织方式,可以推动治理的组织架构从科层、分割、封闭向开放、协同、合作转型,因此把大数据的方法和手段引入到治理领域,是实现治理模式创新的有效路径。基于上述方法论,大数据为治理模式创新带来的新机遇主要包括:从粗放式管理到精细化治理、从单兵作战型管理到协作共享型治理、从被动响应型管理到主动预见型治理、从电子政务管理到2.0治理、从风险隐蔽型管理到风险防范型治理,最终实现全面数据驱动的治理模式创新。
三、大数据为决策科学化带来新机遇
随着公共事务的日益复杂,仅凭个人感知已经很难全面了解所有正在发生的事情并做出正确判断,部门想要提高决策的科学性,就需要把大数据思维与技术运用到治理与决策中,依靠大规模数据的收集来直观呈现经济社会运行规律,通过相应的数据挖掘来辅助部门进行科学决策。大数据为决策科学化带来的机遇主要体现在两个方面:首先,在决策的制定阶段,大数据背景下,决策不再是个别领导干部“拍脑袋”做出的,而是通过“用数据说话”,让听得见炮火的人(数据)做出决策,这样的决策是在对客观数据进行科学分析、充分了解客观现实的基础上做出的,这样大大提高了决策的精准性、适用性和科学化水平;其次,在决策实施效果的跟踪反馈阶段,通过物联网和社交网络的普及,大量的客观数据能够快速汇集给决策者,通过这些数据对决策的实施过程和效果进行实时监控,能够更全面地掌握决策的实施效果和下一步的改进方向。
四、大数据为服务效能提升带来新机遇
提升服务效能是治理能力提升的重要支撑,也是大数据背景下服务型建设的关键所在,在治理的范畴下,提升服务效能主要包括部门行政审批的效率提升和公共服务产品的质量提高两个方面。在提升行政审批效率方面,大数据可以打通各个部门的信息孤岛,打破各部门数据的条块分割,通过构建统一的行政审批云,让数据为老百姓“跑腿办事”,省去了“跑断腿、磨破嘴,办事跑十几个部门,盖几十个公章”的苦恼和无奈,这样既提高了行政审批效率,又节约了开支。在提高公共服务产品质量方面,大数据通过对公共服务产品数据和服务对象数据的挖掘、分析,提升公共服务产品供给的精准化、分层化、个性化;通过公共数据的开放和兼容,让公众参与到公共服务产品设计、提供和监督等各个环节,实现公共服务产品质量的提高。
❻ 数据治理三个阶段是什么
数据治理分为四个阶段:
第一阶段,梳理企业信息,构建企业的数据资产库。首先要清楚企业的数据模型、数据关系,对企业资产形成业务视图、技术视图等针对不同用户视角的展示。
第二阶段,建立管理流程,落地数据标准,提升数据质量。从企业角度梳理质量问题,紧抓标准落地。
第三阶段,直接为用户提供价值。本阶段依赖于前两个阶段的建设,为用户提供方便的获取数据的途径。
第四阶段,为企业提供数据价值。通过多种手段对多种来源的数据进行分析,形成企业知识图谱,体现数据的深层价值。
通过这4个阶段的建设,建立起全企业的数据质量管控平台,以用户为中心,由用户使用数据并通过用户的使用优化数据质量,既达到了数据治理的目标,也最大限度的发挥了数据的价值。
数据治理方案:
有关数据治理的问题并不能在企业的单一部门得到解决。这需要IT与业务部门进行协作,而且必须始终如一地进行协作,以改善数据的可靠性和质量,从而为关键业务方案提供支持,并确保遵守法规。
Informatica能够提供企业级数据治理解决方案,该解决方案可以在本地或云中使用,在传统数据或大数据中均有使用案例,可以满足业务和IT部门的需求。
Informatica可提供功能齐全而又稳健可靠的数据治理解决方案,具备交付可信、安全的数据和启动成功的元数据管理方案所需的全部精确功能。
Informatica Axon提供端到端智能数据治理解决方案,以整体、协作的方法将员工、流程和系统流畅融合,从而实现战略业务成果。Axon Data Governance作为协作中心,为成功实施数据治理计划提供支持。