‘壹’ 大数据 简述元数据包括哪些数据处理过程记录
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元数据的一种应用,是1995年2月由国际图书馆电脑中心(OCLC)和美国国家超级计算应用中心(National Center for Supercomputing Applications,NCSA)所联合赞助的研讨会,在邀请52位来自图书馆员、电脑专家,共同制定规格,创建一套描述网络上电子文件之特征。
‘贰’ 数据管理框架中的元数据管理是什么
大数据时代下,凭借数据管理框架中的重要管理职能,元数据管理也越来越频繁的出现在大家的视野中。
元数据及应用也是数据仓库的重要组成部分,它是描述数据的数据(data about data),描述数据的属性信息,可以帮助我们非常方便地找到他们所关心的数据。
元数据记录了哪些信息?
数据的表结构:字段信息、分区信息、索引信息等;
数据的使用&权限:空间存储、读写记录、修改记录、权限归属、审核记录等其他信息;
数据的血缘关系信息:血缘信息简单的说就是数据的上下游关系,数据从哪里来到哪里去?我们通过血缘关系,可以了解到建立起生产这些数据的任务之间的依赖关系,进而辅助调度系统的工作调度,或者用来判断一个失败或错误的任务可能对哪些下游数据造成影响等等;而在数据排查过程中也可以帮助我们定位问题。
数据的业务属性信息:记录这张表的业务用途,各个字段的具体统计口径、业务描述、历史变迁记录、变迁原因等。这部分数据多是我们手动填写,但却能大大提升数据使用过程中的便利性。
对于元数据的概念及元数据管理的作用,这篇文章大概做了一个介绍,希望能帮到对其理解不够清晰的非业内人士。
‘叁’ 什么是数据库管理系统它具有哪些功能
数据库管理系统(database
management
system)是一种操纵和管理数据库的大型软件,是用于建立、使用和维护数据库,简称dbms。它对数据库进行统一的管理和控制,以保证数据库的安全性和完整性。用户通过dbms访问数据库中的数据,数据库管理员也通过dbms进行数据库的维护工作。它提供多种功能,可使多个应用程序和用户用不同的方法在同时或不同时刻去建立,修改和询问数据库。它使用户能方便地定义和操纵数据,维护数据的安全性和完整性,以及进行多用户下的并发控制和恢复数据库。
按功能划分,数据库管理系统大致可分为6个部分:
(1)模式翻译:提供数据定义语言(ddl)。用它书写的数据库模式被翻译为内部表示。数据库的逻辑结构、完整性约束和物理储存结构保存在内部的数据字典中。数据库的各种数据操作(如查找、修改、插入和删除等)和数据库的维护管理都是以数据库模式为依据的。
(2)应用程序的编译:把包含着访问数据库语句的应用程序,编译成在dbms支持下可运行的目标程序。
(3)交互式查询:提供易使用的交互式查询语言,如sql。dbms负责执行查询命令,并将查询结果显示在屏幕上。
(4)数据的组织与存取:提供数据在外围储存设备上的物理组织与存取方法。
⑸事务运行管理:提供事务运行管理及运行日志,事务运行的安全性监控和数据完整性检查,事务的并发控制及系统恢复等功能。
(6)数据库的维护:为数据库管理员提供软件支持,包括数据安全控制、完整性保障、数据库备份、数据库重组以及性能监控等维护工具。
基于关系模型的数据库管理系统已日臻完善,并已作为商品化软件广泛应用于各行各业。它在各户服务器结构的分布式多用户环境中的应用,使数据库系统的应用进一步扩展。随着新型数据模型及数据管理的实现技术的推进,可以预期dbms软件的性能还将更新和完善,应用领域也将进一步地拓宽。
它所提供的功能有以下几项:
(1)数据定义功能。dbms提供相应数据语言来定义(ddl)数据库结构,它们是刻画数据库框架,并被保存在数据字典中。
(2)数据存取功能。dbms提供数据操纵语言(dml),实现对数据库数据的基本存取操作:检索,插入,修改和删除。
(3)数据库运行管理功能。dbms提供数据控制功能,即是数据的安全性、完整性和并发控制等对数据库运行进行有效地控制和管理,以确保数据正确有效。
(4)数据库的建立和维护功能。包括数据库初始数据的装入,数据库的转储、恢复、重组织,系统性能监视、分析等功能。
(5)数据库的传输。dbms提供处理数据的传输,实现用户程序与dbms之间的通信,通常与操作系统协调完成。
着名数据库管理系统
ms
sql
sybase
db2
oracle
mysql
access
vf
常见的数据库管理系统
目前有许多数据库产品,如oracle、sybase、informix、microsoft
sql
server、microsoft
access、visual
foxpro等产品各以自己特有的功能,在数据库市场上占有一席之地。下面简要介绍几种常用的数据库管理系统。
‘肆’ 系统的数据处理的功能有哪些
1.可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。 2. 数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计 学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如 果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。 3. 预测性分析 大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。 4. 语义引擎 非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。 5.数据质量和数据管理。 大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。 大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。 大数据的技术 数据采集: ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。 数据存取: 关系数据库、NOSQL、SQL等。 基础架构: 云存储、分布式文件存储等。 数据处理: 自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机”理解”自然语言,所以自然语言处理又叫做自然语言理解也称为计算语言学。一方面它是语言信息处理的一个分支,另一方面它是人工智能的核心课题之一。 统计分析: 假设检验、显着性检验、差异分析、相关分析、T检验、 方差分析 、 卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、 因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。 数据挖掘: 分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等) 模型预测 :预测模型、机器学习、建模仿真。 结果呈现: 云计算、标签云、关系图等。 大数据的处理 1. 大数据处理之一:采集 大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的 数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除 此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。 在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户 来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间 进行负载均衡和分片的确是需要深入的思考和设计。 2. 大数据处理之二:导入/预处理 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这 些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使 用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。 导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。 3. 大数据处理之三:统计/分析 统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通 的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于 MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。 统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。 4. 大数据处理之四:挖掘 与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数 据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于 统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并 且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。 整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。
‘伍’ 什么是元数据管理及其作用
元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。
元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。
构建数据仓库的主要步骤之一是ETL。这时元数据将发挥重要的作用,它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。
用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制报表。
数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移除外部数据源,改变数据清洗方法,控制出错的查询以及安排备份等。
元数据可分为技术元数据和业务元数据。技术元数据为开发和管理数据仓库的IT 人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。而业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。
由上可见,元数据不仅定义了数据仓库中数据的模式、来源、抽取和转换规则等,而且是整个数据仓库系统运行的基础,元数据把数据仓库系统中各个松散的组件联系起来,组成了一个有机的整体
‘陆’ 公司如何做好元数据管理
最近Gartner在研究报告里明确指出,“元数据管理将是未来企业信息化的核心基础设施”。确实,在大数据环境中,如果企业不通过元数据管理把多种复杂的信息管理起来,很难做到信息的有效利用。但是,很多企业逐渐发现元数据管理直接给企业业务创新带来的价值非常有限。目前的元数据管理现状是什么?如何充分释放元数据管理的业务价值?有哪些实践经验可以借鉴?
目录:
一、现状分析:孤独的企业元数据管理
二、解决方案:面向业务释放元数据价值
三、技术实践:普元的企业元数据管理实践
一、现状分析:孤独的企业元数据管理
元数据管理不能给业务创新带来直接价值的主要原因,在于目前的元数据管理太“孤独”,这种孤独主要体现在以下四个方面:
管理范围窄:目前元数据管理范围窄主要体现在两个层面:第一,只管理了数据仓库相关的元数据,没有将元数据管理扩展到整个企业层面;第二,即使在数据仓库领域,也只管理了部分技术元数据,技术元数据的缺失导致元数据系统不能展现出企业系统的真实情况,业务元数据的缺失导致最终大家只能得到一堆缺少具体业务含义的表结构。
业务难结合:因为缺少和业务的结合,很多企业做完元数据管理系统之后,发现只是数据管理部内部人员在使用,其他部门的人根本没法用。系统都应该是为业务服务的,只有一个部门的人在用的系统是没有生命力的,如何让各部门的人都会使用元数据管理系统是一件很重要的事。
应用场景缺:目前,大部分元数据的应用场景都局限于元数据系统的内部功能,比如血缘分析,血统分析,版本管理等,这些功能都是企业在信息化里面使用到的,但实际上元数据的作用不只是体现在这些有限的功能上。
技术不完善:技术的不完善导致了以上一系列问题的出现。扩展性不强,导致很多元数据管理工具没办法管理企业业务数据和架构;采集能力差,导致只能通过手工做辅录,人工成本高,不能建立完整的信息链路;实时性不高,导致很多企业的元数据管理还停留在T+1(甚至不是T+1)阶段,不能实时了解数据资产状况,跟不上企业数据增长的速度。
二、解决方案:面向业务释放元数据价值
为了让元数据管理摆脱以上“孤独”的现状,可以从四个方面着手:
在技术上增强扩展性,实现自动化采集第一,增强扩展性。现在大部分元数据产品都是符合CWM标准的,只能管理数据仓库相关的元数据,不支持业务、架构等元数据的采集,以位于CWM下一层的MOF为基础,能有效解决扩展性的问题,通过此种方式,普元用元数据管理了新一代平台The Platform中整个微服务架构,实现了服务、数据以及运维过程的统一管理。第二,提升采集能力。元数据管理要采集各种各样的元数据,包括脚本、存储过程、报表等,还得分析各种各样的语法树,这对系统的采集能力要求是很高的,普元的元数据管理平台已实现用自动化提升系统的采集性能,能采集多种元数据,采集率几乎达到100%。
增强业务元数据管理能力,让业务用户广泛使用充分释放元数据管理业务价值的前提是让业务人员学会使用元数据管理系统,因此如何采集到业务元数据就变得非常重要。通过Excel采集业务元数据的方式,需要业务人员来填写各种各样的数据项,即使采集到系统中,也无法建立业务元数据与技术元数据的关联,无法体现业务数据在技术上的路径。为了解决上面的问题,自动化采集是必不可少的,另外还可以通过从文档里去分析业务元数据,再和技术元数据做对应的方式,让更多用户参与到元数据系统的使用上来。
与业务结合,实现面向业务的定制化应用现在元数据管理系统只局限在内部特定功能的使用,为发挥元数据管理的价值,应该把元数据做成一个服务化的系统,嵌入到企业各个场景中,给其他系统提供能力,让其他系统变得更自动化,让元数据管理变成企业一个很重要的基础设施,集成到企业信息化的方方面面。
打通数据生产线,形成自助数据供给不少企业都遇到过这样的问题:开发人员向数据部门索要数据时,数据部门需要逐个讲解数据的含义并把数据导过去,讲解的难度随着系统的增多而增大。元数据能帮助企业打造一个自助的数据生产线,让开发人员很容易地从数据平台中拿到所需数据,把整个产业线变得更简单,减轻数据部门的工作量的同时还能提高业务开发人员的满意度。
三、技术实践:
普元的企业元数据管理实践
中国东方航空:业务化的数据地图原来的数据地图只有技术人员能看懂,但是业务人员更关心和业务相关的事情,关心的是业务数据的分布。所以,普元梳理了整个东航的模型,用业务人员能理解的方式展现出了这些数据。通过数据资产管理平台的建设,东航实现了业务化数据地图的展现。普元借鉴达美航空经验,分析了航空领域模型中近2000个实体,逐个核对了1249张业务系统表数据,梳理出了数据主题域、数据实体、业务系统在内的三层结构的数据地图:包括航班、票务等13个主题域,针对每个主题域给出了多达227个业务实体目录及定义,给出了每个业务实体对应的数据库表与业务系统。
浙江电力:基于业务元数据的业务用户自助数据查询因为业务人员的IT水平有限,没办法自己设计报表,也没办法自助查询数据,所以浙江电力每天都要处理大量来自业务人员的需求。普元帮助浙江电力梳理了所有的元数据,并跟报表线做了整合,通过对应业务元数据和技术元数据,让业务人员可以查询业务数据对应的技术通路,从而自助设计报表,大大减小了数据部门的工作量;普元还帮助浙江电力做了针对业务流程的数据地图,业务人员从数据地图上能直接看到每个流程节点对应的数据,通过这种方式,让业务用户自己找到所需的数据。
德邦物流:自动化、实时的数据资产采集德邦已经建立了比较完善的数据平台,普元元数据管理平台,帮助德邦管理了90多个业务系统,优化了整个现有流程,实现了各种环境的自动化采集(数据库、ETL、服务、报表、GP、存储过程等),采集准确率达到了95%-99%。自动化采集之后,德邦放心地去掉了500多张报表中跟任何系统都没有关联的50张无用报表,大大减少了报表维护费用。
对于开发中的测试部署阶段,理想状况下,设计态、测试态、生产态中的元数据是一致的,通常开发管理者需要比对设计态和生产态,根据比对结果判断系统能否上线,运维人员也需要在系统上线之前,提前分析出系统上线给其他系统带来的影响。之前这些都需要人工完成,项目完成后,元数据已经融入了德邦的每一个开发环节,通过元数据管理系统可以完整比对不同状态之间元数据的差别,直接给出对比差异报告,开发管理者和运维人员根据报告就能判断系统能否上线。
‘柒’ 什么是元数据(MetaData)及元数据的用途
元数据(Meta Data)是关于数据的数据,当人们描述现实世界的现象时,就会产生抽象信息,这些抽象信息便可以看作是元数据,元数据主要用来描述数据的上下文信息。
通俗的来讲,假若图书馆的每本书中的内容是数据的话,那么找到每本书的索引则是元数据,元数据之所以有其它方法无法比拟的优势,就在于它可以帮助人们更好的理解数据。
发现和描述数据的来龙去脉,特别是那些即将要从OLTP系统上升到DW/BI体系建设的企业,元数据可以帮他们形成清晰直观的数据流图,元数据是数据管控的基本手段。
元数据是为了提升共享、重新获取和理解企业信息资产的水平,元数据是企业信息管理的润滑剂,不对元数据进行管理或管理不得当。
信息将被丢失或处于隐匿状态而难以被用户使用,数据集成将十分昂贵,不能对业务进行有效支撑。终端用户要识别相关的信息将十分困难,最终用户将失去对数据的信任。
(7)大数据元数据管理系统有哪些功能扩展阅读
元数据分类
元数据管理的范围将涵括数据产生、数据存储、数据加工和展现等各个环节的数据描述信息,帮助用户理解数据来龙去脉、关系及相关属性。按其描述对象的不同可以划分为三类元数据:技术元数据、业务元数据和管理元数据。这三种元数据的具体描述如下:
1、技术元数据 技术元数据是描述数据系统中技术领域相关概念、关系和规则的数据,主要包括对数据结构、数据处理方面的特征描述,覆盖数据源接口、数据仓库与数据集市存储、ETL、OLAP、数据封装和前端展现等全部数据处理环节;
2、业务元数据 业务元数据是描述数据系统中业务领域相关概念、关系和规则的数据,主要包括业务术语、信息分类、指标定义和业务规则等信息;
3、管理元数据 管理元数据是描述数据系统中管理领域相关概念、关系和规则的数据,主要包括人员角色、岗位职责和管理流程等信息。
‘捌’ 数据治理的数据治理成功的关键——元数据管理
独立企业数据集成软件提供商Informatica公司(纳斯达克代码:INFA)认为:数据治理成功的关键在于元数据管理,即赋予数据上下文和含义的参考框架。经过有效治理的元数据可提供数据流视图、影响分析的执行能力、通用业务词汇表以及其术语和定义的可问责性,最终提供用于满足合规性的审计跟踪。元数据管理成为一项重要功能,让 IT 部门得以监视复杂数据集成环境中的变化,同时交付可信、安全的数据。因此,良好的元数据管理工具在全局数据治理中起到了核心作用。 Informatica将数据治理定义为“在组织范围内,对流程、政策、标准、技术和人员进行职能协调和定义来将数据作为公司资产管理,从而实现对准确、一致、安全且及时的数据的可用性管理和可控增长,以此制定更好的业务决策,降低风险并改善业务流程”。
数据治理着重于交付可信、安全的信息,为制定明智的业务决策、有效的业务流程并优化利益相关方交互提供支持。因此,数据治理本身并非是结果,而仅仅是方法:即通过数据治理来支持最关键的业务目标。 正如某家大型银行的高管所言:“如果没有数据治理,任何元数据管理方案注定会失败。”元数据管理可作为一项重要功能,让IT部门得以管理复杂数据集成环境中的变化,同时交付可信、安全的数据。当业务利益相关方参与这一进程并接受对数据参考框架的责任,其优势将变得更有说服力。此时,企业就能将业务元数据与基层的技术元数据进行关联,为全公司范围内的协作提供词汇表和背景资料。
例如,当业务用户要求其在 IT 部门的搭档在报告或分析中显示“净收入”,就无需再提问“哪种净收入——财务、销售还是市场营销?”除提供其他优势外,良好的元数据管理还可通过免除此类重要问题,促进数据治理:
· 这个业务术语的含义是什么?
· 在(几个相似的)业务术语中应当使用哪一个?
· 该术语的来源是什么?
· 该数据从数据源转移到目标时是如何进行转换的?
· 由谁负责该术语的定义、记录和管理?
· 谁修改过该术语?如何及何时进行修改?
· 哪些政策和规则适用于该术语?(示例包括数据质量规则、安全屏蔽规则、存档规则和数据保留政策)
· 修改环境中的某一特定数据对象会对其他数据对象产生哪些影响?
· 在不对可能使用相同数据对象的其他报告和分析造成影响的前提下,需要多长时间来实施环境变更? 一系列公司方案推动了数据治理的进展,也由此带动了元数据管理。这些方案包括:
· 通用业务词汇表(简单的数据管理)。这种“小规模试水”方法着重于某一特定问题或业务部门的通用业务词汇表。
· 全面数据治理(或数据管理策略)。这是一种更近似由上至下的方式,通常用于涉及企业内一系列业务部门的较大规模计划,并以按多个阶段(如果不是更长时间)进行管理的计划中的多个商机为目标。
· 合规。此类方案的推动因素是为遵守国际、国家、当地或行业法规的需求。合规——通常由一个治理、风险与合规性(GRC)职能部门进行管理,显然与数据治理唇齿相依。在发现、分析和记录企业的多项内部数据治理要求的同时,还必须与适用外部法规的相关特定要求进行统筹协调。其中部分示例包括:
· 银行业:Basel II、Basel III、多德弗兰克法案(Dodd Frank)、洗钱法案
· 保险业:偿付能力监管标准II(Solvency II )
· 医疗保健:HITECH Act、HIPAA
· 一般金融服务:萨班斯—奥克斯利法案
· 元数据管理。这是更上一层楼的做法,将元数据管理和数据治理作为“最佳实践”与各个新的业务方案挂钩。该方案对业务案例和项目范围进行定义。在多家未能成功实施较大型数据治理方案的公司中,这一方法则取得了成功。 几乎所有企业都面临着管理数据量、速度和种类的挑战。Hadoop/MapRece 技术在复杂数据分析能力以及按相对低廉的成本实现最大数据扩展性方面提供了一些有趣的优势。Hadoop 在不久的将来取代关系性DBMS的可能性不大,这两项技术更有可能并存,因为它们各有独到之处。虽然用于管理和分析数据的技术可能不同,元数据管理和数据治理的目标应始终保持不变:为支持良好的业务决策提供可信、及时且相关的信息。不存在所谓的“大数据治理”或“大数据元数据管理”——相反,这是一个将全局企业数据治理和元数据管理活动加以扩展来包容全新数据类型和数据源的问题。
Hadoop带来的挑战之一就是元数据管理。如果没有良好的元数据管理和数据治理,Hadoop将会缺乏透明度、可审计性以及数据的标准化与重复利用能力。企业仍将需要对数据相关关键信息的可见性,例如其来源、质量和所有权,否则就必须承受Hadoop变成环境内的又一个数据孤岛的风险。在该领域涌现的 HCatalog 和Hive /HiveQL等新技术将使得从非结构化和半结构化数据中收集元数据变得更加简易,从而实现Hadoop上的数据沿袭。这些功能对于将Hadoop集成入总体数据集成框架,以防止大数据在企业中遭到孤立隔绝,可如同任何其他数据源一样进行治理至关重要。 Informatica可提供功能齐全而又稳健可靠的工具,具备交付可信、安全的数据和启动成功的元数据管理方案所需的全部精确功能。Metadata Manager & BusinessGlossary可提供独一无二的多项优势,让IT经理能够尽量降低在实施变更时对关键业务数据造成损害的业务风险。
InformaticaMetadata Manager & Business Glossary是 InformaticaPowerCenter Standard Edition的关键组件之一。它可提供为数据治理方案奠定基础所需的核心元数据管理工具。Metadata Manager & Business Glossary是一项单个产品,配备一个共享的元数据信息库。它具备两个用户界面,供两类截然不同的用户使用:
· MetadataManager 可让 IT 人员处理技术元数据。
· Business Glossary 可让业务和 IT 管理员协同管理业务元数据。
ITSS WG1发布的白皮书表明
数据治理模型包括三个框架:范围,促成因素和执行及评估。他们每个方面都包含许多组件来进行展示和描述它们是如何工作的。该框架显示数据治理内部的逻辑关系。范围展示了我们应该关注什么,促成因素展示了数据治理的推动因素,执行和评估展示了如何实现治理的方法。该DG模型可以通过三个框架帮助我们理解数据治理。
数据治理的范围包括四个层次的内容。首先,应该 有一个治理要素负责管理其它管理要素,保证治理与管理的一致性。其次,下面的三个层次分别列示了需要治理的数据管理要素,其中价值创造层列示了通过数据治理所创造的价值服务。价值保证层描述了一个组织治理数据时重要保证服务。基础数据服务层描述了一个数据治理的基础数据服务。
‘玖’ 什么是元数据管理及其作用
元数据管理定义如下:
1、元数据管理包括业务词汇表的发展,数据元素和实体的定义,业务规则和算法以及数据特征。
2、最基础的管理是管理业务元数据的收集、组织和维持。
3、对技术型元数据的应用对主数据管理和数据治理项目的成功至关重要。
元数据管理作用:
1、元数据是“所有系统、文档和流程中包含的所有数据的语境
2、如果没有元数据,组织IT系统中收集和存储的所有数据都会失去意义,也就没有业务价值。
3、元数据管理是一项和主数据管理、数据治理一样重要的功能,因为元数据管理是每一个这些准则的基础组件。
4、组织部署了数据治理项目,但没有解决元数据管理问题,仍然获得了成功,那是因为很多数据管家执行的活动和任务在聚焦元数据和元数据的管理流程。
‘拾’ 数据管理包括哪些内容
数据管理的主要内容
国际数据管理协会(Data Management Association,简称“DAMA”),由全球的数据管理爱好者们组成,随着众多专家倾注热情与专业的编着,《DAMA数据管理知识体系指南(第2版)》横空出世,这本书明确地定义了数据管理体系建设的完整知识体系,成为数据管理知识体系建设指明灯般的存在。《DAMA-DMBOK2职能框架》主要介绍了数据管理知识体系中11个主要的数据管理职能:
(5)数据安全:保障数据的获取和使用。
(6)数据集成和互操作:数据备份、数据共享、数据在应用内数据整合移动的相关过程。
(7)文档和内容管理:主要管理非结构化数据和数据的整个生命周期。
(8)参考数据和主数据管理:核心共享的业务数据,真实、准确地在各系统内一致使用。
(9)数据仓库和商务智能:通过流程管理支持数据,通过分析报告获取数据价值。
(10)元数据管理:通过规划控制,访问定模型、数据流的高质量元数据信息。
(11)数据质量管理:通过质量管理技术,提高数据的适用性。