㈠ 大数据时代如何做好数据治理
企业数据分析系统的数据来源是各个业务系统或手工数据,这些数据的格式、内容等都有可能不同。如果不进行数据治理,数据的价值难以发挥。只有对数据标准进行规范,管理元数据、数据监控等,才能得到高质量的数据。得到规范的数据后,才可在此基础上进行主题化的数据建模、数据挖掘、数据分析等。
2013年被众多的IT人定义为中国的大数据元年,这一年国内的大数据项目开始在交通、电信、金融部门被广泛推动。各大银行对Hadoop的规划、POC尤其风生水起,带动了一波大数据应用的热潮,这个热潮和当初数据仓库进入中国时的2000年左右很相似:应用还没有想好,先归集一下数据,提供一些查询和报表,以技术建设为主,业务推动为辅。这就导致了这股Hadoop热潮起来的时候,传统企业都是以数据归集为主的,而BAT这样的企业则天生以数据为生,早早进入了数据驱动技术和业务创新的阶段。
随着Hadoop技术的提升,数据如何进来,如何整合,开展什么样的应用都已经有了成熟的案例,可是,同传统数仓时代一样,垃圾进垃圾出,如何破?相比传统数仓时代,进入Hadoop集群的数据更加的多样、更加的复杂、量更足,这个数仓时代都没有处理好的事情,如何能够在大数据时代处理好,这是所有大数据应用者最最期盼的改变,也是大数据平台建设者最有挑战的难题:数据治理难的不是技术,而是流程,是协同,是管理。 睿治数据治理平台平台架构
元数据:采集汇总企业系统数据属性的信息,帮助各行各业用户获得更好的数据洞察力,通过元数据之间的关系和影响挖掘隐藏在资源中的价值。
数据标准:对分散在各系统中的数据提供一套统一的数据命名、数据定义、数据类型、赋值规则等的定义基准,并通过标准评估确保数据在复杂数据环境中维持企业数据模型的一致性、规范性,从源头确保数据的正确性及质量,并可以提升开发和数据管理的一贯性和效率性。
数据质量:有效识别各类数据质量问题,建立数据监管,形成数据质量管理体系,监控并揭示数据质量问题,提供问题明细查询和质量改进建议,全面提升数据的完整性、准确性、及时性,一致性以及合法性,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。
数据集成:可对数据进行清洗、转换、整合、模型管理等处理工作。既可以用于问题数据的修正,也可以用于为数据应用提供可靠的数据模型。
主数据:帮助企业创建并维护内部共享数据的单一视图,从而提高数据质量,统一商业实体定义,简化改进商业流程并提高业务的响应速度。
数据资产:汇集企业所有能够产生价值的数据资源,为用户提供资产视图,快速了解企业资产,发现不良资产,为管理员提供决策依据,提升数据资产的价值。
数据交换:用于实现不同机构不同系统之间进行数据或者文件的传输和共享,提高信息资源的利用率,保证了分布在异构系统之间的信息的互联互通,完成数据的收集、集中、处理、分发、加载、传输,构造统一的数据及文件的传输交换。
生命周期:管理数据生老病死,建立数据自动归档和销毁,全面监控展现数据的生命过程。
数据安全:提供数据加密、脱敏、模糊化处理、账号监控等各种数据安全策略,确保数据在使用过程中有恰当的认证、授权、访问和审计等措施。
建立完整的、科学的、安全的、高质量的数据管控技术体系,是首要的任务。作为数据管控的基石,为了更好支撑后续工作的开展,技术体系必须一步到位,是功能完备、高质量、高扩展性的,而不是仅实现部分功能,或者功能不完善的“半成品”。
叠加更多业务数据、细化数据业务属性与管理属性、优化与调整数据管控流程,尤其是适应未来的现代企业数据管控制度的建立完善,是逐步积累推广、不断磨合改进的长期过程。这些工作应及早启动,并成为后续大数据平台建设工作的重点。
谈大数据时代的数据治理 当前要做的是功能框架的完善,而完善的着力点则是“数据资产目录”:用资产化的视角来管理一个企业的数据,只有把数据作为资产来认识和管理,大数据项目才能达成预期,也能够治理好。大数据时代带来的价值,个人认为主要有两个,一个是技术架构,主要是架构理念的进步,另外一个更重要的则是对数据的重视。大数据时代是数据的时代,IT向DT转型,不单单是BAT,所有的IT公司,未来都在数据这两个字上。
对于一个企业来说,把数据作为资产,才是建设大数据的最终目的,而不是仅仅是因为Hadoop架构带来性价比和未来的扩展性。当一个企业把数据作为资产,他就像管理自己名下存折、信用卡一样,定期梳理,无时无刻不关心资产的变化情况,关注资产的质量。
而资产目录就是管理资产的形式和手段,他像菜单一样对企业的资产进行梳理、分门别类,提供给使用者;使用者通过菜单,点选自己需要的数据,认可菜单对应的后端处理价值,后厨通过适当的加工,推出相应的数据服务;这是一个标准的流程,而这些流程之上,附着一整套数据管理目标和流程。
大数据平台以数据资产目录为核心,将元数据、数据标准、主数据、数据质量、数据生命周期、数据轮廓等信息在逻辑层面关联起来,在管理层面上整合成统一的整体,构建起数据管理体系,全面的支持数据服务等具体应用。
大数据平台实现了数据存储、清洗和应用。在数据汇入和汇出的过程中,需要对数据的元数据进行统一记录和管理,以利于后续的数据应用和数据血缘分析。数据质量一直是数据集成系统的基础工作,对数据的各个环节设置数据质量检查点,对数据质量进行剖析、评估,以保证后续应用的可信度。
在数据收集的过程中,随着数据维度、指标的聚集,如何找到所需的业务指标及属性,并且评估相关属性的业务及技术细节,需要对收集的所有数据进行业务属性,并进行分类,建立完善的数据资产目录。
数据资产目录是整个大数据平台的数据管理基础,而数据资产目录由于数据的多样性,在使用的过程中,必然涉及数据权限的申请、审批管控流程,而管控流程的建立依赖于相应岗位的设立和对应职责的建立。
大数据平台的数据管理架构规划,通过数据物理集中和数据逻辑整合,彻底摆脱企业“数据竖井”的困境。大数据平台数据管理架构分为功能架构、流向规划和数据架构三个层面。
数据管理功能架构:借鉴DAMA数据管理和DMM数据成熟度理论,着眼于数据管理技术和数据管理流程融合,组织数据管理功能。
数据流向规划架构:规划整个大数据平台的数据流向,并在数据流入、数据整合、数据服务的具体环节实现精细化管理。
数据管理的数据架构:以数据资产目录为核心,数据项为最小管理单元,将技术元数据(实体、属性和关系)、业务元数据和管理元数据(数据标准、主数据、数据质量、数据安全)融合为彼此紧密联系、密不可分的整体,共同构成精细化管理的数据基础。
数据管理在整个大数据平台不仅仅是一个主要功能模块,它还是整个企业层面数据治理的重要组成部分,它是技术和管理流程的融合,也需要合理管控流程框架下组织机构之前的协调合作。如何利用统一的数据管理模块对企业所有进入到数据湖的数据进行有效管控,不单单取决于数据管理模块本身,也取决于元数据的合理采集、维护,组织结构及制度的强力支持保证。
谈大数据时代的数据治理 大数据平台数据管理参照了DAMA对于数据管理的九个管理目标,并进行裁剪,并对部分管理目标进行了合并,并参照了CMMI制定DMM数据成熟度目标,采用循序渐进,逐步完善的策略对管理目标进行分阶段完成,制定完整的管控流程和数据治理规范,以便持续的对数据进行管理,递进实现DMM定义的成熟度目标。
亿信睿治数据治理管理平台和DAMA的对应关系如下:
谈大数据时代的数据治理 大数据平台数据管理的核心内容是数据资产目录,围绕数据资产目录的数据流入、数据整合、数据服务都是数据管理的核心。数据管理主要管理数据的流动,以及管理流动带来的数据变化,并对数据底层的数据结构、数据定义、业务逻辑进行采集和管理,以利于当前和未来的数据使用。为了更好的对数据进行管理和使用,制度层面的建设、流程的设立必不可少,同时也兼顾到数据在流动过程中产生的安全风险和数据隐私风险。
因此数据管理介入到完整的数据流转,并在每个节点都有相应的管理目标对应,整个数据流框架如下图所示:
谈大数据时代的数据治理 企业在建制大数据平台的同时,对进入数据湖的数据进行梳理,并按照数据资产目录的形式对外发布。在发布数据资产之后,则对进出数据湖的数据进行严格的出入库管理,保证数据可信度,并定期进行数据质量剖析检查,确保数据资产完善、安全、可信,避免“不治理便破产”的谶言。
㈡ 安徽省政务数据资源管理办法
第一章总 则第一条为了规范政务数据资源管理,推进政务信息系统互联互通和政务数据归集、共享、应用,建设数字政府,提升政府治理能力和公共服务水平,根据有关法律、法规,结合本省实际,制定本办法。第二条本办法适用于本省行政区域内政务数据资源的采集、归集、存储、提供、共享、应用及其管理活动。
本办法所称政务数据,是指政府部门及法律、法规授权具有行政职能的组织(以下称政务部门)在履行职责过程中制作或者获取的,以电子或者非电子形式记录、保存的文字、数字、图表、图像、音频、视频等,包括政务部门直接或者通过第三方依法采集的、依法授权管理的和因履行职责需要依托政务信息系统形成的数据等。第三条政务数据资源管理,应当遵循统一标准、统筹建设、共享开放、依法管理、保障安全的原则。第四条县级以上人民政府应当加强对政务数据资源管理工作的组织领导,建立统筹协调工作机制,将政务数据资源开发建设纳入本行政区域国民经济和社会发展规划。加强经费保障,将政务数据资源整合共享相关项目建设资金纳入政府固定资产投资,政务数据资源整合共享相关工作经费纳入部门预算统筹安排。按照长江三角洲区域一体化发展战略的要求,推动平台融合贯通、数据资源共享、业务协同办理,深化政务数据资源管理工作的合作交流。第五条县级以上人民政府数据资源主管部门负责统筹协调、指导督促本行政区域内政务数据资源管理工作。
政务部门是政务数据的提供部门和使用部门,负责本部门本系统政务数据资源的目录编制、采集、归集、存储、提供、共享、应用和开放及其相关管理工作。第六条政务数据资源管理,应当维护国家安全、公共安全,保守国家秘密,保护商业秘密、个人信息和隐私,对在履行职责中知悉的商业秘密、个人信息和隐私严格保密,不得泄露、出售或者非法向他人提供。第二章开发建设第七条本省建设江淮大数据中心平台,共建共用数据基础设施,推进各类政务数据互联互通、归集汇聚、共享开放、开发应用。除国家另有规定外,政务部门不得新建数据中心。
政务部门应当依托江淮大数据中心平台,推动各类政务数据统一目录编制、归集、存储、提供、共享、应用和开放。第八条江淮大数据中心平台分为总平台、分平台和子平台,组成江淮大数据中心框架体系。
省人民政府数据资源主管部门负责江淮大数据中心总平台以及省级政务云平台、电子政务外网、灾难备份中心等的建设和运行管理。
省政务部门负责江淮大数据中心分平台的建设和运行管理。
设区的市人民政府数据资源主管部门负责统筹本辖区江淮大数据中心子平台、政务云平台、电子政务外网等的建设和运行管理。
本办法施行前已经建成的数据中心等,应当与江淮大数据中心平台和本级政务云平台互联互通。第九条政务部门非涉密政务信息系统应当依托江淮大数据中心平台及政务云平台进行建设和部署,实现互联互通、数据共享、业务协同。除法律、法规、规章另有规定外,不能实现互联互通、数据共享、业务协同的非涉密政务信息系统,不得审批建设,不得安排运维经费。第十条政府投资的政务数据资源、政务信息化项目,在项目审批前应当报本级人民政府数据资源主管部门初审。市、县人民政府对项目审批程序另有规定的,从其规定。
政务信息化项目立项申请前,应当预编形成项目数据资源目录,作为项目审批要件。第十一条政府投资的政务数据资源、政务信息化项目竣工后由建设单位或者本级人民政府指定的部门组织验收,并将验收报告报本级人民政府数据资源主管部门备案。验收报告应当包括建设目标和任务、系统功能、数据共享开放、安全等级保护、标准化建设等完成情况。
政府投资的政务数据资源、政务信息化项目应当将项目数据资源目录纳入共享平台目录管理系统,作为项目验收要求。第十二条政务数据资源、政务信息化项目的建设和管理,可以采用政府购买服务的方式,适应快速迭代的应用开发需要。第三章数据归集第十三条本省政务数据资源按照国家有关规定由省数据资源主管部门实行统一的目录管理。
目录管理应当明确政务数据的分类、责任主体、格式、属性、更新时限、共享类型、共享方式、使用要求等内容。
省人民政府数据资源主管部门负责提出政务数据资源目录编制要求,组织协调省政务部门和设区的市开展目录编制,审核、汇总后形成省统一的政务数据资源目录。
㈢ 产品运营如何做好数据挖掘与分析
对于产品和运营避免不了要和数据打交道,在打交道的同时如何让数据为产品和运营服务呢?从数据的变化中发现产品的问题,让数据说话,准确的汇报产品和运营的各维度指标的。那就需要通过一些维度来定义产品、运营数据。对于产品和数据分析一般思路可以归集为:了解产品现状的数据、了解发展趋势的数据呈现、发现问题的数据记录、认清用户对产品的使用情况的数据、营销和推广数据。数据分析的维度科划分为:产品现状、了解趋势、发现问题、认清用户、营销与推广。
对于着几个大维度,又回需要不同小维度的划分。产品现状维度会记录数据的来源、PV、UV、人数、次数、收入、用户属性、活跃度。通过这些数据来考量产品的现状。了解趋势的数据,环比、同比、流动模型、增长率、留存率、流失率。发现问题的收集:漏洞模型、问卷调查。认清用户偏好的数据:功能模块使用(数据埋点)、以及热度分析。运营推广的数据:精准化投放、用户生命周期的管理、拉新、留存等。
㈣ 中国国家统计局网站中的统计年鉴里的数据是如何采集的
国家统计独立调查的数据主要来自国家统计局的三个直属调查队:农村社会经济调查队、城市社会经济调查队和企业调查队。通过抽样调查的方法,他们得出全国的粮食产量、棉花产量、主要畜禽产品产量;年产品销售收入500万元以下(规模以下)的非国有工业企业、小型商业企业、个体工商户的产值和增加值;农村固定资产投资、城乡居民住户收入和支出、商品和服务的价格
传统的统计方法以全面报表为主,基层单位向地方政府统计部门报送报表,然后层层汇总到国家统计局。一般来说,这种调查方法由于涉及的单位多,需要的人员多,因而难以保证基层统计资料的准确性。抽样调查涉及的单位少,需要的人手相对也少,因此有可能对统计人员进行较全面的业务培训,从而能够提高基层统计资料的质量。