Ⅰ 大数据的生命周期的九个阶段
大数据的生命周期的九个阶段
企业建立大数据的生命周期应该包括这些部分:大数据组织、评估现状、制定大数据战略、数据定义、数据收集、数据分析、数据治理、持续改进。
一、大数据的组织
没有人,一切都是妄谈。大数据生命周期的第一步应该是建立一个专门预算和独立KPI的“大数据规划、建设和运营组织”。包括高层的首席数据官,作为sponsor,然后是公司数据管理委员会或大数据执行筹划指导委员会,再往下就是大数据的项目组或大数据项目组的前身:大数据项目预研究团队或大数据项目筹备组。这个团队是今后大数据战略的制定和实施者的中坚力量。由于人数众多,建议引入RACI模型来明确所有人的角色和职责。
二、大数据的现状评估和差距分析
定战略之前,先要做现状评估,评估前的调研包括三个方面:一是对外调研:了解业界大数据有哪些最新的发展,行业顶尖企业的大数据应用水平如何?行业的平均尤其是主要竞争对手的大数据应用水准如何?二是对内客户调研。管理层、业务部门、IT部门自身、我们的最终用户,对我们的大数据业务有何期望?三是自身状况摸底,了解自己的技术、人员储备情况。最后对标,作差距分析,找出gap。
找出gap后,要给出成熟度现状评估。一般而言,一个公司的大数据应用成熟度可以划分为四个阶段:初始期(仅有概念,没有实践);探索期(已经了解基本概念,也有专人进行了探索和探讨,有了基本的大数据技术储备);发展期(已经拥有或正在建设明确的战略、团队、工具、流程,交付了初步的成果);成熟期(有了稳定且不断成熟的战略、团队、工具、流程,不断交付高质量成果)。
三、大数据的战略
有了大数据组织、知道了本公司大数据现状、差距和需求,我们就可以制定大数据的战略目标了。大数据战略的制定是整个大数据生命周期的灵魂和核心,它将成为整个组织大数据发展的指引。
大数据战略的内容,没有统一的模板,但有一些基本的要求:
1. 要简洁,又要能涵盖公司内外干系人的需求。
2. 要明确,以便清晰地告诉所有人我们的目标和愿景是什么。
3. 要现实,这个目标经过努力是能达成的。
四、大数据的定义
我认为:“数据不去定义它,你就无法采集它;无法采集它,你就无法分析它;无法分析它,你就无法衡量它;无法衡量它,你就无法控制它;无法控制它,你就无法管理它;无法管理它,你就无法利用它”。所以“在需求和战略明确之后,数据定义就是一切数据管理的前提”。
五、 数据采集
1. 大数据时代的数据源很广泛,它们可能来自于三个主要方面:现有公司内部网各应用系统产生的数据(比如办公、经营生产数据),也有来自公司外互联网的数据(比如社交网络数据)和物联网等。
2.大数据种类很多,总的来讲可以分为:传统的结构化数据,大量的非结构化数据(比如音视频等)。
3. 数据采集、挖掘工具很多。可以基于或集成hadoop的ETL平台、以交互式探索及数据挖掘为代表的数据价值发掘类工具渐成趋势。
4. 数据采集的原则:在数据源广泛、数据量巨大、采集挖掘工具众多的背景下,大数据决策者必须清楚地确定数据采集的原则:“能够采集到的数据,并不意味着值得或需要去采集它。需要采集的数据和能够采集到的数据的"交集",才是我们确定要去采集的数据。”
六、数据处理和分析
业界有很多工具能帮助企业构建一个集成的“数据处理和分析平台”。对企业大数据管理者、规划者来讲,关键是“工具要满足平台要求,平台要满足业务需求,而不是业务要去适应平台要求,平台要去适应厂商的工具要求”。那么这个集成的平台应该有怎样的能力构成呢?它应该能检索、分类、关联、推送和方便地实施元数据管理等。见下图:
七、 数据呈现
大数据管理的价值,最终要通过多种形式的数据呈现,来帮助管理层和业务部门进行商业决策。大数据的决策者需要将大数据的系统与BI(商业智能)系统和KM(知识管理)系统集成。下图就是大数据的各种呈现形式。
八、 审计、治理与控制
1.大数据的审计、治理和控制指的是大数据管理层,组建专门的治理控制团队,制定一系列策略、流程、制度和考核指标体系,来监督、检查、协调多个相关职能部门的目标,从而优化、保护和利用大数据,保障其作为一项企业战略资产真正发挥价值。
2.大数据的治理是IT治理的组成部分,大数据的审计是IT审计的组成部分,这个体系要统筹规划和实施,而不是割裂的规划和实施。
3.大数据的审计、治理与控制的核心是数据安全、数据质量和数据效率。
九、 持续改进
基于不断变化的业务需求和审计与治理中发现的大数据整个生命周期中暴露的问题,引入PDCA等方法论,去不断优化策略、方法、流程、工具,不断提升相关人员的技能,从而确保大数据战略的持续成功!
Ⅱ 数据全生命周期管理包括哪些阶段
数据全生命周期管理包括数据采集、数据存储、数据处理、数据传输、数据交换、数据销毁这六个阶段。
数据采集:指新的数据产生或现有数据内容发生显着改变或更新的阶段。对于组织机构而言,数据的采集既包含在组织机构内部系统中生成的数据也包含组织机构从外部采集的数据。
数据存储:指非动态数据以任何数字格式进行物理存储的阶段。
数据处理:指组织机构在内部针对动态数据进行的一系列活动的组合。
数据传输:指数据在组织机构内部从一个实体通过网络流动到另一个实体的过程。
数据交换:指数据经由组织机构内部与外部组织机构及个人交互过程中提供数据的阶段。
数据销毁:指通过对数据及数据的存储介质通过相应的操作手段,使数据彻底丢失且无法通过任何手段恢复的过程。
特定的数据所经历的生命周期由实际的业务场景所决定,并非所有的数据都会完整的经历六个阶段。
呈现与使用方面:
在这个数据爆炸的时代,人类数据分析的能力已经远远落后于获取数据的能力。这个挑战不仅在于数据量大、高维、多元源、多态等,更重要的是数据获取的动态性、数据内容的噪声和相互矛盾,数据关系异构与异质性等。
还有,通过纯粹数字和数字术语这样数据思考并非人类的本能,想要在有需要时迅速、准确的判断和决策实属不易。面对这些挑战可借助于数据可视化完成DIWK(数据、信息、知识和智慧)模型定义数据到智慧的转换。