‘壹’ 如何有效的进行数据治理和数据管控
从技术实施角度看,主要包含“理”“采”“存”“管”“用”这五个,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。
数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。
数据采集清洗:通过可视化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。
基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。
元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。
血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。
质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapRece,HBase 等。
商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。
数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。
‘贰’ 对数据资产进行体全面盘点、构建企业级的数据资产目录
随着云计算、物联网、移动互联网等新技术的逐渐成熟和集中应用,社会发展进入了数字化时代,人、事、物都在被数据化,数据已成为新经济的核心生产要素,日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。
越来越多的企业也将数据视为转型发展、重塑竞争优势和提升组织治理能力的重要战略资产,并对这一重要资产进行系统性、体系化的管理,以便充分挖掘数据的战略、战术价值。鉴于此,对数据资产进行体全面盘点、构建企业级的数据资产目录成为了数据资产管理的一项基础性工作,正在 各行各业如火如荼的开展。
而很多企业在构建数据资产目录的过程中,遇到了很多困惑和难题,仿佛走入了数据沼泽中、身心俱疲,例如:
● 要对哪些数据资产进行盘点、放到数据资产目录中?
● 谁来盘点最合适?谁是数据资产目录的使用者?
● 数据资产目录构建后,谁来管理?怎么管理?
● 花了大量的人力、物力、财力,难到只弄了一堆EXCEL清单出来?
● 好不容易梳理出来的目录,最后处于沉睡状态,没人关心、也没人用!
● 业务人员看不懂对数据资产的解释!
● ……
数据资产的基本涵义
在理论层面,目前并没有对数据资产的权威定义。我们选取业界较为认可的概念,即:数据资产( Data Asset )是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。
从以上概念中,可以得出数据资产最重要的三个性质:
(1) 可控的 ,企业除了拥有自己内部的数据外,对一些外部的数据可以通过可靠、合法的途径获取,也可作为企业数据资产的一部分;
(2) 有价值的 ,数据资产能够给企业带来效益和价值,但笔者认为此处的效益不应局限在经济价值,还会有社会价值、信誉和品牌价值等等;
(3) 需要甄别的 ,并非所有的数据都能成为数据资产,所以企业要根据自身业务特点,在海量的数据中识别划分出属于自己的核心数据资产。
数据资产目录的价值
目前,数据资产目录管理已经变成了数据治理工作中不可或缺的一个环节。企业在识别出自身数据资产的基础上,进一步构建数据资产目录,能够帮助用户更好的理解、使用以及分析数据。
企业通过发现、描述和组织数据资产,形成一套企业数据资产的清单目录,提供一套上下文背景信息,为数据分析师、数据架构师、数据管理专员和其他数据用户,根据业务价值目标更好的查找和理解相关的数据资产。
如何实践数据资产管理
数据作为越来越重要的生产要素,将成为比土地、石油、煤矿等更为核心的生产资源,如何加工利用数据,释放数据价值,实现企业的数字化转型,是各行业和企业面临的重要课题,然而数据的价值发挥面临重重困难。企业的数据资源散落在多个业务系统中,企业主和业务人员无法及时感知到数据的分布与更新情况,也无法进一步开展对数据加工工作。数据标准不统一,数据孤岛普遍存在导致业务系统之间的数据无法共享,资源利用率降低,降低了数据的可得性。标准缺失、数据录入不规范导致数据质量差,垃圾数据增多,数据不可用。数据安全意识不够、安全防护不足导致了数据泄露事件频发,危害了企业经营和用户利益。为了解决解决数据面临的诸多问题,充分释放数据价值。
我给大家推荐一款非常好用的数据资产管理工具——睿治。睿治平台是目前国内功能最全的数据治理产品,完全覆盖了元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、生命周期、数据安全9大领域。并且采用微服务架构,既可以和企业已建系统高度融合,也可以随着未来信息化发展,而无限延展。也实现了全角色的可视化,包括领导、技术管理、业务管理、都能通过平台清晰的了解数据治理的过程和结果,从而保证数据治理的落地,产生积极的推动作用。
‘叁’ 企业如何有效的进行数据资产管理中软国际解决方案如何
中软国际数据资产管理解决方案是中软国际推出的一款服务于企业文件存储、管理、分享、协作的综合解决方案。提升客户在对外业务、对内办公场景下数据资产管理的效率,并确保数据资产在存储、分享过程中的安全性。助力企业数字化转型郑铅,实现“让数据资产更安全”、“圆陪让数据分享更橘丛蠢方便”、“让知识管理更系统”,这些网络都能找到。
‘肆’ 所谓的数据资产管理到底应该怎么做
根据目前的实践情况来讲,数据资产管理的方衡咐法应包者肢括以下三步:第一步,做好数据治理,以数据架构驱动企业架构治理成熟度;第二步,构建企业级数据共享中心,实现数据采集、共享和应用的松耦合,通过数据共享层实现快速数首拦世据建模、分析、共享和应用及可视化管理;第三步,通过跨界合作打通数据,实现数据资产战略驱动主营业务增长。
‘伍’ 企业如何进行全生命周期的数据资产管理
推荐使用滴普科技的DataSense数据分析平台,它可以帮助企业构建指标治理解决方案,提供指标体系搭建、规范标准化、低代码指标开发的全生命周期管理工灶埋具,帮助企业实罩辩如现数据资产的敏捷治理和运营物启。
‘陆’ 数据资产的管理方法
在最近几年的业务发展中,数据都是各大公司建设的“宠儿”,几乎所有的业务都围绕数据展开,其重要性堪比信息化时代的“石油”。因此,大多数的公司都会建设自己的数据资产平台,一方面是为了做一些诸如统一数据口径一类的基础工作,另一方面也是为了深入挖掘数据的价值,为企业带来高额的利润回报。
回看过去的发展历史,围绕着数据的采集、建设、管理和应用,已经基本形成了体系化的建设方法。运营在做定价的时候,需要数据的支持;财务在评估预算的时候,需要数据的支持;法务在判定风险时,同样需要数据的支持…… 同时,随着企业发展的进行,数据口径的统一需要对数据进行治理;成本的管理需要对数据进行治理;支持业务的增多需要对数据进行治理…… 凡此种种,当我们缺少了数据资产门户的时候,很多的治理和查询工作,便很容易产生乱子。
某些意义上,数据资产的整理,是一种“脏活累活”,需要持续的维护和迭代,但做好之后,其发挥的价值,也是非常大的,只不过这种价值需要依附于别的项目才能体现出来。
因此,本文简单介绍一种整理数据资产的方法,供大家交流,篇幅不长,介绍思路更多一些。
其实数据的整理,用“运营”的思路来讲,更像是“品类规划”。只有把类目和索引做到了,全局层面便有了可视化的基础,后续资产的整理和归类,也会有科学的指引。
像比较大一点的互联网公司,业务通常不是单一的,因此如何仿照类目的思路,将一、二、三级索引做好,就是一个关键点和难点。
从消费者的视角,可以根据行为偏好、互动行为、个人属性、社交关系等方面构建类目,行为偏好又可以分为购买行为、点击行为、浏览行为,等等;从业务的视角,可以根据电商、金融、社交、媒体等业务属性构建类目,电商又可以分为B2C、C2C、B2B2C等不同的业务模式;从部门的视角,又可以根据XX事业部这种方式来建设,然后一级一级细分到具体负责的团队。总之,根据某一种分类的原则,将一二三级类目做完整,通常情况下可以很快的定位到需要的数据。
当然,只有类目也是不行的,这时候支持一个基本的搜索功能,将业务名、表名、字段名、属性名等做成模糊匹配的方法,供用户搜索和查询,便可以支持绝大多数的自行查询场景。
当然,因为表或者字段的展示格式都是固定的,因此搜索的结果可以做到非常的美观,配合手工打上的标签,90%以上的场景都可以支持用户自定义查询。
总结一下,资产的导航,适合以“类目”的方式进行组织,以搜索的方式配合使用,展示的接口以树形最佳,配合标签等个性化的内容,可以最大程度上满足查询诉求。
当用户查询到需要使用的数据时,下一步便是如何获取和使用数据。在通常的技术场景下,研发的同学只需要申请对应的表权限既可以获得。
但现在是有三种情况,我们需要分别看获取的方式:
一种是这种数据不适合直接开放底表,因为权限隔离的缘故,不能把所有权限开放出去,这时候就需要有资产分离的功能,也就是根据适用范围申请数据;
一种是非技术的同学申请,通常直接给一个表也是不知道怎么用的,可能给一个数据看板,或者是申请一个数据集,更合适一些,非研发的同学,可以使用报表工具自行配置。当然这种场景可以支持的数据查询能力会比较有限,需要尽可能的将报表的门户建设做好之后,再开放出去;
一种是有明确数据安全场景的诉求,比如最近刚出台的“个保法”,对于用户隐私的数据监管非常严格,这时候就需要配套有对应的法务审批或者是其他的数据安全接口人审批,这里的流程也是要单独设置的。
但不论哪种方式,都少不了完善的数据使用流程,这其实是属于“流程管理”的范畴,系统通常会默认指定审批人,但如果有特殊的需要,比如“个保法”,通常也需要能够自行设定审批流程。
总结一下,数据的获取,根据场景和使用人的不同,提供数据表、字段或者是报表等多种方式,同时要配合有相应的权限审批和资产分离的功能。
数据的治理也是一项比较重要但繁琐的工作。因为数据资产的录入,通常是人来维护的,那么相同的指标,录入多次的时候,用户以哪次为准呢?这就是最典型维护难题,因此,在录入或者自动更新数据的时候,提供一些提示性的功能,或者通过“精品”、“临时”等标签予以区分,也是一种可行的思路。
因而,通常情况下,技术提供的公共资产,一般以公共层的数据为准,只有明确使用场景的情况下,ADS才会被提供出来。
接下来,就是针对庞大的数据资产,构建自动化的诊断和分析功能了,关于如何用数据来治理资产,参考个人之前的文章《数据资产治理概要:用数据来治理数据》。标准化的治理之前,通常需要有全局的数据资产视图,才能制定出明确的目标、范围和结果。
最后,数据资产的使用,通常也是需要有稳定性的治理,比如每个表或者某一份数据,更新的频率、每次更新的时间等,都需要有说明提供给使用者,而开发来维护显然是不现实的,因此通过监控Hadoop集群的运行结果来自动更新,就是一种不错的方法。同时,一些执行明显偏慢但又使用者非常多的数据,也可以有相应的预警邮件提供给使用者。
数据资产的管理,底层也是基于数仓建模、数据平台、元数据标准、质量监控等基础的机制,配合组织的审批、管理等标准,最终才能服务于顶层战略。