导航:首页 > 数据处理 > 数据管理如何关联问题

数据管理如何关联问题

发布时间:2023-01-11 14:22:26

‘壹’ 如何在综合数据库中反映统计指标间的内在关系

统计指标间的内在关系非常复杂,是人们进行经济分析的基础,也是数据关联使用的依据。为了使数据库使用起来更加方便,并开发出一些智能化的分析功能,数据库的设计应尽可能地把这些关系反映出来。 一、统计指标间的常见关系 为了把统计指标间的内在关系在数据库中反映出来,首先应把这些关系搞清楚。在2005年设计《智能型中国经济数据库》时,我们对这些关系进行了一次系统的归纳,结果如下: 1.指标间的运算关系。即一个指标可通过其他指标计算出来,如出口增长率可由出口总额计算、名义收入除价格指数可得实际收入等。 2.分组汇总关系。即分组指标和汇总指标之间的关系。虽然分组汇总关系也是指标间的运算关系,但这种运算关系非常规范,并在分析中应用广泛,因此有单独出来的必要。 3.月度数、季度数和年度数间的转换关系。月度数、季度数和年度数是三种常见的数据类型,相互之间可以转换,由月度数可以生成季度数和年度数,由季度数可生成年度数。如财政收入,只要有各月的收入总额,就可以算出各季和全年的收入总额。 4.关联关系和集聚关系。关联关系是指在分析某一指标时经常需要了解一下其他指标的情况,并且这些“其他指标”是相对固定的,每一次都差不多。集聚关系是指统计指标的使用不是孤立的,经常是一些指标一起使用,这些一起使用的指标形成了一个一个的指标集合。如全国的指标主要是与全国指标一起使用,地区的指标主要与本地区的指标一起使用。 二、指标类型与数据间的运算关系 出口总额通常有当月绝对额、累计绝对额、当月增长率和累计增长率四项数据,这四项数据经常一起使用,并且相互之间可以换算,但在以往的数据库中,这四项数据一般作为四个独立的指标,因而难以反映数据之间的关系,使用起来更是极为不便。为了解决这一难题,就必须改变数据管理的模式,由一个指标对应一项数据调整为对应多项数据,从而把有紧密关系的数据进行集中管理,如出口总额对应着四项数据。一个指标对应多项数据,自然就需要明确各项数据的含义和数据项之间的关系。若每个指标都需要单独地作这种定义,那么一个指标对应多项数据的意义就不大。指标类型就是为简化这一定义过程而提出的。指标类型相同的指标,数据项之间的运算关系完全相同,因此只要指定某一指标所属的指标类型,就完成了所有运算关系的定义,定义过程就高度简化了。 1.常见的指标类型。指标类型是为了规范数据项间的运算关系而提出的,但指标类型的设定并不仅仅考虑这一因素,而是融入了更多的内容。设定指标类型应考虑的因素是:(1)数据中的信息含量;(2)数据项之间的内在关系;(3)分组汇总的性质;(4)数据的数量特征。这四个方面都相同的指标可看做是同一类型,当某一方面或几个方面不同时,则应看做是不同类型。 通过对大量统计指标的观察和分析,我们归纳出很多种指标类型,常见的类型是:绝对额类、准绝对额类、平均额类、准平均额类、时点类(余额类)、准时点类(准余额类)、时期平均类、价格指数类、定基价格指数类、比率类、差额类、差额增长率类、单指数类等。针对每一种类型,均需进行深入细致的研究,主要内容有:(1)类型的概念和主要特征;(2)原始数据的各种情况和数据标准化公式;(3)数据项之间的关系和可派生的数据项;(4)数据汇总函数和指标间的运算函数;⑸月度数、季度数和年度数的转换关系;⑹各数据项在分析中的作用;⑺标准文本的生成方法。 2.原始数据的多种情况。当月进口总额和累计进口总额是两个不同的指标,但相互之间可以转换,即从当月进口总额可以计算出累计进口总额,或反之。因此,从使用角度看,这两个指标是完全一样的。由于指标类型包含这种转换关系,因此,为解决这一问题提供了可能。当月进口总额和累计进口总额均为绝对额类指标,是原始数据的两种不同情况。绝对额类指标的原始数据情况还有很多,并且均可通过运算生成相同的数据项,可生成数据项有当月绝对额、累计绝对额、当季绝对额、当月增长率、累计增长率、当季增长率、当月同比增加额、累计同比增加额和当季同比增加额等。 3.逻辑检查。在原始数据中,有时包含一些重复信息,如绝对额类指标的有一种情况是当月绝对额和当月增长率,当月增长率是重复信息,可用于检测原始数据是否正确。当从绝对额计算出来的增长率与原始数据中的增长率不一致时,就说明原始数据有问题。 4.弥补缺损值。月度进口总额为绝对额类指标,假如有当月绝对额、累计绝对额、当月增长率和累计增长率四个原始数据项,第一种情况是缺某一个月的当月绝对额,依据当月绝对额等于累计绝对额减去上月累计绝对额可以把缺损值补上;第二种情况是累计绝对额也缺损,这时可根据上年绝对额和当年增长率进行推算;第三情况是当年增长率也缺损,这时可根据下年绝对额和增长率进行推算。 5.月度数、季度数和年度数的转换。月度数包含了季度数和年度数的信息,季度数包含了年度数的信息,因此月度数可以转化为季度数和年度数据,季度数可以转化年度数,但不能反过来。以绝对额类指标为例,月度数的标准数据项是当月绝对额、累计绝对额、当月增长率和累计增长率。并可以生成当季绝对额和当季增长率,转换为季度数的方法是:选定数据项当季绝对额、累计绝对额、当季增长率和累计增长率,然后指定输出月份为3、6、9和12;月度数和季度数转换成年度数的方法是:选取累计绝对额和累计增长率,并指定输出月份为12。 三、分组汇总关系 1.反映分组汇总关系的指标代码编码规则。为了叙述指标代码编码规则,必须先引入基本指标的概念。基本指标是相对于分组指标而言的。以工业增加值来说,本身有多种分组指标,如按行业分、按经济类型分、按地区分、按轻重工业分,每一种分组都有多个指标;然而其本身又可以看做是国内生产总值按行业分的分组指标。如果一个指标不是其他任何指标的分组指标,那么就是基本指标。 基本指标的编码基本上没有限制,不要使用符号“_”和“!”即可,因为这两个符号是分组码和附加码的联接符。为了指标编码管理的方便,基本指标编码按指标类别编制较好,每个类别用一个英文字母开头,然后是顺序号。 分组指标的编码由基本指标代码加分组码构成,两者之间用符号“_”联接。分组码由两部分构成,前两位是分组方式代码,后面的是分组项代码。当一个指标包括多种分组方式时,分组码之间用符号“_”联接,并按ASCII码的大小顺序排列,以确保编码的唯一性。如山西省城镇居民食品支出的代码为H001_0214_081,其中的H001为基本指标代码,表示城镇居民消费支出,0214表示按地区分组的山西省,081表示按消费支出用途分组的食品支出。 对于多级分组,分组项的级别差异可用分组项代码长度来区分,规则是:同级分组项的代码长度必须相同,下级分组项的代码是在上级分组项代码的后面加上本级编码,代码长度自然就比上级分组项长。 当指标代码按上述规则编制时,将可以方便地找出任一指标的分组指标、同级指标、下级指标、上级指标、同分组指标。这些关系对于数据查询、对比分析等功能的设计非常有用。 2.结构分析。当某一指标有分组指标时,就可以对该指标的构成情况和构成变动情况进行分析。以工业销售收入的分地区数据为例,可分析内容有:销售收入规模较大的地区有哪些、哪些地区发展速度快、哪些地区发展缓慢、哪些地区对增长的贡献最大、哪些地区对增长速度变化的影响最大、发展速度的均衡性如何、发展水平的均衡性如何、增长格局是否发生了变化等。 四、集聚关系 1.指标类别。指标类别是在对统计指标分类的基础上形成的。在中国统计年鉴中,统计指标分为自然资源、人口、就业、投资、能源、财政、价格、人民生活、农业、工业、建筑业、国内贸易、对外经济和金融等类别。但统计年鉴中的指标分类难以满足某些统计分析的需要,以研究制造业问题来说,需要把制造业的生产、价格、投资、进出口等数据集中起来使用,但这些数据分散在统计年鉴的多个部分,因此使用起来不太方便。在数据库中,统计指标可按多种不同方式进行分类,只要用户有需要的类别都可以添加到数据库中,可以解决统计年鉴存在的问题,使得各种集聚关系都能得到反映。 2.条件对象。某一行业的数据主要是与本行业的数据一起使用,即同分组的数据一起使用,这是一种很重要的集聚关系。这种集聚关系可用条件对象的方法来反映,即把带有某一种分组项的指标全部筛选出来,组成一个分析对象。例如,采矿业的统计指标均带有采矿业的行业编码,只要把查询条件设为采矿业,就可以把这些指标都找出来。 五、反映指标间关系的其他途径 1.派生指标。派生指标就是通过指标间的运算生成的指标,如进出口总额除以GDP生成贸易依存度,用于反映指标间的运算关系。指标间运算必须以指标类型为基础,同样是除法运算,但计算公式却多种多样。两个指标相除,可以生成比率类指标,也可以生成绝对额指标,但两者计算过程完全不同。现价居民可支配收入除以相应的价格指数可以生成不变价居民可支配收入,但价格指数有可能是当月指数、累计指数、当月涨幅、累计涨幅,可支配收入同样也有多种情况,只有借助指标类型的概念,才能使除法运算公式与这些具体情况相独立。 2.相近指标。含义相近但又略有不同的指标很多,如按人民币计价的进出口和按美元计价的进出口、由两个不同部门统计的同一指标、调整前后的GDP等等。相近指标可在指标代码中予以反映,方法是在指标代码的最后面添加附加码,附加码与其他编码之间用“!”分开。这样,相近指标就是附加码不同的指标。 3.关联指标。每个统计指标的关联指标都是不一样的,因此只能一个指标、一个指标地定义。这种定义可以在数据库指标体系设计阶段进行,也可以根据使用情况自动生成,即把经常一起使用的指标设为关联指标。

‘贰’ 如何有效的进行数据治理和数据管控

大数据时代的到来,让政府、企业看到了数据资产的价值,并快速开始 探索 应用场景和商业模式、建设技术平台。但是,如果在大数据拼图中遗忘了数据治理,那么做再多的业务和技术投入也是徒劳的,因为很经典的一句话:Garbage in Garbage out。

当你处理或使用过大量数据,那么对“数据治理”这个词你一定不会陌生。你会思考数据治理是什么?数据治理是否适合你?如何实施。简单来说,数据治理就是处理数据的策略——如何收集、验证、存储、访问、保护和使用数据。数据治理也还包括谁来查看,使用,共享你的数据。

随着大数据时代的推进,以上这些问题日益突出,越来越多的企业依赖采集、治理、储存和分析数据,并实现他们的商业目标。数据变成了企业的盈利工具、业务媒介和商业机密。数据泄露会导致法律纠纷,还会令消费者对公司的核心业务失去信心。

如果抱着侥幸的心理,让各个业务部门自己管理数据,那么你会缺乏有效的数据管理,甚至各部门会自己做自己的。你无法想象各个部门按随心所欲地自己生产、储存、销售产品。数据使用不当就像库存使用不当一样,会给企业造成沉重的损失。因此必须制定一项测量用以保证所需数据的有效和安全,可用性,这就是我们要谈的“数据治理”。

数据治理策略必须包含完整的数据生命周期。策略必须包含从数据采集、清洗到管理,在这个生命周期内,数据治理必须要有关注以下内容:

数据从哪里来,数据怎么来

这是数据生命周期的起点。数据来源决定了数据治理策略的基础。例如数据集的大小就由数据来源所决定。是从目标市场、现存用户和社交媒体收集数据?还是使用第三方收集数据或者分析你收集的数据?输入数据流是什么?数据治理必须关注这些问题,并制定策略来管理数据的采集,引导第三方处理他们收集的数据或者分析你收集的数据,控制数据的路径和生命周期。

数据校验

通常数据源都是非常庞大且多样的,这是一个让数据管理者非常头疼的问题。将数据噪音和重要数据进行区分仅仅只是开始,如果你正从关联公司收集数据,你必须确保数据是可靠的,对于那些几万、几十万、甚至成百上千万的复杂关系数据,单靠人为的通过Excel对进行数据清洗已经不太现实,需要专业的数据清洗工具或系统对海量复杂关系数据进行批量查询、替换、纠正、丰富以及存储。将元数据、主数据、交易数据、参考数据以及数据标准内置固化到数据清洗工具或系统中,结合组织架构、内容管控、过程管控等管理机制、技术标准提高数据治理人员的工作效率。比如:需要手工编写程序收集的元数据,系统帮你自动获取;需要人工识别或编写代码实现的数据质量检查,系统帮你自动识别问题;用文档管理的数据字典,系统帮你在线管理;基于邮件和线下的流程,系统帮你线上自动化。当然,系统并不是万能的,数据治理的软件工具与其他软件工具一样,没有什么神奇之处,没有数据治理人员的参与和数据治理工作的推进,软件再完美也无法完成数据治理整个过程。这也是为什么数据治理咨询服务一直有其市场,以及为什么国内大部分单纯数据治理软件项目未能达到预期目标。

数据治理必须解决存储问题

而数据存储和数据集的大小有密切关系。大数据的存储必须是在安全的冗余系统之中。常常利用层次体系,根据使用频率来存储数据。这样一来,昂贵的在线系统提供的是被频繁请求的数据,而请求频率较低的数据则存储在便宜,可用率较低的系统上。当然,一些请求频率低但是敏感的数据如果存储于安全性较低的系统上,风险会大大提升。因此,在制定数据存储方案时,良好的数据治理策略必须考虑到方方面面的因素。

数据治理必须建立访问管理制度,在需求和安全性找到平衡点

明确访问者的权限,只能访问他们对应权限包含的数据。只有合法请求才能够访问数据,而敏感的数据需要更高的权限和更严密的验证才可以被访问。只向具有特定安全级别的用户开放。应该对用户和数据本身设置访问级别,管理账户时,应与人力资源部和采购部紧密互动,这一点非常重要,因为这样可以及时地使离职员工和停止合作的供应商不再拥有访问权限。处理好这些细节以及确保数据所有权和责任,这是构成完整的数据治理策略的一部分。

数据的使用/共享/分析

如何使用数据是数据治理之后一项重要的内容,数据可能会用于客户管理,提高客户体验,投放定向广告,用户应用系统初始化基础数据工作,辅助应用系统建设,提供市场分析和关联公司共享数据。必须仔细界定哪些数据可用于共享或者用于营销,并保护它们免遭攻击和泄露,因为数据本来就应该被用于纯粹的内部用途。让用户知悉采集数据的所有公司都会遵守数据安全和保证的规定。能够确保数据被合理合规的使用,也是数据治理重要的一项内容。

收集、验证、存储、访问和使用都是数据安全计划的必要组成部分

收集、验证、存储、访问和使用都是数据安全计划的必要组成部分,必须要有一个全面的策略来解决这些问题以及其他安全问题。数据安全计划必须是有效且可用性高,但是数据生命周期的所有部分都很容易受到攻击和由于粗心造成的破坏。你必须在数据治理中确定数据安全计划,包括访问控制,静态数据,数据加工,数据传输之后的加密等。

管理/元数据

没有管理的数据生命周期是不完整的。例如,将元数据应用于一段数据,用来进行识别检索。元数据包含数据的来源,采集或生成的日期,信息访问的级别,语义分类及其他企业所必须的信息。数据治理能建立一个元数据词汇表,界定数据的有效期。请注意数据也会过期,过期之后我们只能用于 历史 数据的分析。

数据治理创建的过程中可能会在企业内部遭到一些阻力,比如有的人会害怕失去访问数据的权限,而有些人也不愿意和竞争者共享数据。数据治理政策需要解决上述问题,让各方面的人都可接受。习惯了数据筒仓环境的公司,在适应新的数据治理策略上面会有困难,但如今对大型数据集的依赖以及随之而来的诸多安全问题,使创建和实施覆盖全公司的数据策略成为一种必然。

数据日益成为企业基础设施的一部分,在企业一步步处理各种特定情况的过程中形成决策。它以一次性的方式作出,常常是对某一特定问题的回应。因此,企业处理数据的方法会因为不同部门而改变,甚至会因为部门内部的不同情况而改变。即使每个部门已经有一套合理的数据处理方案,但这些方案可能彼此冲突,企业将不得不想办法协调。弄清数据存储的要求和需求是一件难事,如果做得不好,就无法发挥数据在营销和客户维系方面的潜力,而如果发生数据泄露,你还要承担法律责任。

另外在大企业内部,部门之间会展开对数据资源的争夺,各部门只关注自身的业务情况,缺乏全局观念,很难在没有调解的情况下达成妥协。

因此公司需要一个类似数据治理委员会的机构,他的职责是执行现有数据策略、挖掘未被满足的需求以及潜在安全问题等,创建数据治理策略,使数据的采集、管护、储存、访问以及使用策略均实现标准化,同时还会考虑各个部门和岗位的不同需求。平衡不同部门之间存在冲突的需求,在安全性与访问需求之间进行协调,确保最高效、最安全的数据管理策略。

建立数据治理委员会

负责评估各个数据用户的需求,建立覆盖全公司的数据管理策略,满足内部用户、外部用户甚至法律方面的各种需求。该委员会的成员应该囊括各个业务领域的利益相关者,确保各方需求都得到较好地满足,所有类型的数据所有权均得到体现。委员会也需要有数据安全专家,数据安全也是重要的一环。了解数据治理委员会的目标是什么,这一点很重要,因此,应该思考企业需要数据治理策略的原因,并清楚地加以说明。

制定数据治理的框架

这个框架要将企业内部、外部、甚至是法律层面的数据需求都纳入其中。框架内的各个部分要能够融合成一个整体,满足收集、清洗、存储、检索和安全要求。为此,企业必须清楚说明其端到端数据策略,以便设计一个能够满足所有需求和必要操作的框架。

有计划地把各个部分结合起来,彼此支持,这有很多好处,比如在高度安全的环境中执行检索要求。合规性也需要专门的设计,成为框架的一部分,这样就可以追踪和报告监管问题。这个框架还包括日常记录和其他安全措施,能够对攻击发出早期预警。在使用数据前,对其进行验证,这也是框架的一部分。数据治理委员会应该了解框架的每个部分,明确其用途,以及它如何在数据的整个生命周期中发挥作用。

数据测试策略

通常一个数据策略需要在小规模的商用环境中进行测试,用来发现数据策略在框架,结构和计划上的不足之处并进行调整,之后才能够投入正式使用。

数据治理策略要与时俱进

随着数据治理策略延伸到新的业务领域,肯定需要对策略进行调整。而且,随着技术的发展,数据策略也应该发展,与安全角势、数据分析方法以及数据管理工具等保持同步。

明确什么是成功的数据策略

我们需要确立衡量数据治理是否成功的明确标准,以便衡量进展。制定数据管理目标,有助于确定成功的重要指标,进而确保数据治理策略的方向是符合企业需求。

无论企业大小,在使用数据上都面临相似的数据挑战。企业越大,数据越多,而数据越多,越发需要制定一个有效的,正式的数据治理策略。规模较小的企业也许只需要非正式的数据治理策略就足够了,但这只限于那些规模很小且对数据依赖度很低的公司。即便是非正式的数据治理计划也需要尽可能考虑数据用户和员工数据的采集、验证、访问、存储。

当企业规模扩大,数据需求跨越多个部门时,当数据系统和数据集太大,难以驾驭时,当业务发展需要企业级的策略时,或者当法律或监管提出需求时,就必须制定更为正式的数据治理策略。

‘叁’ 如何有效的进行数据治理和数据管控

从技术实施角度看,主要包含“理”“采”“存”“管”“用”这五个,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。

数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。

数据采集清洗:通过可视化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。

基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。

元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。

血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。

质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapRece,HBase 等。

商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。

数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。

‘肆’ 请问在做出产品入库管理程序中。出入库操作后,怎样让出入库数据与库存数关联……(

用上期结存+本期收入-期末结余=本期出库公式就可以反映其关联关系。

‘伍’ 如何构建一个完善的数据库,如何来处理表与表关系.

SQL Server本身就是一个完善的数据库,提供可视化编程,后台完成所有拖放处理操作,不管有没有数据都可以使用,不需要编译。

一个比较合理的数据库设计应该考虑数据的交互性和挖掘能力、处理效率以及日志记录。

建立数据表,注意以下几点:

  1. 表建立的时候要有主键和索引,表与表之间要能使用主键相联系,举例说在A表里我做完一次记录要生成一个单号,B表里面是依据单号来做下一个流程,而不是依据记录的每一条数据

  2. 取名尽量使用英文+下划线,SQL Server里对汉字需要转码,影响工作效率,按照他的默认编码方式操作有助于提高数据处理速度

  3. 建立数据表的列数不要太多,用编码规则来建立逻辑

  4. 注意字段存储空间,限制字段长度,少用注释和image

  5. 存储过程尽量简洁实用

建立视图,为了别的客户端使用,尽量建立视图,做好完整的数据分析,别的接口程序或者客户端直接就可以拿去使用。做视图注意几点:

  1. 多个表操作写在一个视图里,不要嵌套太多视图

  2. 连接查询要适当的筛选

  3. 跨服务器操作视图,要建立服务器链接表,尽量使用内网链接,把服务器链接表做成查询视图,放在本地服务器数据库里,这样就等同本地操作

  4. 视图之间保留连接字段作为主要索引

建立计划作业,有计划地进行数据同步更新和备份标识工作,注意事项:

  1. 备份数据尽量放数据库里同步复制

  2. 计划任务避开工作高峰期

建立存储过程,记录操作日志,把日志以数据表的形式存储,注意事项:

  1. 存储过程对本表操作,不要交互太多表

  2. 精简参数数量,注意参数存储空间

  3. 对记录修改删除、更新标记的时候尽量使用时间来索引

建立关系图,给表与表之间建立直接关系,整理整体挖掘数据性能。

建立计划更新任务,优化数据库整体性能。

‘陆’ 一文让你分清数据管理与数据治理

一文让你分清数据管理与数据治理
当我们谈数据资产管理时,我们究竟在谈什么?就目前而言,我们谈论得最多的非数据管理和数据治理这两个概念莫属。但是对于这两个概念,两者的准确定义是什么,具体区别又是什么,仍是困扰着许多人的关键问题。
数据管理和数据治理有很多地方是互相重叠的,它们都围绕数据这个领域展开,因此这两个术语经常被混为一谈。
此外,每当人们提起数据管理和数据治理的时候,还有一对类似的术语叫信息管理和信息治理,更混淆了人们对它们的理解。关于企业信息管理这个课题,还有许多相关的子集,包括主数据管理、元数据管理、数据生命周期管理等等。
于是,出现了许多不同的理论(或理论家)描述关于在企业中数据/信息的管理以及治理如何运作:它们如何单独运作?它们又如何一起协同工作?是“自下而上”还是“自上而下”的方法更高效?
为了帮助大家弄明白这些术语以及它们之间的关系,本文将着重定义它们的概念,并指出它们的区别,这些定义和区别源自于国际公认的以数据为中心的相关组织,同时还会在一些观点上展开详细的探讨。
数据管理包含数据治理
在说明数据和信息的区别之前,最好从“治理是整体数据管理的一部分”这个概念开始,这个概念目前已经得到了业界的广泛认同。数据管理包含多个不同的领域,其中一个最显着的领域就是数据治理。CMMi协会颁布的数据管理成熟度模型(DMM)使这个概念具体化。DMM模型中包括六个有效数据管理分类,而其中一个就是数据治理。数据管理协会(DAMA)在数据管理知识体系(DMBOK)中也认为,数据治理是数据管理的一部分。在企业信息管理(EIM)这个定义上,Gartner认为EIM是“在组织和技术的边界上结构化、描述、治理信息资产的一个综合学科”。Gartner这个定义不仅强调了数据/信息管理和治理上的紧密关系,也重申了数据管理包含治理这个观点。
治理与管理的区别
在明确数据治理是数据管理的一部分之后,下一个问题就是定义数据管理。治理相对容易界定,它是用来明确相关角色、工作责任和工作流程的,确保数据资产能长期有序地、可持续地得到管理。而数据管理则是一个更为广泛的定义,它与任何时间采集和应用数据的可重复流程的方方面面都紧密相关。例如,简单地建立和规划一个数据仓库,这是数据管理层面的工作。定义谁以及如何访问这个数据仓库,并且实施各种各样针对元数据和资源库管理工作的标准,这是治理层面的工作。数据管理更广泛的定义包含DATAVERSITY上大部分主题为数据管理的文章和博客,其中有一部分是特别针对数据治理的。一个更广泛的定义是,在数据管理过程中要保证一个组织已经将数据转换成有用信息,这项工作所需要的流程和工具就是数据治理的工作。
信息与数据的区别
在上文关于数据管理的第三个定义中,提到了数据和信息的区别。所有的信息都是数据,但并不是所有的数据都是信息。信息是那些容易应用于业务流程并产生特定价值的数据。要成为信息,数据通常必须经历一个严格的治理流程,它使有用的数据从无用数据中分离出来,以及采取若干关键措施增加有用数据的可信度,并将有用数据作为信息使用。数据的特殊点在于创造和使用信息。在Gartner的术语表中,没有单独解释数据管理和数据治理的概念,取与代之的是重点介绍了信息治理和信息管理的概念。
数据治理主要围绕对象:角色
与正式的数据治理流程相关的角色是有限的。这些角色通常包括高层的管理者,他们优化数据治理规划并使资金筹集变得更为容易。这些角度也包括一个治理委员会,由个别高层管理者以及针对治理特定业务和必要流程而赋予相应职责的跨业务部门的人组成。角色也包括数据管理员,确保治理活动的持续开展以及帮忙企业实现业务目标。此外,还有部分“平民”管理员,他们虽然不会明确被指定为数据管理员,但他们仍然在各自业务领域里的治理流程中扮演活跃的角色。
有效的治理不仅需要IT的介入,这是人们的普遍共识。尤其当业务必须更主动地参与到治理方式和数据管理其他层面(例如自助数据分析)的时候,目的是要从这些工作参与中获益。在更多的案例中,特定领域的治理可以直接应用于业务。这就是为什么治理仅需要IT的介入是一个过时且应该摈弃的观点。
数据治理主要围绕对象:领域
数据治理包含许多不同方面的领域:
●元数据:元数据要求数据元素和术语的一致性定义,它们通常聚集于业务词汇表上。
●业务词汇表:对于企业而言,建立统一的业务术语非常关键,如果这些术语和上下文不能横跨整个企业的范畴,那么它将会在不同的业务部门中出现不同的表述。
●生命周期管理:数据保存的时间跨度、数据保存的位置,以及数据如何使用都会随着时间而产生变化,某些生命周期管理还会受到法律法规的影响。
●数据质量:数据质量的具体措施包括数据详细检查的流程,目的是让业务部门信任这些数据。数据质量是非常重要的,有人认为它不同于治理,它极大提升了治理的水平。
●参考数据管理:参考数据提供数据的上下文,尤其是它结合元数据一起考虑的情况下。由于参考数据变更的频率较低,参考数据的治理经常会被忽视。
虽然上述提及的是数据治理在数据管理中所负责的特定领域,但一个至关重要的问题在于,所有组织里的数据必须持续坚持数据治理的原则。
数据建模
数据建模是依赖于数据治理的另一个数据管理中的关键领域,它结合了数据管理与数据治理两者进行协调工作。可以说,为了将数据治理扩展到整个组织,利用一个规范化的数据建模有利于将数据治理工作扩展到其他业务部门。遵从一致性的数据建模,令数据标准变得有价值(特别是应用于大数据)。一个确保数据治理贯穿整个企业的最高效手段,就是利用数据建模技术直接关联不同的数据治理领域,例如数据血缘关系以及数据质量。当需要合并非结构化数据时,数据建模将会更有价值。此外,数据建模加强了治理的结构和形式。
关键的不同点
数据管理其他方面的案例在DMM中有五个类型,包括数据管理战略、数据质量、数据操作(生命周期管理)、平台与架构(例如集成和架构标准),以及支持流程(聚集于其他因素之中的流程和风险管理)。在此重申一点,数据治理和数据管理非常接近是有事实支撑的,数据质量经常被视为与数据治理相结合,甚至被认为是数据治理的产物之一。也许,情景化这两个领域的最好办法,在于理解数据治理是负责正式化任何数据管理当中的流程,数据治理本身着重提供一整套工具和方法,确保企业在实际上治理这些数据。虽然数据治理是数据管理中的一部分,但后者必须要由前者来提供可靠的信息到核心业务流程。

‘柒’ 数据治理的数据治理成功的关键——元数据管理

独立企业数据集成软件提供商Informatica公司(纳斯达克代码:INFA)认为:数据治理成功的关键在于元数据管理,即赋予数据上下文和含义的参考框架。经过有效治理的元数据可提供数据流视图、影响分析的执行能力、通用业务词汇表以及其术语和定义的可问责性,最终提供用于满足合规性的审计跟踪。元数据管理成为一项重要功能,让 IT 部门得以监视复杂数据集成环境中的变化,同时交付可信、安全的数据。因此,良好的元数据管理工具在全局数据治理中起到了核心作用。 Informatica将数据治理定义为“在组织范围内,对流程、政策、标准、技术和人员进行职能协调和定义来将数据作为公司资产管理,从而实现对准确、一致、安全且及时的数据的可用性管理和可控增长,以此制定更好的业务决策,降低风险并改善业务流程”。
数据治理着重于交付可信、安全的信息,为制定明智的业务决策、有效的业务流程并优化利益相关方交互提供支持。因此,数据治理本身并非是结果,而仅仅是方法:即通过数据治理来支持最关键的业务目标。 正如某家大型银行的高管所言:“如果没有数据治理,任何元数据管理方案注定会失败。”元数据管理可作为一项重要功能,让IT部门得以管理复杂数据集成环境中的变化,同时交付可信、安全的数据。当业务利益相关方参与这一进程并接受对数据参考框架的责任,其优势将变得更有说服力。此时,企业就能将业务元数据与基层的技术元数据进行关联,为全公司范围内的协作提供词汇表和背景资料。
例如,当业务用户要求其在 IT 部门的搭档在报告或分析中显示“净收入”,就无需再提问“哪种净收入——财务、销售还是市场营销?”除提供其他优势外,良好的元数据管理还可通过免除此类重要问题,促进数据治理:
· 这个业务术语的含义是什么?
· 在(几个相似的)业务术语中应当使用哪一个?
· 该术语的来源是什么?
· 该数据从数据源转移到目标时是如何进行转换的?
· 由谁负责该术语的定义、记录和管理?
· 谁修改过该术语?如何及何时进行修改?
· 哪些政策和规则适用于该术语?(示例包括数据质量规则、安全屏蔽规则、存档规则和数据保留政策)
· 修改环境中的某一特定数据对象会对其他数据对象产生哪些影响?
· 在不对可能使用相同数据对象的其他报告和分析造成影响的前提下,需要多长时间来实施环境变更? 一系列公司方案推动了数据治理的进展,也由此带动了元数据管理。这些方案包括:
· 通用业务词汇表(简单的数据管理)。这种“小规模试水”方法着重于某一特定问题或业务部门的通用业务词汇表。
· 全面数据治理(或数据管理策略)。这是一种更近似由上至下的方式,通常用于涉及企业内一系列业务部门的较大规模计划,并以按多个阶段(如果不是更长时间)进行管理的计划中的多个商机为目标。
· 合规。此类方案的推动因素是为遵守国际、国家、当地或行业法规的需求。合规——通常由一个治理、风险与合规性(GRC)职能部门进行管理,显然与数据治理唇齿相依。在发现、分析和记录企业的多项内部数据治理要求的同时,还必须与适用外部法规的相关特定要求进行统筹协调。其中部分示例包括:
· 银行业:Basel II、Basel III、多德弗兰克法案(Dodd Frank)、洗钱法案
· 保险业:偿付能力监管标准II(Solvency II )
· 医疗保健:HITECH Act、HIPAA
· 一般金融服务:萨班斯—奥克斯利法案
· 元数据管理。这是更上一层楼的做法,将元数据管理和数据治理作为“最佳实践”与各个新的业务方案挂钩。该方案对业务案例和项目范围进行定义。在多家未能成功实施较大型数据治理方案的公司中,这一方法则取得了成功。 几乎所有企业都面临着管理数据量、速度和种类的挑战。Hadoop/MapRece 技术在复杂数据分析能力以及按相对低廉的成本实现最大数据扩展性方面提供了一些有趣的优势。Hadoop 在不久的将来取代关系性DBMS的可能性不大,这两项技术更有可能并存,因为它们各有独到之处。虽然用于管理和分析数据的技术可能不同,元数据管理和数据治理的目标应始终保持不变:为支持良好的业务决策提供可信、及时且相关的信息。不存在所谓的“大数据治理”或“大数据元数据管理”——相反,这是一个将全局企业数据治理和元数据管理活动加以扩展来包容全新数据类型和数据源的问题。
Hadoop带来的挑战之一就是元数据管理。如果没有良好的元数据管理和数据治理,Hadoop将会缺乏透明度、可审计性以及数据的标准化与重复利用能力。企业仍将需要对数据相关关键信息的可见性,例如其来源、质量和所有权,否则就必须承受Hadoop变成环境内的又一个数据孤岛的风险。在该领域涌现的 HCatalog 和Hive /HiveQL等新技术将使得从非结构化和半结构化数据中收集元数据变得更加简易,从而实现Hadoop上的数据沿袭。这些功能对于将Hadoop集成入总体数据集成框架,以防止大数据在企业中遭到孤立隔绝,可如同任何其他数据源一样进行治理至关重要。 Informatica可提供功能齐全而又稳健可靠的工具,具备交付可信、安全的数据和启动成功的元数据管理方案所需的全部精确功能。Metadata Manager & BusinessGlossary可提供独一无二的多项优势,让IT经理能够尽量降低在实施变更时对关键业务数据造成损害的业务风险。
InformaticaMetadata Manager & Business Glossary是 InformaticaPowerCenter Standard Edition的关键组件之一。它可提供为数据治理方案奠定基础所需的核心元数据管理工具。Metadata Manager & Business Glossary是一项单个产品,配备一个共享的元数据信息库。它具备两个用户界面,供两类截然不同的用户使用:
· MetadataManager 可让 IT 人员处理技术元数据。
· Business Glossary 可让业务和 IT 管理员协同管理业务元数据。
ITSS WG1发布的白皮书表明
数据治理模型包括三个框架:范围,促成因素和执行及评估。他们每个方面都包含许多组件来进行展示和描述它们是如何工作的。该框架显示数据治理内部的逻辑关系。范围展示了我们应该关注什么,促成因素展示了数据治理的推动因素,执行和评估展示了如何实现治理的方法。该DG模型可以通过三个框架帮助我们理解数据治理。
数据治理的范围包括四个层次的内容。首先,应该 有一个治理要素负责管理其它管理要素,保证治理与管理的一致性。其次,下面的三个层次分别列示了需要治理的数据管理要素,其中价值创造层列示了通过数据治理所创造的价值服务。价值保证层描述了一个组织治理数据时重要保证服务。基础数据服务层描述了一个数据治理的基础数据服务。

‘捌’ 主数据管理的问题在大多数行业、企业中普遍存在

(1)主数据管理

主数据管理,包括不仅仅是硬件和软件,还是将数据作为重要资产管理的思想和办法,是指一整套的用于生成和维护企业主数据的规范、技术和方案,以保证主数据的完整性、一致性和准确性。主数据管理的目标是提供一个准确、及时、完整、相应的主数据来源,以支持业务流程和交易。

(2)主数据管理不是数据仓库

数据仓库会将各个业务系统的数据集中在一起再进行业务的分析,并且保存经过清理的数据;主数据管理系统不会把所有数据都管理起来,只是把需要在各个系统间共享的主数据进行采集和发布。

数据仓库是单向集成的;主数据管理注重将主数据的变化同步发布到各个关联的业务系统中。主数据系统是双向的,不但需要从各个系统中获取、加工,还包括了最终数据的分发。

(3)常见的主数据管理问题

目前,主数据管理的问题在大多数行业、企业中普遍存在。

主要表现为以下几点:

关键信息孤岛,数据分布在多个孤岛,不能跨组织传播;

组织内不能就一个主数据源达成一致;

数据质量问题引发的业务流程和交易的失败;

不正确或丢失数据造成合规性和绩效管理的问题;

决策者做出基于错误数据的错误决定。

对企业来说,业务系统的构建大多是以实际业务为核心,从下至上地构建系统,使得缺乏统一的规划,从而导致一些需要在各个业务中共享的主数据被分散到各个业务系统中。分散管理的主数据由于缺乏一致性、准确性和完整性,从而导致各个企业普遍存在的客户管理、供应商管理、产品管理等不力现象。

(4)主数据管理解决方案

从多个业务系统中整合最核心的、需要共享并保持一致的主数据,即创建主数据的单一视图(MDM主数据管理系统);

以服务的方式把统一、完整、准确的主数据发布给企业范围内需要使用这些数据的业务系统、业务流程和决策支持系统;

建立数据治理委员会,集中、定期进行主数据的清洗和丰富。

(5)带来的业务价值

基于完整、准确的信息增强企业管理和业务增长的能力;

加速新的服务和产品的推出,简化业务流程;

增强IT架构的灵活性,构建覆盖整个企业范围的数据管理基础;

提高业务分析的准确度和企业管理的水平,满足法规的要求,降低业务风险。

如何进行主数据管理

那如何解决这上述的两大痛点, 亿信华辰睿治数据治理平台 -主数据管理提供了完整的解决方案,主要工作包括以下几方面:

1、完善主数据管理体系

构建主数据体系,建立企业的主数据管理组织机构。设置主数据管理岗位,明确职责和分工。制定管理制度、标准以及流程。综合组织机构、人员配备、制度流程三方面建立起完备的主数据管理体系。

2、统一主数据来源

梳理主数据范围,统一各类主数据的来源,保证主数据入口的唯一性和准确性,打破原有数据分散、不一致的局面。

3、建立主数据标准规范

对各类主数据的标准和规范进行定义,从源头提高数据的质量和可用性。

4、进行主数据管理

通过专业化工具实现主数据管理,降低数据管理、维护、集成成本,提升主数据的质量,提供主数据服务,提升数据的高效利用。

‘玖’ 数据库在企业管理器中怎么建立关联

用链接服务器的方式

阅读全文

与数据管理如何关联问题相关的资料

热点内容
省交易中心属什么机构 浏览:316
数据库分类产品有哪些 浏览:816
蒸汽账号技术升级怎么注册账号 浏览:385
销售每天统计哪些数据 浏览:221
通达信数据统计如何设置 浏览:644
唐山原装红酒代理怎么谈 浏览:834
两张表格长度不一样怎么整合信息 浏览:831
数据分析师如何更好理解业务 浏览:867
窝轮交易是什么时候开始的 浏览:191
产品品质如何快速提升 浏览:940
石碣有哪些人才市场 浏览:666
如何把小程序的文件打印出来 浏览:588
数据公司就业前景如何 浏览:96
电脑出现蓝屏程序怎么改 浏览:167
一加的产品为什么这么多 浏览:991
关联程序有什么用 浏览:19
为什么建材专业市场拆迁 浏览:458
碳交易权哪里开户 浏览:604
专业技术军官怎么改革 浏览:968
代理公司执照需要什么手续 浏览:986