A. 数据集市的常见问题
建立不同规格的数据仓库、数据集市的成本,国外的咨询机构有专门的评估,在一定程度上可以借鉴。但
是这些结果在国内也许并不适用,因为国情不同,在国内的构建成本需要专门的调研。以人们为企业构建的客户主题数据集市为例,一般成本在20万元到50万元人民币之间。数据集市的设计可以采用迭代式的方法。在迭代式开发中,每个迭代为上一次的结果增加了新的功能。功能增加的顺序要考虑到迭代平衡以及尽早发现重大风险。通俗地说,就是在正式交货之前多次给客户交付不完善的中间产品“试用”。这些中间产品会有一些功能还没有添加进去、还不稳定,但是客户提出修改意见以后,开发人员能够更好地理解客户的需求。如此反复,使得产品在质量上能够逐渐逼近客户的要求。这种开发方法周期长、成本高,但是它能够避免整个项目推倒重来的风险,比较适合大项目、高风险项目。
理论上讲,应该有一个总的数据仓库的概念,然后才有数据集市。实际建设数据集市的时候,国内很少这么做。国内一般会先从数据集市入手,就某一个特定的主题(比如企业的客户信息)先做数据集市,再建设数据仓库。数据仓库和数据集市建立的先后次序之分,是和设计方法紧密相关的。而数据仓库作为工程学科,并没有对错之分。
B. 什么是“数据集市技术”啊
1、数据集市的产生
当今信息社会,“数据”不等于“信息”,只有对数据进行恰当的处理,才会找到所需要的信息。为了把数据转化为有价值的信息,必须拓展最终用户的查询能力,企业应能使用户对其详细的业务数据随时进行查询,于是出现了数据仓库这一新的技术概念。数据仓库(Data Warehouse)实际上是把传统数据库对数据的操作型处理升级到对多个数据源的数据进行统一的组织,形成一个一体化的存储结构,为决策分析奠定基础。
数据仓库作为企业级应用,其涉及范围和投入成本常常是巨大的,它的建设很容易形成高投入、慢进度的大项目。这一切都是设计者和使用者所不希望看到和不能接受的,使用者要求在部门内部获得一种适合自身应用、容易使用且自行定向而方便高效的开放式数据接口工具。正是这种需求使数据集市应运而生。
2 数据集市的概念
数据集市(Data Market)是一种更小、更集中的数据仓库。简单地说,原始数据从数据仓库流入不同的部门以支持这些部门的定制化使用。这些部门级的数据库就称为数据集市。一个数据集市就是一个部门的数据集合。数据集市是为特定部门的决策支持而组织起来的一批数据和业务规则,习惯上称它们为“主题域”。不同部门有不同的“主题域”,因而也就有不同的数据集市。例如,财务部门有自己的数据集市,市场部门也有自己的数据集市,它们之间可能有关联,但相互不同且在本质上互为独立。
尽管数据集市与数据仓库在很多方面有类似之处,但它们之间却存在着区别。主要体现在:
(1)面向的对象不同。数据仓库面向的是整个企业,为整个企业提供所需的数据;数据集市则面向各个部门。
(2)数据粒度不一样。数据仓库中的数据粒度非常小;数据集市中的数据主要是概括级的数据。
数据集市的数据源主要来自数据仓库,它主要从数据仓库中提取部门所需要的数据以满足部门级的需要。数据集市的部分数据由其他数据源供给
3 数据集市的体系结构
数据集市的数据源主要来自数据仓库和其他数据源。实际上,如果先建数据集市,后建数据仓库,则数据集市的数据就不能来自数据仓库,因此在实际应用中数据集市最主要的数据源来自业务数据库。
实际应用中,考虑到业务数据库的服务器承担着繁忙的业务活动,所以我们将数据集市服务器与业务数据库的服务器分开。因此,有关系统以及WEB的开发,都是基于数据集市服务器的。它们的相互关系如下图所示。
数据集市体系结构图
4 数据集市技术的应用及其实现方法
数据集市主要是为有关的决策提供支持的,它能够大大提高工作效率,降低建设风险,在较短的时间内取得较好的成果,因此得到广泛的应用。数据集市可以分为两类:独立型和依赖型。在独立型数据集市中,数据来自一个或多个操作系统或外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据。依赖型数据集市中的数据直接来自企业数据仓库。
目前,国内还是依赖型的数据集市居多。两者的区别就在于是否从一个中央数据仓库而来。因为国内的数据仓库项目在开始阶段多是国外厂商推进的,肯定有些不理智,大多直接从数据仓库的概念入手,整合分散的、异构的数据。而独立型数据集市是因为客户有分析需求,需要一些用于分析的数据支撑,所以在部分或者自己的区域内建立这种小型数据仓库。独立型数据集市是服务具体分析应用的。
就应用而言,独立型和依赖型数据集市应该是相似的,因为目前对于数据集市的建模方法基本一致:使用建立面向主题的星型模式,服务于某项分析应用。二者主要的差别还是在扩展性方面,独立型数据集市还是会导致不一致的数据。因为它可能按照自己本地的方式来进行编码,当存在多个独立数据集市的时候,他们之间的数据很难共享。依赖型的数据集市则是按照中央数据仓库统一的编码方式,可以共享。
要建立数据集市服务器,必须将业务数据库中的数据提取到数据集市数据库。但是从业务数据库提取来的数据是被设计用于日常的事物处理的,这种按传统方式组织的数据不适合支持因决策而经常进行的查询,故查询的效率比较低。为了提高查询效率,克服传统数据组织结构所带来的弊端,多维数据库是一种较好的解决方法。多维数据库是以多维数据存储形式来组织数据的数据管理系统,它不是关系型数据库,在使用时需要将数据从关系数据库中转载到多维数据库中方可访问。多维数据库在针对多维的分析应用时具有较好的效果
数据集市技术可以方便快捷地建立面向部门的或面向主题的统计查询系统,在现代企业客户管理系统中,通过数据集市技术可以全面分析您的客户管理现状和发展目标,帮助您设计、开发和维护客户信息和营销活动管理系统。从这一层面来看,“ecdms数据集市”所提供的数据库产品更能体现出数据集市技术在现代商务营销模式中的重要作用。综合以上所述也可以预见,数据集市技术将会在各行业领域得到越来越广泛的应用和更大的发展。