㈠ 数据仓库与ODS的区别,数据仓库和ODS并存方
数据仓库存储的是面向主题的历史变化数据,主要用于支持管理决策,提供长期的、趋势性的分析。而ODS作为操作型数据存储,存储的是当前的数据状态,提供即时性的、操作性的信息,便于快速响应业务需求。
ODS和数据仓库的主要区别在于,ODS设计采用混合设计方式,能提供高性能的响应时间,而数据仓库则反映历史变化,通常存储时间跨度更长。数据仓库中的数据为“历史值”,而ODS中的数据为“实时值”。通常情况下,ODS中存储的数据不会超过一个月,而数据仓库则可能存储10年或更长时间的数据。
在调研中,我们发现有三种数据处理方案:第一种是“业务数据-ODS-数据仓库”方案,这种方案的优点是ODS的数据与数据仓库的数据高度统一,开发成本低,开发一次即可应用到ODS。缺点是数据仓库需要的所有数据都需要走ODS,这会限制ODS的灵活性,甚至影响扩展性。
第二种方案是“OB-ODS”结构,其优点是结构简单,适合初创数据分析团队使用。然而,这种方式的缺点也很明显,所有数据都集中在ODS中,长期来看,数据决策分析能力较差,且软硬件成本高,模块划分不清晰,通用性差。
第三种方案是数据仓库和ODS并存,这种方案可以兼顾上述两种方案的优点,且便于扩展。ODS和数据仓库各司其职,形成优势互补,能有效应对互联网公司面临的快速变化和快速开发的特点。对于刚刚创建数据团队、数据开发人员紧缺的公司来说,使用这种数据架构可以解决实际问题。
㈡ 数据库存储何种数据呢
数据库中存储各类数据,主要分为四个级别:早期细节级数据、当前细节级数据、轻度综合级与高度综合级。级别划分依据数据的粒度大小,粒度越大,表示数据细节程度越低,综合程度越高。
数据仓库中不仅包含原始数据,还存储元数据,即关于数据的数据。传统数据库的数据字典或系统目录属于元数据范畴。在数据仓库环境中,元数据以两种形式存在:一是为了转换操作型环境至数据仓库环境,建立的元数据,它包含了数据源属性与转换属性;二是用于与多维模型及前端工具建立映射的元数据。
这四个级别及元数据的存储与管理,使得数据仓库能提供不同层次、不同需求的数据支持。早期细节级数据保留了数据的原始细节,便于深入分析;当前细节级数据反映了最新的信息,适用于实时决策;轻度综合级数据将多个细节数据进行简单整合,提供概览视角;高度综合级数据则通过多维度分析,实现深度洞察。
元数据的分类管理,有助于数据仓库实现高效数据转换与应用。通过建立元数据,操作型环境中的数据能更便捷地迁移到数据仓库,同时,元数据的映射功能使得多维模型与前端工具能更好地与数据仓库集成,提供灵活的数据访问与分析途径。
综上所述,数据库存储的数据通过四个级别的划分与元数据的管理,实现了从原始细节到综合分析的全面覆盖,满足不同场景下的数据需求,数据仓库成为现代大数据分析的重要基础设施。