『壹』 數據倉庫是干什麼的,到現在,我終於看到了成
資料庫是面向事務的設計,數據倉庫是面向主題設計的。
資料庫一般存儲在線交易數據,數據倉庫存儲的一般是歷史數據。
資料庫設計是盡量避免冗餘,一般採用符合範式的規則來設計,數據倉庫在設計是有意引入冗餘,採用反範式的方式來設計。
資料庫是為捕獲數據而設計,數據倉庫是為分析數據而設計,它的兩個基本的元素是維表和事實表。(維是看問題的角度,比如時間,部門,維表放的就是這些東西的定義,事實表裡放著要查詢的數據,同時有維的ID)
『貳』 數據倉庫是什麼
根據數據倉庫概念的含義,數據倉庫擁有以下四個特點:
1、面向主題。操作型資料庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。
2、集成的。面向事務處理的操作型資料庫通常與某些特定的應用相關,資料庫之間相互獨立,並且往往是異構的。而數據倉庫中的數據是在對原有分散的資料庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。
3、相對穩定的。操作型資料庫中的數據通常實時更新,數據根據需要及時發生變化。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以後,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、刷新。
4、反映歷史變化。操作型資料庫主要關心當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
企業數據倉庫的建設,是以現有企業業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業務經營的決策,信息才能發揮作用,信息才有意義。而把信息加以整理歸納和重組,並及時提供給相應的管理決策人員,是數據倉庫的根本任務。因此,從產業界的角度看,數據倉庫建設是一個工程,是一個過程。
『叄』 數據倉庫的含義是什麼數據倉庫和資料庫的區別是什麼
7.理解數據倉庫的含義,數據倉庫和資料庫的區別。
答:含義數據倉庫是一個面向主題的,集成的,不可更新的,隨時間不斷變化的數據集合,他可以支持企業或組織的決策分析處理。
區別:1.資料庫只存放在當前值,數據倉庫存放歷史值;
2.資料庫內數據是動態變化的,只要有業務發生,數據就會被更新,而數據倉庫則是靜態的歷史數據,只能定期添加、刷新;
3.資料庫中的數據結構比較復雜,有各種結構以適合業務處理系統的需要,而數據倉庫中的數據結構則相對簡單;
4.資料庫中數據訪問頻率較高,但訪問量較少,而數據倉庫的訪問頻率低但訪問量卻很高;
5.資料庫中數據的目標是面向業務處理人員的,為業務處理人員提供信息處理的支持,而數據倉庫則是面向高層管理人員的,為其提供決策支持;
6.資料庫在訪問數據時要求響應速度快,其響應時間一般在幾秒內,而數據倉庫的響應時間則可長達數幾小時
『肆』 數據倉庫 是什麼意思啊
存儲企業 運營 、支撐產生的一系列 所有數據的 匯總倉庫
例如 員工的基本信息 日周報信息 電信行業的客戶信息 通話記錄 計費信息 金融行業的流水賬信息 等等
『伍』 什麼是數據倉庫
目前,數據倉庫一詞尚沒有一個統一的定義,著名的數據倉庫專家W.H.Inmon在其著作《Building the Data Warehouse》一書中給予如下描述:數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用於支持管理決策。對於數據倉庫的概念我們可以從兩個層次予以理解,首先,數據倉庫用於支持決策,面向分析型數據處理,它不同於企業現有的操作型資料庫;其次,數據倉庫是對多個異構的數據源有效集成,集成後按照主題進行了重組,並包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。
根據數據倉庫概念的含義,數據倉庫擁有以下四個特點:
1、面向主題。操作型資料庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。
2、集成的。面向事務處理的操作型資料庫通常與某些特定的應用相關,資料庫之間相互獨立,並且往往是異構的。而數據倉庫中的數據是在對原有分散的資料庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。
3、相對穩定的。操作型資料庫中的數據通常實時更新,數據根據需要及時發生變化。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以後,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、刷新。
4、反映歷史變化。操作型資料庫主要關心當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
『陸』 什麼是數據倉庫,數據倉庫如何分層
數據倉庫分層的原因
1通過數據預處理提高效率,因為預處理,所以會存在冗餘數據
2如果不分層而業務系統的業務規則發生變化,就會影響整個數據清洗過程,工作量巨大
3通過分層管理來實現分步完成工作,這樣每一層的處理邏輯就簡單了
標準的數據倉庫分層:ods(臨時存儲層),pdw(數據倉庫層),mid(數據集市層),app(應用層)
ods:歷史存儲層,它和源系統數據是同構的,而且這一層數據粒度是最細的,這層的表分為兩種,一種是存儲當前需要載入的數據,一種是用於存儲處理完後的數據。
pdw:數據倉庫層,它的數據是干凈的數據,是一致的准確的,也就是清洗後的數據,它的數據一般都遵循資料庫第三範式,數據粒度和ods的粒度相同,它會保存bi系統中所有歷史數據
mid:數據集市層,它是面向主題組織數據的,通常是星狀和雪花狀數據,從數據粒度將,它是輕度匯總級別的數據,已經不存在明細的數據了,從廣度來說,它包含了所有業務數量。從分析角度講,大概就是近幾年
app:應用層,數據粒度高度匯總,倒不一定涵蓋所有業務數據,只是mid層數據的一個子集。
數據倉庫的目的是構建面向分析的集成化數據環境,為企業提供決策支持。數據倉庫的context也可以理解為:數據源,數據倉庫,數據應用
數據倉庫可以理解為中間集成化數據管理的一個平台
etl(抽取extra,轉化transfer,裝載load)是數據倉庫的流水線,也可以認為是數據倉庫的血液。
數據倉庫的存儲並不需要存儲所有原始數據,因為比如你存儲冗長的文本數據完全沒必要,但需要存儲細節數據,因為需求是多變的,而且數據倉庫是導入數據必須經過整理和轉換使它面向主題,因為前台資料庫的數據是基於oltp操作組織優化的,這些可能不適合做分析,面向主題的組織形式才有利於分析。
多維數據模型就是說可以多維度交叉查詢和細分,應用一般都是基於聯機分析處理(online analytical process OLAP),面向特定需求群體的數據集市會基於多位數據模型構建
而報表展示就是將聚合數據和多維分析數據展示到報表,提供簡單和直觀的數據。
元數據,也叫解釋性數據,或者數據字典,會記錄數據倉庫中模型的定義,各層級之間的映射關系,監控數據倉庫的數據狀態和etl的任務運行狀態。一般通過元數據資料庫來統一存儲和管理元數據。
『柒』 數據倉庫是什麼意思啊通俗的講
數據倉庫:數據倉庫之父比爾·恩門(Bill Inmon)在1991年出版的「Building the Data Warehouse」(《建立數據倉庫》)一書中所提出數據倉庫是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,從字面意義上看數據倉庫就是數據的倉庫,它的實質就是一個可以容納更多數據的數據集。其目的是通過將操作型數據集成帶統一的環境中,為企業所有級別的決策制定過程,提供所有類型數據支撐的戰略集合,主要是用於數據挖掘和數據分析,以建立數據沙盤為基礎,為消滅消息孤島和支持決策。數據倉庫關注的是解決數據一致性,可信性,集合性……通過統一數據口徑,整理清洗數據將雜亂無序的業務數據轉化為對於業務運營、業務分析來說簡單易用的數據形式。
就零售行業來講,其每天進行的交易行為是以萬或者千萬來講的,每一次數據錄入必須要在極短的時間內完成。所以資料庫只能儲存短時間的一段數據,數據倉庫則是根據這些時效數據,對數據進行清洗處理,然後進行分析,挖掘利用數據倉庫中的數據價值,為企業進行決策提供數據支撐。
『捌』 什麼是數據倉庫repository
Clinical Data Repository,簡稱CDR,即臨床數據倉庫,一個實時資料庫,專門收集從各種臨床中得到的患者數據,以實現對患者數據的標准化管理。
『玖』 什麼是數據倉庫為什麼要建立數據倉庫數據倉庫有什麼特點
數據倉庫概念:
英文名稱為Data Warehouse,可簡寫為DW或DWH。數據倉庫的目的是構建面向分析的集成化數據環境,為企業提供決策支持(Decision Support)。它出於分析性報告和決策支持目的而創建。
這就要從數倉能解決的問題或者痛點來說,大型公司的業務相對復雜,隨著公司業務的擴大,跨BU,跨BG的業務往來越來越多,而數據一般分散在各個部門,這樣需要統一的平台來存儲這樣的跨系統的數據。此外,近年來分庫分表等應用越來越多,僅通過傳統關系型資料庫做數據分析和挖掘已經不能滿足要求。當然隨著手機APP的大量使用,埋點等數據一般都以log日誌方式存在,需要一個新的介質後者方案來解析這些數據,為了解決這個問題,數倉技術應運而生。
反過來講,如果公司系統較為單純,數據量比較小,傳統關系型資料庫以及完全可以滿足數據檢索和分析的需求,就不需要花成本來構建數倉。
其實構建數倉的原因還有很多,但無非是用一個更可靠的平台把分散的低價值的數據通過清洗,整合,分析挖掘使得數據的價值最大化。
『拾』 數據倉庫是什麼意思
數據倉庫之父Bill Inmon在1991年出版的「Building the Data Warehouse」一書中所提出的定義被廣泛接受——數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用於支持管理決策(Decision Making Support)。
◆面向主題:操作型資料庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織的。
◆集成的:數據倉庫中的數據是在對原有分散的資料庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。
◆相對穩定的:數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以後,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、刷新。
◆反映歷史變化:數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。