A. 數據治理的數據治理成功的關鍵——元數據管理
獨立企業數據集成軟體提供商Informatica公司(納斯達克代碼:INFA)認為:數據治理成功的關鍵在於元數據管理,即賦予數據上下文和含義的參考框架。經過有效治理的元數據可提供數據流視圖、影響分析的執行能力、通用業務詞彙表以及其術語和定義的可問責性,最終提供用於滿足合規性的審計跟蹤。元數據管理成為一項重要功能,讓 IT 部門得以監視復雜數據集成環境中的變化,同時交付可信、安全的數據。因此,良好的元數據管理工具在全局數據治理中起到了核心作用。 Informatica將數據治理定義為「在組織范圍內,對流程、政策、標准、技術和人員進行職能協調和定義來將數據作為公司資產管理,從而實現對准確、一致、安全且及時的數據的可用性管理和可控增長,以此制定更好的業務決策,降低風險並改善業務流程」。
數據治理著重於交付可信、安全的信息,為制定明智的業務決策、有效的業務流程並優化利益相關方交互提供支持。因此,數據治理本身並非是結果,而僅僅是方法:即通過數據治理來支持最關鍵的業務目標。 正如某家大型銀行的高管所言:「如果沒有數據治理,任何元數據管理方案註定會失敗。」元數據管理可作為一項重要功能,讓IT部門得以管理復雜數據集成環境中的變化,同時交付可信、安全的數據。當業務利益相關方參與這一進程並接受對數據參考框架的責任,其優勢將變得更有說服力。此時,企業就能將業務元數據與基層的技術元數據進行關聯,為全公司范圍內的協作提供詞彙表和背景資料。
例如,當業務用戶要求其在 IT 部門的搭檔在報告或分析中顯示「凈收入」,就無需再提問「哪種凈收入——財務、銷售還是市場營銷?」除提供其他優勢外,良好的元數據管理還可通過免除此類重要問題,促進數據治理:
· 這個業務術語的含義是什麼?
· 在(幾個相似的)業務術語中應當使用哪一個?
· 該術語的來源是什麼?
· 該數據從數據源轉移到目標時是如何進行轉換的?
· 由誰負責該術語的定義、記錄和管理?
· 誰修改過該術語?如何及何時進行修改?
· 哪些政策和規則適用於該術語?(示例包括數據質量規則、安全屏蔽規則、存檔規則和數據保留政策)
· 修改環境中的某一特定數據對象會對其他數據對象產生哪些影響?
· 在不對可能使用相同數據對象的其他報告和分析造成影響的前提下,需要多長時間來實施環境變更? 一系列公司方案推動了數據治理的進展,也由此帶動了元數據管理。這些方案包括:
· 通用業務詞彙表(簡單的數據管理)。這種「小規模試水」方法著重於某一特定問題或業務部門的通用業務詞彙表。
· 全面數據治理(或數據管理策略)。這是一種更近似由上至下的方式,通常用於涉及企業內一系列業務部門的較大規模計劃,並以按多個階段(如果不是更長時間)進行管理的計劃中的多個商機為目標。
· 合規。此類方案的推動因素是為遵守國際、國家、當地或行業法規的需求。合規——通常由一個治理、風險與合規性(GRC)職能部門進行管理,顯然與數據治理唇齒相依。在發現、分析和記錄企業的多項內部數據治理要求的同時,還必須與適用外部法規的相關特定要求進行統籌協調。其中部分示例包括:
· 銀行業:Basel II、Basel III、多德弗蘭克法案(Dodd Frank)、洗錢法案
· 保險業:償付能力監管標准II(Solvency II )
· 醫療保健:HITECH Act、HIPAA
· 一般金融服務:薩班斯—奧克斯利法案
· 元數據管理。這是更上一層樓的做法,將元數據管理和數據治理作為「最佳實踐」與各個新的業務方案掛鉤。該方案對業務案例和項目范圍進行定義。在多家未能成功實施較大型數據治理方案的公司中,這一方法則取得了成功。 幾乎所有企業都面臨著管理數據量、速度和種類的挑戰。Hadoop/MapRece 技術在復雜數據分析能力以及按相對低廉的成本實現最大數據擴展性方面提供了一些有趣的優勢。Hadoop 在不久的將來取代關系性DBMS的可能性不大,這兩項技術更有可能並存,因為它們各有獨到之處。雖然用於管理和分析數據的技術可能不同,元數據管理和數據治理的目標應始終保持不變:為支持良好的業務決策提供可信、及時且相關的信息。不存在所謂的「大數據治理」或「大數據元數據管理」——相反,這是一個將全局企業數據治理和元數據管理活動加以擴展來包容全新數據類型和數據源的問題。
Hadoop帶來的挑戰之一就是元數據管理。如果沒有良好的元數據管理和數據治理,Hadoop將會缺乏透明度、可審計性以及數據的標准化與重復利用能力。企業仍將需要對數據相關關鍵信息的可見性,例如其來源、質量和所有權,否則就必須承受Hadoop變成環境內的又一個數據孤島的風險。在該領域涌現的 HCatalog 和Hive /HiveQL等新技術將使得從非結構化和半結構化數據中收集元數據變得更加簡易,從而實現Hadoop上的數據沿襲。這些功能對於將Hadoop集成入總體數據集成框架,以防止大數據在企業中遭到孤立隔絕,可如同任何其他數據源一樣進行治理至關重要。 Informatica可提供功能齊全而又穩健可靠的工具,具備交付可信、安全的數據和啟動成功的元數據管理方案所需的全部精確功能。Metadata Manager & BusinessGlossary可提供獨一無二的多項優勢,讓IT經理能夠盡量降低在實施變更時對關鍵業務數據造成損害的業務風險。
InformaticaMetadata Manager & Business Glossary是 InformaticaPowerCenter Standard Edition的關鍵組件之一。它可提供為數據治理方案奠定基礎所需的核心元數據管理工具。Metadata Manager & Business Glossary是一項單個產品,配備一個共享的元數據信息庫。它具備兩個用戶界面,供兩類截然不同的用戶使用:
· MetadataManager 可讓 IT 人員處理技術元數據。
· Business Glossary 可讓業務和 IT 管理員協同管理業務元數據。
ITSS WG1發布的白皮書表明
數據治理模型包括三個框架:范圍,促成因素和執行及評估。他們每個方面都包含許多組件來進行展示和描述它們是如何工作的。該框架顯示數據治理內部的邏輯關系。范圍展示了我們應該關注什麼,促成因素展示了數據治理的推動因素,執行和評估展示了如何實現治理的方法。該DG模型可以通過三個框架幫助我們理解數據治理。
數據治理的范圍包括四個層次的內容。首先,應該 有一個治理要素負責管理其它管理要素,保證治理與管理的一致性。其次,下面的三個層次分別列示了需要治理的數據管理要素,其中價值創造層列示了通過數據治理所創造的價值服務。價值保證層描述了一個組織治理數據時重要保證服務。基礎數據服務層描述了一個數據治理的基礎數據服務。
B. 數據治理包括哪些方面
從技術實施角度看,數據治理包含「理」「采」「存」「管」「用」這五個步驟,即業務和數據資源梳理、數據採集清洗、資料庫設計和存儲、數據管理、數據使用。
數據資源梳理:數據治理的第一個步驟是從業務的視角釐清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以資料庫、網頁、文件和 API 介面形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。
數據採集清洗:通過可視化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)將數據從來源端經過抽取 (extract)、轉換 (transform)、載入 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據。基礎數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基於業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那麼基礎庫和主題庫的建設就是在對業務理解的基礎上,基於易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基於一定的原則設計資料庫表結構,然後再根據數據資源清單設計數據採集清洗流程,將整潔干凈的數據存儲到資料庫或數據倉庫中。
元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便於業務人員也能夠理解資料庫中的數據欄位含義,並且,元數據是後面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。
血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那麼數據治理團隊需要知道業務團隊的數據來自於哪個核心庫,核心庫的數據又來自於哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。 數據資源目錄:數據資源目錄一般應用於數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基於業務場景和行業規范而創建,同時依託於元數據和基礎庫主題而實現自動化的數據申請和使用。
質量管理:數據價值的成功發掘必須依託於高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴於對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapRece,HBase 等。
商業智能(BI):數據治理的目的是使用,對於一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那麼可以使用 BI 類的產品快速獲取需要的數據,並分析形成報表,像派可數據就屬於專業的BI廠商。
數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 介面三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 介面共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 介面的形式進行了轉移。API 介面共享可以使用 API 網關實現,常見的功能是自動化的介面生成、申請審核、限流、限並發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。
C. 什麼是元數據(MetaData)及元數據的用途
元數據(Meta Data)是關於數據的數據,當人們描述現實世界的現象時,就會產生抽象信息,這些抽象信息便可以看作是元數據,元數據主要用來描述數據的上下文信息。
通俗的來講,假若圖書館的每本書中的內容是數據的話,那麼找到每本書的索引則是元數據,元數據之所以有其它方法無法比擬前虛的優勢,就在於它可以幫助人們更好的理解數據。
發現和描述數據的來龍去脈,特別是那些即將要從OLTP系統上升到DW/BI體系建設的企業,元數據可以幫他們形成清晰直觀的數據流圖,元數據是數據管控的基本手段。
元數據是為了提升共享、重新獲取和理解企業信息資產的水平,元數據是企業信息管理的潤滑劑,不對元數據進行管理或管理不得當。
信息將被丟失或處於隱匿狀態而難以被用戶使用,數據集成將十分昂貴,不能對業務進行有效支撐。終端用戶要識別相關的信息將十分困難,最終用戶將失去對數據的信任。
(3)為什麼要做元數據治理擴展閱讀
元數據分類
元數據管理的范圍將涵括數據產生、數據存儲、數據加工和展現等各個環節的數據描述信息,幫助用戶理解數據來龍去脈、關系及相關屬性。按其描述對象的不同可以劃分為三類元數據:技術元數據、業務元數據和管理元數據。這滾肆三種元數據的具體描述如下:
1、技術元數據 技術元數據是描述數據系統中技術領域相關概念、關系和規則的數據,主要包括對數據結構、數據處理方面的特徵描述,覆蓋數據源介面、數據倉庫與數據集市存儲、ETL、OLAP、數據封裝和前端展現等全部數據處理環節;
2、業務元數據 業務元數據是描述數據系統中業務領域相關概念、關系和規則的數據,主要包括業務術語、信息分類、指標定義和業務規則等信息;
3、管理元數據 管理元數據是描述數據系統中大悔轎管理領域相關概念、關系和規則的數據,主要包括人員角色、崗位職責和管理流程等信息。
D. 什麼是元數據為何需要元數據
元數據是關於數據的組織、數據域及其關系的信息,簡言之,元數據就是關於數據的數據。需要元數據是用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能。
描述信息資源或數據本身的特徵和屬性,規定數字化信息的組織,具有定位、發現、證明、評估、選擇等功能。
一般認為,所謂元數據是關於數據的數據,或關於數據的結構化的數據。從已有的結論看,元數據的含義是逐漸發展的。元數據一詞,早期主要指網路資源的描述數據,用於網路信息資源的組織;其後,逐步擴大到各種以電子形式存在的信息資源的描述數據。元數據這一術語實際用於各種類型信息資源的描述記錄。
此外,元數據在地理界,生命科學界等領域也有其相應的定義和應用。
(4)為什麼要做元數據治理擴展閱讀
元數據的基本特點主要有:
a)元數據一經建立,便可共享。元數據的結構和完整性依賴於信息資源的價值和使用環境;元數據的開發與利用環境往往是一個變化的分布式環境;任何一種格式都不可能完全滿足不同團體的不同需要;
b)元數據首先是一種編碼體系。元數據是用來描述數字化信息資源,特別是網路信息資源的編碼體系,這導致了元數據和傳統數據編碼體系的根本區別;元數據的最為重要的特徵和功能是為數字化信息資源建立一種機器可理解框架。
元數據體系構建了電子政務的邏輯框架和基本模型,從而決定了電子政務的功能特徵、運行模式和系統運行的總體性能。
電子政務的運作都基於元數據來實現。其主要作用有:描述功能、整合功能、控制功能和代理功能。
由於元數據也是數據,因此可以用類似數據的方法在資料庫中進行存儲和獲取。如果提供數據元的組織同時提供描述數據元的元數據,將會使數據元的使用變得准確而高效。用戶在使用數據時可以首先查看其元數據以便能夠獲取自己所需的信息。