1. 元數據的管理
初期的元數據管理通常是在事後由相應的元數據管理軟體,從已開發完成的應用系統中抽取用戶所關注的各類元數據,再由人工補錄一些注釋和管理用的屬性。這種模式稱之為基本元數據管理,由於存在元數據獲取的不及時,存在為了減少工作量有些屬性空缺的風險,存在對應用體驗支持力度的不足,實際應用並不普遍。在新一代應用系統(AS2.0) 中,業務功能通常都是由相應的構件,以人機交互的形式,通過在人工業務語境的對話過程中組裝實現的。這個過程中,不僅完成了業務應用所需要的應用軟體元素,同時也完成了應用軟體元素相對應的元數據的採集。這種模式稱之為主動元數據管理。以下是元數據管理的主要功能,後2部分屬於主動元數據管理的內容。 元模型管理。利用可視化的用戶體驗,實現包括元模型添加、刪除、修改、發布等維護功能;並且能讓用戶直觀地了解已有元模型的分類、統計、使用情況、變更追溯,以及每個元模型的生命周期管理等等。
元數據管理。元數據管理實現針對元數據的基本管理功能。如元數據的添加、刪除、修改屬性等維護功能;元數據之間關系的建立、刪除和跟蹤等關系維護功能;提供元數據發布流程管理,可以更好地管理和跟蹤元數據的整個生命周期;元數據自身質量核查、元數據查詢、元數據統計、元數據使用情況分析、元數據變更、元數據版本和生命周期管理等功能。
元數據分析。元數據分析功能主要實現針對元數據的基本分析功能。包括血緣分析(血統分析)、影響分析、實體關聯分析、實體影響分析、主機拓撲分析、指標一致性分析等。 各類應用軟體元素產生的元數據進入元數據平台後,元數據管理可通過元數據服務功能,為需要這些元數據的工具軟體或構件提供元數據服務。如將前面所述的各種工具軟體的定義結果,以相應的標准協議進行打包形成方案(應用腳本),提供給其它應用環境中的物理表建立工具、ETL工具、多維模型建立工具、結果展現工具等底層工具,從而實現應用的重用和共享。同時,元數據服務還可為業務應用功能提供輔助的元數據幫助信息,如業務功能中加工結果和指標的說明、提示,及其血緣分析等,讓用戶可明確、直觀地了解數據的來源、加工過程及加工演算法等信息。
2. 什麼是元數據(MetaData)及元數據的用途
元數據(Meta Data)是關於數據的數據,當人們描述現實世界的現象時,就會產生抽象信息,這些抽象信息便可以看作是元數據,元數據主要用來描述數據的上下文信息。
通俗的來講,假若圖書館的每本書中的內容是數據的話,那麼找到每本書的索引則是元數據,元數據之所以有其它方法無法比擬的優勢,就在於它可以幫助人們更好的理解數據。
發現和描述數據的來龍去脈,特別是那些即將要從OLTP系統上升到DW/BI體系建設的企業,元數據可以幫他們形成清晰直觀的數據流圖,元數據是數據管控的基本手段。
元數據是為了提升共享、重新獲取和理解企業信息資產的水平,元數據是企業信息管理的潤滑劑,不對元數據進行管理或管理不得當。
信息將被丟失或處於隱匿狀態而難以被用戶使用,數據集成將十分昂貴,不能對業務進行有效支撐。終端用戶要識別相關的信息將十分困難,最終用戶將失去對數據的信任。
(2)元數據管理是什麼擴展閱讀
元數據分類
元數據管理的范圍將涵括數據產生、數據存儲、數據加工和展現等各個環節的數據描述信息,幫助用戶理解數據來龍去脈、關系及相關屬性。按其描述對象的不同可以劃分為三類元數據:技術元數據、業務元數據和管理元數據。這三種元數據的具體描述如下:
1、技術元數據 技術元數據是描述數據系統中技術領域相關概念、關系和規則的數據,主要包括對數據結構、數據處理方面的特徵描述,覆蓋數據源介面、數據倉庫與數據集市存儲、ETL、OLAP、數據封裝和前端展現等全部數據處理環節;
2、業務元數據 業務元數據是描述數據系統中業務領域相關概念、關系和規則的數據,主要包括業務術語、信息分類、指標定義和業務規則等信息;
3、管理元數據 管理元數據是描述數據系統中管理領域相關概念、關系和規則的數據,主要包括人員角色、崗位職責和管理流程等信息。
3. 數據治理包括哪些方面
從技術實施角度看,數據治理包含「理」「采」「存」「管」「用」這五個步驟,即業務和數據資源梳理、數據採集清洗、資料庫設計和存儲、數據管理、數據使用。
數據資源梳理:數據治理的第一個步驟是從業務的視角釐清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以資料庫、網頁、文件和 API 介面形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。
數據採集清洗:通過可視化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)將數據從來源端經過抽取 (extract)、轉換 (transform)、載入 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據。基礎數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基於業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那麼基礎庫和主題庫的建設就是在對業務理解的基礎上,基於易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基於一定的原則設計資料庫表結構,然後再根據數據資源清單設計數據採集清洗流程,將整潔干凈的數據存儲到資料庫或數據倉庫中。
元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便於業務人員也能夠理解資料庫中的數據欄位含義,並且,元數據是後面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。
血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那麼數據治理團隊需要知道業務團隊的數據來自於哪個核心庫,核心庫的數據又來自於哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。 數據資源目錄:數據資源目錄一般應用於數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基於業務場景和行業規范而創建,同時依託於元數據和基礎庫主題而實現自動化的數據申請和使用。
質量管理:數據價值的成功發掘必須依託於高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴於對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapRece,HBase 等。
商業智能(BI):數據治理的目的是使用,對於一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那麼可以使用 BI 類的產品快速獲取需要的數據,並分析形成報表,像派可數據就屬於專業的BI廠商。
數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 介面三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 介面共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 介面的形式進行了轉移。API 介面共享可以使用 API 網關實現,常見的功能是自動化的介面生成、申請審核、限流、限並發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。
4. 元數據管理及其作用是什麼
元數據管理是一個根據使用這些資產的方式來管理組織的數據資產的流程。利用可視化的用戶體驗,實現包括元模型添加、刪除、修改、發布等維護功能;並且能讓用戶直觀地了解已有元模型的分類、統計、使用情況、變更追溯,以及每個元模型的生命周期管理等等
5. 百分點公司的元數據管理主要是做什麼的
元數據管理能夠協助企業管理數據資產,通過全景視圖透視數據資產,利用全鏈路血緣分析和影響分析把控上下游數據關聯,提供高效的數據檢索、展示和分析。
6. 什麼是元數據管理及其作用
元數據管理定義如下:
1、元數據管理包括業務詞彙表的發展,數據元素和實體的定義,業務規則和演算法以及數據特徵。
2、最基礎的管理是管理業務元數據的收集、組織和維持。
3、對技術型元數據的應用對主數據管理和數據治理項目的成功至關重要。
元數據管理作用:
1、元數據是「所有系統、文檔和流程中包含的所有數據的語境
2、如果沒有元數據,組織IT系統中收集和存儲的所有數據都會失去意義,也就沒有業務價值。
3、元數據管理是一項和主數據管理、數據治理一樣重要的功能,因為元數據管理是每一個這些准則的基礎組件。
4、組織部署了數據治理項目,但沒有解決元數據管理問題,仍然獲得了成功,那是因為很多數據管家執行的活動和任務在聚焦元數據和元數據的管理流程。
7. 什麼是元數據
元數據(Meta Date),主要記錄數據倉庫中模型的定義、各層級間的映射關系、監控數據倉庫的數據狀態及ETL的任務運行狀態。一般會通過元數據資料庫(Metadata Repository)來統一地存儲和管理元數據,其主要目的是使數據倉庫的設計、部署、操作和管理能達成協同和一致。
元數據是數據倉庫管理系統的重要組成部分,元數據管理是企業級數據倉庫中的關鍵組件,貫穿數據倉庫構建的整個過程,直接影響著數據倉庫的構建、使用和維護。
構建數據倉庫的主要步驟之一是ETL。這時元數據將發揮重要的作用,它定義了源數據系統到數據倉庫的映射、數據轉換的規則、數據倉庫的邏輯結構、數據更新的規則、數據導入歷史記錄以及裝載周期等相關內容。數據抽取和轉換的專家以及數據倉庫管理員正是通過元數據高效地構建數據倉庫。
用戶在使用數據倉庫時,通過元數據訪問數據,明確數據項的含義以及定製報表。
數據倉庫的規模及其復雜性離不開正確的元數據管理,包括增加或移除外部數據源,改變數據清洗方法,控制出錯的查詢以及安排備份等。
元數據可分為技術元數據和業務元數據。技術元數據為開發和管理數據倉庫的IT 人員使用,它描述了與數據倉庫開發、管理和維護相關的數據,包括數據源信息、數據轉換描述、數據倉庫模型、數據清洗與更新規則、數據映射和訪問許可權等。而業務元數據為管理層和業務分析人員服務,從業務角度描述數據,包括商務術語、數據倉庫中有什麼數據、數據的位置和數據的可用性等,幫助業務人員更好地理解數據倉庫中哪些數據是可用的以及如何使用。
由上可見,元數據不僅定義了數據倉庫中數據的模式、來源、抽取和轉換規則等,而且是整個數據倉庫系統運行的基礎,元數據把數據倉庫系統中各個鬆散的組件聯系起來,組成了一個有機的整體。