『壹』 如何有效的進行數據治理和數據管控
從技術實施角度看,主要包含「理」「采」「存」「管」「用」這五個,即業務和數據資源梳理、數據採集清洗、資料庫設計和存儲、數據管理、數據使用。
數據資源梳理:數據治理的第一個步驟是從業務的視角釐清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以資料庫、網頁、文件和 API 介面形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。
數據採集清洗:通過可視化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)將數據從來源端經過抽取 (extract)、轉換 (transform)、載入 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據。基礎數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基於業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那麼基礎庫和主題庫的建設就是在對業務理解的基礎上,基於易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基於一定的原則設計資料庫表結構,然後再根據數據資源清單設計數據採集清洗流程,將整潔干凈的數據存儲到資料庫或數據倉庫中。
元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便於業務人員也能夠理解資料庫中的數據欄位含義,並且,元數據是後面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。
血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那麼數據治理團隊需要知道業務團隊的數據來自於哪個核心庫,核心庫的數據又來自於哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。 數據資源目錄:數據資源目錄一般應用於數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基於業務場景和行業規范而創建,同時依託於元數據和基礎庫主題而實現自動化的數據申請和使用。
質量管理:數據價值的成功發掘必須依託於高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴於對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapRece,HBase 等。
商業智能(BI):數據治理的目的是使用,對於一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那麼可以使用 BI 類的產品快速獲取需要的數據,並分析形成報表,像派可數據就屬於專業的BI廠商。
數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 介面三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 介面共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 介面的形式進行了轉移。API 介面共享可以使用 API 網關實現,常見的功能是自動化的介面生成、申請審核、限流、限並發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。
『貳』 對數據資產進行體全面盤點、構建企業級的數據資產目錄
隨著雲計算、物聯網、移動互聯網等新技術的逐漸成熟和集中應用,社會發展進入了數字化時代,人、事、物都在被數據化,數據已成為新經濟的核心生產要素,日益對全球生產、流通、分配、消費活動以及經濟運行機制、社會生活方式和國家治理能力產生重要影響。
越來越多的企業也將數據視為轉型發展、重塑競爭優勢和提升組織治理能力的重要戰略資產,並對這一重要資產進行系統性、體系化的管理,以便充分挖掘數據的戰略、戰術價值。鑒於此,對數據資產進行體全面盤點、構建企業級的數據資產目錄成為了數據資產管理的一項基礎性工作,正在 各行各業如火如荼的開展。
而很多企業在構建數據資產目錄的過程中,遇到了很多困惑和難題,彷彿走入了數據沼澤中、身心俱疲,例如:
● 要對哪些數據資產進行盤點、放到數據資產目錄中?
● 誰來盤點最合適?誰是數據資產目錄的使用者?
● 數據資產目錄構建後,誰來管理?怎麼管理?
● 花了大量的人力、物力、財力,難到只弄了一堆EXCEL清單出來?
● 好不容易梳理出來的目錄,最後處於沉睡狀態,沒人關心、也沒人用!
● 業務人員看不懂對數據資產的解釋!
● ……
數據資產的基本涵義
在理論層面,目前並沒有對數據資產的權威定義。我們選取業界較為認可的概念,即:數據資產( Data Asset )是指由企業擁有或者控制的,能夠為企業帶來未來經濟利益的,以物理或電子的方式記錄的數據資源,如文件資料、電子數據等。在企業中,並非所有的數據都構成數據資產,數據資產是能夠為企業產生價值的數據資源。
從以上概念中,可以得出數據資產最重要的三個性質:
(1) 可控的 ,企業除了擁有自己內部的數據外,對一些外部的數據可以通過可靠、合法的途徑獲取,也可作為企業數據資產的一部分;
(2) 有價值的 ,數據資產能夠給企業帶來效益和價值,但筆者認為此處的效益不應局限在經濟價值,還會有社會價值、信譽和品牌價值等等;
(3) 需要甄別的 ,並非所有的數據都能成為數據資產,所以企業要根據自身業務特點,在海量的數據中識別劃分出屬於自己的核心數據資產。
數據資產目錄的價值
目前,數據資產目錄管理已經變成了數據治理工作中不可或缺的一個環節。企業在識別出自身數據資產的基礎上,進一步構建數據資產目錄,能夠幫助用戶更好的理解、使用以及分析數據。
企業通過發現、描述和組織數據資產,形成一套企業數據資產的清單目錄,提供一套上下文背景信息,為數據分析師、數據架構師、數據管理專員和其他數據用戶,根據業務價值目標更好的查找和理解相關的數據資產。
如何實踐數據資產管理
數據作為越來越重要的生產要素,將成為比土地、石油、煤礦等更為核心的生產資源,如何加工利用數據,釋放數據價值,實現企業的數字化轉型,是各行業和企業面臨的重要課題,然而數據的價值發揮面臨重重困難。企業的數據資源散落在多個業務系統中,企業主和業務人員無法及時感知到數據的分布與更新情況,也無法進一步開展對數據加工工作。數據標准不統一,數據孤島普遍存在導致業務系統之間的數據無法共享,資源利用率降低,降低了數據的可得性。標准缺失、數據錄入不規范導致數據質量差,垃圾數據增多,數據不可用。數據安全意識不夠、安全防護不足導致了數據泄露事件頻發,危害了企業經營和用戶利益。為了解決解決數據面臨的諸多問題,充分釋放數據價值。
我給大家推薦一款非常好用的數據資產管理工具——睿治。睿治平台是目前國內功能最全的數據治理產品,完全覆蓋了元數據、數據標准、數據質量、數據集成、主數據、數據資產、數據交換、生命周期、數據安全9大領域。並且採用微服務架構,既可以和企業已建系統高度融合,也可以隨著未來信息化發展,而無限延展。也實現了全形色的可視化,包括領導、技術管理、業務管理、都能通過平台清晰的了解數據治理的過程和結果,從而保證數據治理的落地,產生積極的推動作用。
『叄』 企業如何有效的進行數據資產管理中軟國際解決方案如何
中軟國際數據資產管理解決方案是中軟國際推出的一款服務於企業文件存儲、管理、分享、協作的綜合解決方案。提升客戶在對外業務、對內辦公場景下數據資產管理的效率,並確保數據資產在存儲、分享過程中的安全性。助力企業數字化轉型鄭鉛,實現「讓數據資產更安全」、「圓陪讓數據分享更橘叢蠢方便」、「讓知識管理更系統」,這些網路都能找到。
『肆』 所謂的數據資產管理到底應該怎麼做
根據目前的實踐情況來講,數據資產管理的方衡咐法應包者肢括以下三步:第一步,做好數據治理,以數據架構驅動企業架構治理成熟度;第二步,構建企業級數據共享中心,實現數據採集、共享和應用的松耦合,通過數據共享層實現快速數首攔世據建模、分析、共享和應用及可視化管理;第三步,通過跨界合作打通數據,實現數據資產戰略驅動主營業務增長。
『伍』 企業如何進行全生命周期的數據資產管理
推薦使用滴普科技的DataSense數據分析平台,它可以幫助企業構建指標治理解決方案,提供指標體系搭建、規范標准化、低代碼指標開發的全生命周期管理工灶埋具,幫助企業實罩辯如現數據資產的敏捷治理和運營物啟。
『陸』 數據資產的管理方法
在最近幾年的業務發展中,數據都是各大公司建設的「寵兒」,幾乎所有的業務都圍繞數據展開,其重要性堪比信息化時代的「石油」。因此,大多數的公司都會建設自己的數據資產平台,一方面是為了做一些諸如統一數據口徑一類的基礎工作,另一方面也是為了深入挖掘數據的價值,為企業帶來高額的利潤回報。
回看過去的發展歷史,圍繞著數據的採集、建設、管理和應用,已經基本形成了體系化的建設方法。運營在做定價的時候,需要數據的支持;財務在評估預算的時候,需要數據的支持;法務在判定風險時,同樣需要數據的支持…… 同時,隨著企業發展的進行,數據口徑的統一需要對數據進行治理;成本的管理需要對數據進行治理;支持業務的增多需要對數據進行治理…… 凡此種種,當我們缺少了數據資產門戶的時候,很多的治理和查詢工作,便很容易產生亂子。
某些意義上,數據資產的整理,是一種「臟活累活」,需要持續的維護和迭代,但做好之後,其發揮的價值,也是非常大的,只不過這種價值需要依附於別的項目才能體現出來。
因此,本文簡單介紹一種整理數據資產的方法,供大家交流,篇幅不長,介紹思路更多一些。
其實數據的整理,用「運營」的思路來講,更像是「品類規劃」。只有把類目和索引做到了,全局層面便有了可視化的基礎,後續資產的整理和歸類,也會有科學的指引。
像比較大一點的互聯網公司,業務通常不是單一的,因此如何仿照類目的思路,將一、二、三級索引做好,就是一個關鍵點和難點。
從消費者的視角,可以根據行為偏好、互動行為、個人屬性、社交關系等方面構建類目,行為偏好又可以分為購買行為、點擊行為、瀏覽行為,等等;從業務的視角,可以根據電商、金融、社交、媒體等業務屬性構建類目,電商又可以分為B2C、C2C、B2B2C等不同的業務模式;從部門的視角,又可以根據XX事業部這種方式來建設,然後一級一級細分到具體負責的團隊。總之,根據某一種分類的原則,將一二三級類目做完整,通常情況下可以很快的定位到需要的數據。
當然,只有類目也是不行的,這時候支持一個基本的搜索功能,將業務名、表名、欄位名、屬性名等做成模糊匹配的方法,供用戶搜索和查詢,便可以支持絕大多數的自行查詢場景。
當然,因為表或者欄位的展示格式都是固定的,因此搜索的結果可以做到非常的美觀,配合手工打上的標簽,90%以上的場景都可以支持用戶自定義查詢。
總結一下,資產的導航,適合以「類目」的方式進行組織,以搜索的方式配合使用,展示的介面以樹形最佳,配合標簽等個性化的內容,可以最大程度上滿足查詢訴求。
當用戶查詢到需要使用的數據時,下一步便是如何獲取和使用數據。在通常的技術場景下,研發的同學只需要申請對應的表許可權既可以獲得。
但現在是有三種情況,我們需要分別看獲取的方式:
一種是這種數據不適合直接開放底表,因為許可權隔離的緣故,不能把所有許可權開放出去,這時候就需要有資產分離的功能,也就是根據適用范圍申請數據;
一種是非技術的同學申請,通常直接給一個表也是不知道怎麼用的,可能給一個數據看板,或者是申請一個數據集,更合適一些,非研發的同學,可以使用報表工具自行配置。當然這種場景可以支持的數據查詢能力會比較有限,需要盡可能的將報表的門戶建設做好之後,再開放出去;
一種是有明確數據安全場景的訴求,比如最近剛出台的「個保法」,對於用戶隱私的數據監管非常嚴格,這時候就需要配套有對應的法務審批或者是其他的數據安全介面人審批,這里的流程也是要單獨設置的。
但不論哪種方式,都少不了完善的數據使用流程,這其實是屬於「流程管理」的范疇,系統通常會默認指定審批人,但如果有特殊的需要,比如「個保法」,通常也需要能夠自行設定審批流程。
總結一下,數據的獲取,根據場景和使用人的不同,提供數據表、欄位或者是報表等多種方式,同時要配合有相應的許可權審批和資產分離的功能。
數據的治理也是一項比較重要但繁瑣的工作。因為數據資產的錄入,通常是人來維護的,那麼相同的指標,錄入多次的時候,用戶以哪次為准呢?這就是最典型維護難題,因此,在錄入或者自動更新數據的時候,提供一些提示性的功能,或者通過「精品」、「臨時」等標簽予以區分,也是一種可行的思路。
因而,通常情況下,技術提供的公共資產,一般以公共層的數據為准,只有明確使用場景的情況下,ADS才會被提供出來。
接下來,就是針對龐大的數據資產,構建自動化的診斷和分析功能了,關於如何用數據來治理資產,參考個人之前的文章《數據資產治理概要:用數據來治理數據》。標准化的治理之前,通常需要有全局的數據資產視圖,才能制定出明確的目標、范圍和結果。
最後,數據資產的使用,通常也是需要有穩定性的治理,比如每個表或者某一份數據,更新的頻率、每次更新的時間等,都需要有說明提供給使用者,而開發來維護顯然是不現實的,因此通過監控Hadoop集群的運行結果來自動更新,就是一種不錯的方法。同時,一些執行明顯偏慢但又使用者非常多的數據,也可以有相應的預警郵件提供給使用者。
數據資產的管理,底層也是基於數倉建模、數據平台、元數據標准、質量監控等基礎的機制,配合組織的審批、管理等標准,最終才能服務於頂層戰略。