⑴ 數據治理的概念、難點和最佳實踐方法
從信息化到數字化,我們見證了互聯網對社會和個人的深刻影響。隨著新技術、新理念的不斷推出,數字化轉型則在這兩年強勢興起,逐漸改變著企業和市場的格局。而數據正驅動業務轉型、組織變革。企業由信息化向數字化轉型,是順應大勢,順勢而為才能借東風之勢。
數字化轉型的目的和核心是數據賦能業務,通過智能數據歸一、數據統一治理與服務、數據實體化融合、數據資產化的方式,幫助實現業務轉型、創新和增長。而我們的基石就是高質量數據。
一、數據治理的概念是什麼?
數據治理(Data Governance)是組織中涉及數據使用的一整套管理行為。由企業數據治理部門發起並推行,關於如何制定和實施針對整個企業內部數據的商業應用和技術管理的一系列政策和流程。
國際數據管理協會給出的定義:數據治理是對數據資產管理行使權力和控制的活動集合。
用3W來解釋:
WHO:面向董事會治理層、高管層的標准、任何類型的組織
WHAT:通過一系列原則,指導當前和將來使用的創建、收集、存儲、分發、共享的數據,並依賴數據決策,影響相關管理過程。發揮數據價值、減少數據風險
WHY:良好的數據治理有助於領導層確保數據在整個組織通過以下方面對組織的績效作出積極的貢獻
二、數據治理能解決什麼問題?
政府、企業想要釋放數據的強大力量,必須提供准確、可靠、及時的數據。睿治幫助政府和企業有效管理數據,以避免因數據價值得不到很好體現而對政府和企業造成負面影響,進而幫助企業提高競爭力,為政府和企業提供更優質、更及時、更完整的數據,讓其在政務管理和經營市場中脫穎而出。
制定統一標准:幫助政府和企業建設數據標准,制定統一標准
挖掘數據價值:幫助企業和政府梳理資源,形成數據資產,豐富分析應用全面掌控數據來龍去脈,以獲得更多的數據洞察力,進而挖掘出隱藏在資源中的價值。
控數據質量:幫助企業和政府建立數據質量管理體系,對數據質量實時監控,及時整改,全面提升政府和企業數據的完整性、准確性、及時性,減少因數據不可靠導致的決策偏差攻損失。
提升信息服務水準:幫助政府和企業制定相關流程、政策、標准,保證信息的可用性、可獲取性、優質性、一致性以及安全性,提升信息服務水準。
降低數據安全風險:提升政府和企業數據資產安全性,並幫助建立相關安全規范和響應機制,全面保障其數據安全
數據治理最佳實踐路徑。
三、數據治理的實踐方法
數據治理是一個長期的過程,涉及到企業中所有跨功能和跨業務的決策機制。業界也有這么一個說法:數據治理即是管理問題,也是技術問題。
在管理角度,數據治理是一個至上而下的過程,需要企業高層從全局角度出發制定戰略規劃,規范數據從業務輸入到戰略管理過程的全流程治理;
在技術落地層面,需要自下向上推進,從實際內容來看,數據治理是一套工具集。目前業界還缺乏通用、有效的數據融合治理與數據質量管理的工具。
俗話說,工欲善其事,必先利其器。億信華辰基於以上視角,結合十幾年大數據技術經驗,打造了智能數據治理平台——睿治,去幫助企業規范的定義與加工數據、清晰的管理數據、安全的應用數據。
睿治數據治理平台是一套完善、通用的的數據治理工具,融合數據集成、數據交換、實時計算存儲、元數據管理、數據標准管理、數據質量管理、主數據管理、數據資產管理、數據安全管理、數據生命周期管理十大產品模塊,可幫助企業實現數據的融合治理與數據質量管理。
睿治平台十大功能模塊可基於政企用戶不盡相同的發展現狀,選擇性組合使用,快速匹配數據治理的各類場景應用,突破數據治理的技術基礎門檻。
⑵ 數據治理十步法
以下文章來源於談數據 ,作者石秀峰
1、找症狀,明確目標
任何企業實施數據治理都不是為了治理數據而治理數據,其背後都是管理和業務目標的驅動。企業中普遍存在的數據質量問題有:數據不一致、數據重復、數據不準確、數據不完整、數據關系混亂、數據不及時等。
由於這些數據問題的存在對業務的開展和業務部門之間的溝通造成了較大的困擾,產生了很大的成本;各異構的系統中數據不一致,導致業務系統之間的應用集成無法開展;數據質量差無法支撐數據分析,分析結果與實際偏差較大。然而要實現數據驅動管理、數據驅動業務的目標,沒有高質量的數據支撐是行不通的。
目標:企業實施數據治理的第一步,就是要明確數據治理的目標,理清數據治理的關鍵點。
技術工具:實地調研、高層訪談、組織架構圖。
輸入:企業數據戰略規劃,亟待解決的業務問題,經營發展需求,業務需求等;
輸出:數據治理的初步溝通方案,項目任務書,工作計劃表;
2、理數據,現狀分析
針對企業數據治理所處的內外部環境,從組織、人員、流程、數據四個方面入手,進行數據治理現狀的分析。
某企業數據治理痛點分析
組織方面:是否有專業的數據治理組織,是否明確崗位職責和分工。
人員方面:數據人才的資源配置情況,包括數據標准化人員、數據建模人員,數據分析人員,數據開發人員等,以及數據人才的佔比情況。
流程方面:數據管理的現狀,是否有歸口管理部門,是否有數據管理的流程、流程各環節的數據控制情況等;
數據方面:梳理數據質量問題列表,例如:數據不一致問題,數據不完整,數據不準確、數據不真實、數據不及時、數據關系混亂,以及數據的隱私與安全問題等。
目標:分析企業數據管理和數據質量的現狀,確定初步數據治理成熟度評估方案。
技術工具:實地訪談、調研表、數據質量問題評議表、關鍵數據識別方法論(例如:主數據特徵識別法);
輸入:需求及現狀調研表、訪談記錄、數據樣本、數據架構、數據管理制度和流程文件;
輸出:數據問題列表、數據U/C矩陣、數據治理現狀分析報告、數據治理評估方案;
3、數據治理成熟度評估
數據治理成熟度反映了組織進行數據治理所具備的條件和水平,包括元數據管理、數據質量管理、業務流程整合、主數據管理和信息生命周期管理。
CMMI DMM數據管理能力成熟度評估模型
數據治理成熟度評估是利用標準的成熟度評估工具結合行業最佳實踐,針對企業的數據治理現狀進行的客觀評價和打分,找到企業數據治理的短板,以便制定切實可行的行動方案。數據治理成熟度結束後形成初步的行動方案,一般包括數據治理戰略,數據治理指標,數據治理規則,數據治理權責。數據治理願景和使命是數據治理的整體目標;數據治理指標定義了數據治理目標的衡量方法;數據治理規則和定義包括與數據相關的政策、標准、合規要求、業務規則和數據定義等;權利和職責規定了由誰來負責制訂數據相關的決策、何時實施、如何實施,以及組織和個人在數據治理策略中該做什麼。
目標:結合業界標準的數據治理成熟度模型,根據企業管理和業務需求進行數據治理成熟的評估,形成初步的數據治理策略和行動路線。
技術工具:數據治理評估模型,例如:DCMM,CMMI DMM,IBM數據治理成熟度評估模型等;
輸入:第2步的輸入以及數據治理評估模型、數據治理評估工具(評估指標、打分表等);
輸出:數據治理評估結果,數據治理策略,初步的行動方案;
4、數據質量問題根因分析
數據治理的目的是解決數據質量問題提升數據質量,從而為數據驅動的數字化企業提供源動力,而提到數據質量問題,做過BI、數倉的同學一定知道,這是一個技術和業務「經常打架」相互推諉的問題。
某企業數據問題根因分析魚骨圖
產生數據質量問題的原因有很多,有業務方面的、有管理方面的、也有技術方面的,按照80/20法則,80%的問題是由20%的原因造成起的。所以,如果能夠解決這20%的問題,就能得到80%的改進。
目標:分析並找到數據質量問題產生的根本原因,制定行之有效的解決方案;
技術工具:頭腦風暴、5W1H、SWOT、因果(魚刺)圖、帕拉圖等;
輸入:數據問題列表、數據U/C矩陣、數據治理現狀分析報告、數據治理評估結果;
輸出:數據質量評估結果、對業務的潛在影響和根本原因。
5、業務影響及實施優先順序評估
通過數據治理成熟度評估,從組織、流程、制度、人員、技術等方面找到企業在數據治理的待提升的領域和環節,再通過數據質量根因分析找到數據質量問題發生的根本原因,進一步明確了數據治理的目標和內容。再接下來,就需要確定數據治理策略,定義數據治理的實施優先順序。
某企業主數據治理實施優先順序評估
不同的數據治理領域解決的是不同的問題,而數據治理的每個領域都有它的實施難點,對企業來說,需要從業務的影響程度,問題的緊急程度、實施的難易程度等多個維度進行分析和權衡,從而找到符合企業需求並滿足企業發展的方案。
目標:確定數據治理核心領域和支撐體系的建設/實施優先順序;
技術工具:四象限法則(分別從業務影響程度/實施難以程度,問題重要程度/問題緊急程度繪制優先順序矩陣)、KANO模型
輸入:數據治理成熟度能力評估結果、數據質量問題根因分析結果;
輸出:數據治理實施優先順序策略
6、制定數據治理行動路線和計劃
路線圖是使用特定技術方案幫助達到短期或者長期目標的計劃,用於新產品、項目或技術領域的開發,是指應用簡潔的圖形、表格、文字等形式描述技術變化的步驟或技術相關環節之間的邏輯關系。路線圖是一種目標計劃,就是把未來計劃要做的事列出來,直至達到某一個目標,就好像沿著地圖路線一步一步找到終點一樣,故稱路線圖。
某企業數據治理實施路線圖
企業數據治理的實施路線圖的制定是以企業數據戰略——願景和使命為綱領,以急用優先為原則,以分步實施為策略進行了整體設計和規劃。實施路線圖主要包含的內容:分幾個階段實施,每個階段的目標、工作內容、時間節點要求、環境條件等。筆者觀點:任何一個企業的數據治理都不是一蹴而就,一步到位的,需要循序漸進、持續優化!實施路線圖就是基於此產生的,因此說數據治理實施路線圖也是說服利益相關者支持的一個重要手段。
目標:確定數據治理的階段以及每個階段的目標;
技術工具:路線圖法
輸入:數據治理成熟度能力評估結果、業務影響及實施優先順序評估結果;
輸出:數據治理實施路線圖或稱階段目標計劃
7、制定數據治理詳細實施方案
數據治理詳細實施方案是用於指導主數據的各項實施工作,一般包括:數據治理核心領域、數據治理支撐體系、數據治理項目管理三個方面。
數據治理總體框架圖
數據治理核心領域包括:數據架構、數據服務、元數據管理、數據質量管理、數據標准管理、主數據管理、數據安全管理、數據生命周期管理。
數據治理支撐體系包括:組織(組織架構、組織層次、崗位職責)、制度(管控模式、規章制度、考核機制)、流程(歸口部門、管理流程、流程任務等)、技術(數據集成、數據清洗、數據開發、數據應用、數據運營、支撐平台、實施方案等)。
數據治理項目管理方案包括:項目組隊、項目計劃、質量保證計劃、配置管理計劃、培訓和售後等。
關於數據治理的核心領域,詳見筆者之前分享的數據治理框架解讀系列文章。
關於數據治理的支撐體系,詳見筆者之前分享的數據治理成功關鍵要素系列文章。
目標:基於數據質量根因分析、業務影響和實施優先順序評估結果,制定詳細實施方案;
輸入:業務影響及實施優先順序評估結果,行動路線和計劃;
輸出:數據治理詳細實施方案。
8、數據治理實施過程式控制制
數據治理實施過程式控制制是對數據治理項目的范圍控制、進度控制、質量控制和成本控制,通過對企業的各項資源的合理協調與利用,而達成的數據治理目標的各種措施。從項目管理的角度來講也是項目管理的黃金三角:范圍、時間、質量、成本。
任何項目的質量和進度是需要良好的項目管理來保證的,數據治理也一樣。與傳統的軟體工程項目不同,數據治理項目有著范圍邊界模糊、影響范圍廣、短期難見效、實施周期長等特點:
①范圍邊界模糊,數據治理涉及到的關鍵領域如元數據管理、數據質量管理、數據標准管理、主數據管理等很多是存在交叉的,邊界很難界定,例如:實施數據質量管理項目,會涉及元數據管理、數據標准管理等,同樣一個元數據管理項目也會涉及數據標准和數據質量。
②影響范圍廣,數據治理的實施不是一個部門能夠完成的,是需要從高級管理層、到各業務部門、信息部門通力協作,共同完成的;
③短期難見效,數據治理項目實施完成後,其數據治理的效果被每個業務點滴操作所「稀釋」,並不像其他項目,例如BI,那樣明顯的體現出來,所以主導數據治理的部門會經常遭到質疑。
④實施周期長,在沒有清晰的數據治理目標和范圍約定的情況下,數據治理是一個「無底洞」。所以,在實施數據治理項目之前制定好實施路線圖和詳細的實施方案就顯得格外重要(第6、7步)。
目標:通過對數據治理項目實施過程的進度控制、質量控制和成本控制以實現數據治理的目標;
技術工具:PP(項目計劃)、PMC(項目控制)、IPM(集成項目管理)、RSKM(風險管理)——CMMI過程域;
輸入:6-7步的輸出:數據治理實施路線圖,數據治理詳細實施方案;
輸出:各項項目控制措施,例如:項目計劃、SOW、項目風險列表、項目報告、項目總結等;
9、監控評估數據治理實施效果
隨著大數據技術的不斷發展,應當從企業的全局數據治理環境的角度,明確數據治理關鍵技術運用及其標准規范,構建成效評估指標體系,進行治理效果評價;並運用數據治理能力成熟度模型再次評估,界定數據管理層次,從而使得跨系統、跨業務、跨部門的數據治理體系的建設與實施能夠通過各方協作順利進行,實現卓越數據治理,進而通過數據驅動業務、數據驅動管理和運營以實現企業的降本、增效、提質、創新。
某企業數據治理看板(數據已脫敏)
數據治理成效評估指標體系應根據企業及數據治理項目的實際情況制定,一般包括:時間性、數量性、完整性、准確性四個維度。
①時間性即數據的及時性。該維度主要通過源業務系統數據接入的上報及時性、接入及時性等方面進行核對。通過分析月指標、周指標、日指標的數據及時率,得出在規定時間和頻度周期內接入系統的比例,以此反映數據接入及時性。
②數量性。該維度是從數據存量,數據增量,數據訪問量,數據交換量、數據使用量等指標反映數據的使用情況,可以分為月度指標、周指標、日指標、時分指標等。
③准確性。這個維度主要由各類數據中邏輯的准確性、數據值的准確性、數據頻段和欄位之間的准確性以及數據的精度等內容組成。該准確率同樣包括:月度、每周、每日等准確率指標。
④完整性。此維度主要以單元維度完整性、數據業務維度組合完整性、索引值完整性等不同方面進行核對,是驗證數據質量完整性的主要組成部分,包括月度指標、周指標、日指標數據的完整性等內容。
目標:檢驗各項數據治理指標的落實情況,查漏補缺,夯實數據治理效果;
技術工具:數據治理效果的評價指標體系、各種數據圖表工具;
輸入:數據治理效果評估指標;
輸出:數據治理評估的月報、周報、日報等;
10、數據治理持續改進
數據治理模式應業務化、常態化,不應是一個項目、「一陣風」的模式。
圖片源自互聯網
數據治理工作應向企業生產、銷售業務一樣作為一項重點的業務工作來開展,構建專業的數據治理組織,設置合適的崗位權責,建立相應的管理流程和制度,讓數據標准貫徹到每個業務環節,形成一種常態的工作。在筆者看來,在數據源頭加強企業數據的治理,讓常態化治理成為日常業務,才能從根本上徹底解決企業數據質量的各種問題,讓數據真正轉化為企業資產,以實現數據驅動流程優化、數據驅動業務創新、數據驅動管理決策的目標。
目標:數據治理常態化,持續提升數據質量,驅動流程優化和管理創新。
輸入:持續的、規范的、標準的各項業務操作;數據治理監控的各項指標和報告;
輸出:持續輸出的高質量的數據;
博主觀點:原理大家都懂,實踐時困難重重。在專家的指導下,應用適當的工具可讓理論轉化為現實。華矩科技,專業的數據治理服務與技術提供商。
⑶ 大數據時代如何做好數據治理
企業數據分析系統的數據來源是各個業務系統或手工數據,這些數據的格式、內容等都有可能不同。如果不進行數據治理,數據的價值難以發揮。只有對數據標准進行規范,管理元數據、數據監控等,才能得到高質量的數據。得到規范的數據後,才可在此基礎上進行主題化的數據建模、數據挖掘、數據分析等。
2013年被眾多的IT人定義為中國的大數據元年,這一年國內的大數據項目開始在交通、電信、金融部門被廣泛推動。各大銀行對Hadoop的規劃、POC尤其風生水起,帶動了一波大數據應用的熱潮,這個熱潮和當初數據倉庫進入中國時的2000年左右很相似:應用還沒有想好,先歸集一下數據,提供一些查詢和報表,以技術建設為主,業務推動為輔。這就導致了這股Hadoop熱潮起來的時候,傳統企業都是以數據歸集為主的,而BAT這樣的企業則天生以數據為生,早早進入了數據驅動技術和業務創新的階段。
隨著Hadoop技術的提升,數據如何進來,如何整合,開展什麼樣的應用都已經有了成熟的案例,可是,同傳統數倉時代一樣,垃圾進垃圾出,如何破?相比傳統數倉時代,進入Hadoop集群的數據更加的多樣、更加的復雜、量更足,這個數倉時代都沒有處理好的事情,如何能夠在大數據時代處理好,這是所有大數據應用者最最期盼的改變,也是大數據平台建設者最有挑戰的難題:數據治理難的不是技術,而是流程,是協同,是管理。 睿治數據治理平台平台架構
元數據:採集匯總企業系統數據屬性的信息,幫助各行各業用戶獲得更好的數據洞察力,通過元數據之間的關系和影響挖掘隱藏在資源中的價值。
數據標准:對分散在各系統中的數據提供一套統一的數據命名、數據定義、數據類型、賦值規則等的定義基準,並通過標准評估確保數據在復雜數據環境中維持企業數據模型的一致性、規范性,從源頭確保數據的正確性及質量,並可以提升開發和數據管理的一貫性和效率性。
數據質量:有效識別各類數據質量問題,建立數據監管,形成數據質量管理體系,監控並揭示數據質量問題,提供問題明細查詢和質量改進建議,全面提升數據的完整性、准確性、及時性,一致性以及合法性,降低數據管理成本,減少因數據不可靠導致的決策偏差和損失。
數據集成:可對數據進行清洗、轉換、整合、模型管理等處理工作。既可以用於問題數據的修正,也可以用於為數據應用提供可靠的數據模型。
主數據:幫助企業創建並維護內部共享數據的單一視圖,從而提高數據質量,統一商業實體定義,簡化改進商業流程並提高業務的響應速度。
數據資產:匯集企業所有能夠產生價值的數據資源,為用戶提供資產視圖,快速了解企業資產,發現不良資產,為管理員提供決策依據,提升數據資產的價值。
數據交換:用於實現不同機構不同系統之間進行數據或者文件的傳輸和共享,提高信息資源的利用率,保證了分布在異構系統之間的信息的互聯互通,完成數據的收集、集中、處理、分發、載入、傳輸,構造統一的數據及文件的傳輸交換。
生命周期:管理數據生老病死,建立數據自動歸檔和銷毀,全面監控展現數據的生命過程。
數據安全:提供數據加密、脫敏、模糊化處理、賬號監控等各種數據安全策略,確保數據在使用過程中有恰當的認證、授權、訪問和審計等措施。
建立完整的、科學的、安全的、高質量的數據管控技術體系,是首要的任務。作為數據管控的基石,為了更好支撐後續工作的開展,技術體系必須一步到位,是功能完備、高質量、高擴展性的,而不是僅實現部分功能,或者功能不完善的「半成品」。
疊加更多業務數據、細化數據業務屬性與管理屬性、優化與調整數據管控流程,尤其是適應未來的現代企業數據管控制度的建立完善,是逐步積累推廣、不斷磨合改進的長期過程。這些工作應及早啟動,並成為後續大數據平台建設工作的重點。
談大數據時代的數據治理 當前要做的是功能框架的完善,而完善的著力點則是「數據資產目錄」:用資產化的視角來管理一個企業的數據,只有把數據作為資產來認識和管理,大數據項目才能達成預期,也能夠治理好。大數據時代帶來的價值,個人認為主要有兩個,一個是技術架構,主要是架構理念的進步,另外一個更重要的則是對數據的重視。大數據時代是數據的時代,IT向DT轉型,不單單是BAT,所有的IT公司,未來都在數據這兩個字上。
對於一個企業來說,把數據作為資產,才是建設大數據的最終目的,而不是僅僅是因為Hadoop架構帶來性價比和未來的擴展性。當一個企業把數據作為資產,他就像管理自己名下存摺、信用卡一樣,定期梳理,無時無刻不關心資產的變化情況,關注資產的質量。
而資產目錄就是管理資產的形式和手段,他像菜單一樣對企業的資產進行梳理、分門別類,提供給使用者;使用者通過菜單,點選自己需要的數據,認可菜單對應的後端處理價值,後廚通過適當的加工,推出相應的數據服務;這是一個標準的流程,而這些流程之上,附著一整套數據管理目標和流程。
大數據平台以數據資產目錄為核心,將元數據、數據標准、主數據、數據質量、數據生命周期、數據輪廓等信息在邏輯層面關聯起來,在管理層面上整合成統一的整體,構建起數據管理體系,全面的支持數據服務等具體應用。
大數據平台實現了數據存儲、清洗和應用。在數據匯入和匯出的過程中,需要對數據的元數據進行統一記錄和管理,以利於後續的數據應用和數據血緣分析。數據質量一直是數據集成系統的基礎工作,對數據的各個環節設置數據質量檢查點,對數據質量進行剖析、評估,以保證後續應用的可信度。
在數據收集的過程中,隨著數據維度、指標的聚集,如何找到所需的業務指標及屬性,並且評估相關屬性的業務及技術細節,需要對收集的所有數據進行業務屬性,並進行分類,建立完善的數據資產目錄。
數據資產目錄是整個大數據平台的數據管理基礎,而數據資產目錄由於數據的多樣性,在使用的過程中,必然涉及數據許可權的申請、審批管控流程,而管控流程的建立依賴於相應崗位的設立和對應職責的建立。
大數據平台的數據管理架構規劃,通過數據物理集中和數據邏輯整合,徹底擺脫企業「數據豎井」的困境。大數據平台數據管理架構分為功能架構、流向規劃和數據架構三個層面。
數據管理功能架構:借鑒DAMA數據管理和DMM數據成熟度理論,著眼於數據管理技術和數據管理流程融合,組織數據管理功能。
數據流向規劃架構:規劃整個大數據平台的數據流向,並在數據流入、數據整合、數據服務的具體環節實現精細化管理。
數據管理的數據架構:以數據資產目錄為核心,數據項為最小管理單元,將技術元數據(實體、屬性和關系)、業務元數據和管理元數據(數據標准、主數據、數據質量、數據安全)融合為彼此緊密聯系、密不可分的整體,共同構成精細化管理的數據基礎。
數據管理在整個大數據平台不僅僅是一個主要功能模塊,它還是整個企業層面數據治理的重要組成部分,它是技術和管理流程的融合,也需要合理管控流程框架下組織機構之前的協調合作。如何利用統一的數據管理模塊對企業所有進入到數據湖的數據進行有效管控,不單單取決於數據管理模塊本身,也取決於元數據的合理採集、維護,組織結構及制度的強力支持保證。
談大數據時代的數據治理 大數據平台數據管理參照了DAMA對於數據管理的九個管理目標,並進行裁剪,並對部分管理目標進行了合並,並參照了CMMI制定DMM數據成熟度目標,採用循序漸進,逐步完善的策略對管理目標進行分階段完成,制定完整的管控流程和數據治理規范,以便持續的對數據進行管理,遞進實現DMM定義的成熟度目標。
億信睿治數據治理管理平台和DAMA的對應關系如下:
談大數據時代的數據治理 大數據平台數據管理的核心內容是數據資產目錄,圍繞數據資產目錄的數據流入、數據整合、數據服務都是數據管理的核心。數據管理主要管理數據的流動,以及管理流動帶來的數據變化,並對數據底層的數據結構、數據定義、業務邏輯進行採集和管理,以利於當前和未來的數據使用。為了更好的對數據進行管理和使用,制度層面的建設、流程的設立必不可少,同時也兼顧到數據在流動過程中產生的安全風險和數據隱私風險。
因此數據管理介入到完整的數據流轉,並在每個節點都有相應的管理目標對應,整個數據流框架如下圖所示:
談大數據時代的數據治理 企業在建制大數據平台的同時,對進入數據湖的數據進行梳理,並按照數據資產目錄的形式對外發布。在發布數據資產之後,則對進出數據湖的數據進行嚴格的出入庫管理,保證數據可信度,並定期進行數據質量剖析檢查,確保數據資產完善、安全、可信,避免「不治理便破產」的讖言。
⑷ 如何成功實現數據治理
隨著信息技術的飛速發展,各領域的數據量都在爆發式增長,尤其在雲計算、物聯網、移動互聯網等it技術得到廣泛應用之後,數據的增長實現了從量變到質變的轉型,大數據如浪潮般席捲而來,人類社會進入大數據時代。大數據不僅僅只是一次顛覆性的技術革命,更是一場思維方式、行為模式與治理理念的全方位變革,尤其在治理領域,大數據帶來了巨大的變革潛力和創新空間。在「全面深化改革,推進國家治理體系和治理能力現代化」的時代背景下,應充分重視大數據在治理中的重要價值,牢牢抓住大數據為治理提供的創新機遇,切實提高各級部門的治理能力。
一、大數據為治理理念轉型帶來新機遇
治理理念的轉型是提升治理能力的前提,理念的轉型需要新文化、新思維的融入,大數據所蘊含的數據文化與數據思維恰好可以為治理理念轉型提供突破口,基於大數據探索治理的多元、多層、多角度特徵,最終實現以為主體的管制理念向以協同共治、公共服務為導向的治理理念的轉型。在大數據時代,治理的依據不再是個人經驗和長官意志,而是實實在在的數據,在過去深入群眾、實地調研考察的基礎上,系統採集的客觀數據和實證分析的科學結果將成為最為重要的決策依據。「尊重事實、推崇理性、強調精確」的特徵和「用數據說話、用數據決策、用數據管理、用數據創新」的理念將成為治理理念轉型的核心要義。
二、大數據為治理模式創新帶來新機遇
大數據通過把數學演算法運用於海量數據,從數據中尋找相關關系,通過這種相關性預測事情發生的可能性,這是大數據方法論的核心思想。此外,依託於大數據技術和,通過、眾包等靈活的組織方式,可以推動治理的組織架構從科層、分割、封閉向開放、協同、合作轉型,因此把大數據的方法和手段引入到治理領域,是實現治理模式創新的有效路徑。基於上述方法論,大數據為治理模式創新帶來的新機遇主要包括:從粗放式管理到精細化治理、從單兵作戰型管理到協作共享型治理、從被動響應型管理到主動預見型治理、從電子政務管理到2.0治理、從風險隱蔽型管理到風險防範型治理,最終實現全面數據驅動的治理模式創新。
三、大數據為決策科學化帶來新機遇
隨著公共事務的日益復雜,僅憑個人感知已經很難全面了解所有正在發生的事情並做出正確判斷,部門想要提高決策的科學性,就需要把大數據思維與技術運用到治理與決策中,依靠大規模數據的收集來直觀呈現經濟社會運行規律,通過相應的數據挖掘來輔助部門進行科學決策。大數據為決策科學化帶來的機遇主要體現在兩個方面:首先,在決策的制定階段,大數據背景下,決策不再是個別領導幹部「拍腦袋」做出的,而是通過「用數據說話」,讓聽得見炮火的人(數據)做出決策,這樣的決策是在對客觀數據進行科學分析、充分了解客觀現實的基礎上做出的,這樣大大提高了決策的精準性、適用性和科學化水平;其次,在決策實施效果的跟蹤反饋階段,通過物聯網和社交網路的普及,大量的客觀數據能夠快速匯集給決策者,通過這些數據對決策的實施過程和效果進行實時監控,能夠更全面地掌握決策的實施效果和下一步的改進方向。
四、大數據為服務效能提升帶來新機遇
提升服務效能是治理能力提升的重要支撐,也是大數據背景下服務型建設的關鍵所在,在治理的范疇下,提升服務效能主要包括部門行政審批的效率提升和公共服務產品的質量提高兩個方面。在提升行政審批效率方面,大數據可以打通各個部門的信息孤島,打破各部門數據的條塊分割,通過構建統一的行政審批雲,讓數據為老百姓「跑腿辦事」,省去了「跑斷腿、磨破嘴,辦事跑十幾個部門,蓋幾十個公章」的苦惱和無奈,這樣既提高了行政審批效率,又節約了開支。在提高公共服務產品質量方面,大數據通過對公共服務產品數據和服務對象數據的挖掘、分析,提升公共服務產品供給的精準化、分層化、個性化;通過公共數據的開放和兼容,讓公眾參與到公共服務產品設計、提供和監督等各個環節,實現公共服務產品質量的提高。
⑸ 如何有效的進行數據治理和數據管控
大數據時代的到來,讓政府、企業看到了數據資產的價值,並快速開始 探索 應用場景和商業模式、建設技術平台。但是,如果在大數據拼圖中遺忘了數據治理,那麼做再多的業務和技術投入也是徒勞的,因為很經典的一句話:Garbage in Garbage out。
當你處理或使用過大量數據,那麼對「數據治理」這個詞你一定不會陌生。你會思考數據治理是什麼?數據治理是否適合你?如何實施。簡單來說,數據治理就是處理數據的策略——如何收集、驗證、存儲、訪問、保護和使用數據。數據治理也還包括誰來查看,使用,共享你的數據。
隨著大數據時代的推進,以上這些問題日益突出,越來越多的企業依賴採集、治理、儲存和分析數據,並實現他們的商業目標。數據變成了企業的盈利工具、業務媒介和商業機密。數據泄露會導致法律糾紛,還會令消費者對公司的核心業務失去信心。
如果抱著僥幸的心理,讓各個業務部門自己管理數據,那麼你會缺乏有效的數據管理,甚至各部門會自己做自己的。你無法想像各個部門按隨心所欲地自己生產、儲存、銷售產品。數據使用不當就像庫存使用不當一樣,會給企業造成沉重的損失。因此必須制定一項測量用以保證所需數據的有效和安全,可用性,這就是我們要談的「數據治理」。
數據治理策略必須包含完整的數據生命周期。策略必須包含從數據採集、清洗到管理,在這個生命周期內,數據治理必須要有關注以下內容:
數據從哪裡來,數據怎麼來
這是數據生命周期的起點。數據來源決定了數據治理策略的基礎。例如數據集的大小就由數據來源所決定。是從目標市場、現存用戶和社交媒體收集數據?還是使用第三方收集數據或者分析你收集的數據?輸入數據流是什麼?數據治理必須關注這些問題,並制定策略來管理數據的採集,引導第三方處理他們收集的數據或者分析你收集的數據,控制數據的路徑和生命周期。
數據校驗
通常數據源都是非常龐大且多樣的,這是一個讓數據管理者非常頭疼的問題。將數據噪音和重要數據進行區分僅僅只是開始,如果你正從關聯公司收集數據,你必須確保數據是可靠的,對於那些幾萬、幾十萬、甚至成百上千萬的復雜關系數據,單靠人為的通過Excel對進行數據清洗已經不太現實,需要專業的數據清洗工具或系統對海量復雜關系數據進行批量查詢、替換、糾正、豐富以及存儲。將元數據、主數據、交易數據、參考數據以及數據標准內置固化到數據清洗工具或系統中,結合組織架構、內容管控、過程管控等管理機制、技術標准提高數據治理人員的工作效率。比如:需要手工編寫程序收集的元數據,系統幫你自動獲取;需要人工識別或編寫代碼實現的數據質量檢查,系統幫你自動識別問題;用文檔管理的數據字典,系統幫你在線管理;基於郵件和線下的流程,系統幫你線上自動化。當然,系統並不是萬能的,數據治理的軟體工具與其他軟體工具一樣,沒有什麼神奇之處,沒有數據治理人員的參與和數據治理工作的推進,軟體再完美也無法完成數據治理整個過程。這也是為什麼數據治理咨詢服務一直有其市場,以及為什麼國內大部分單純數據治理軟體項目未能達到預期目標。
數據治理必須解決存儲問題
而數據存儲和數據集的大小有密切關系。大數據的存儲必須是在安全的冗餘系統之中。常常利用層次體系,根據使用頻率來存儲數據。這樣一來,昂貴的在線系統提供的是被頻繁請求的數據,而請求頻率較低的數據則存儲在便宜,可用率較低的系統上。當然,一些請求頻率低但是敏感的數據如果存儲於安全性較低的系統上,風險會大大提升。因此,在制定數據存儲方案時,良好的數據治理策略必須考慮到方方面面的因素。
數據治理必須建立訪問管理制度,在需求和安全性找到平衡點
明確訪問者的許可權,只能訪問他們對應許可權包含的數據。只有合法請求才能夠訪問數據,而敏感的數據需要更高的許可權和更嚴密的驗證才可以被訪問。只向具有特定安全級別的用戶開放。應該對用戶和數據本身設置訪問級別,管理賬戶時,應與人力資源部和采購部緊密互動,這一點非常重要,因為這樣可以及時地使離職員工和停止合作的供應商不再擁有訪問許可權。處理好這些細節以及確保數據所有權和責任,這是構成完整的數據治理策略的一部分。
數據的使用/共享/分析
如何使用數據是數據治理之後一項重要的內容,數據可能會用於客戶管理,提高客戶體驗,投放定向廣告,用戶應用系統初始化基礎數據工作,輔助應用系統建設,提供市場分析和關聯公司共享數據。必須仔細界定哪些數據可用於共享或者用於營銷,並保護它們免遭攻擊和泄露,因為數據本來就應該被用於純粹的內部用途。讓用戶知悉採集數據的所有公司都會遵守數據安全和保證的規定。能夠確保數據被合理合規的使用,也是數據治理重要的一項內容。
收集、驗證、存儲、訪問和使用都是數據安全計劃的必要組成部分
收集、驗證、存儲、訪問和使用都是數據安全計劃的必要組成部分,必須要有一個全面的策略來解決這些問題以及其他安全問題。數據安全計劃必須是有效且可用性高,但是數據生命周期的所有部分都很容易受到攻擊和由於粗心造成的破壞。你必須在數據治理中確定數據安全計劃,包括訪問控制,靜態數據,數據加工,數據傳輸之後的加密等。
管理/元數據
沒有管理的數據生命周期是不完整的。例如,將元數據應用於一段數據,用來進行識別檢索。元數據包含數據的來源,採集或生成的日期,信息訪問的級別,語義分類及其他企業所必須的信息。數據治理能建立一個元數據詞彙表,界定數據的有效期。請注意數據也會過期,過期之後我們只能用於 歷史 數據的分析。
數據治理創建的過程中可能會在企業內部遭到一些阻力,比如有的人會害怕失去訪問數據的許可權,而有些人也不願意和競爭者共享數據。數據治理政策需要解決上述問題,讓各方面的人都可接受。習慣了數據筒倉環境的公司,在適應新的數據治理策略上面會有困難,但如今對大型數據集的依賴以及隨之而來的諸多安全問題,使創建和實施覆蓋全公司的數據策略成為一種必然。
數據日益成為企業基礎設施的一部分,在企業一步步處理各種特定情況的過程中形成決策。它以一次性的方式作出,常常是對某一特定問題的回應。因此,企業處理數據的方法會因為不同部門而改變,甚至會因為部門內部的不同情況而改變。即使每個部門已經有一套合理的數據處理方案,但這些方案可能彼此沖突,企業將不得不想辦法協調。弄清數據存儲的要求和需求是一件難事,如果做得不好,就無法發揮數據在營銷和客戶維系方面的潛力,而如果發生數據泄露,你還要承擔法律責任。
另外在大企業內部,部門之間會展開對數據資源的爭奪,各部門只關注自身的業務情況,缺乏全局觀念,很難在沒有調解的情況下達成妥協。
因此公司需要一個類似數據治理委員會的機構,他的職責是執行現有數據策略、挖掘未被滿足的需求以及潛在安全問題等,創建數據治理策略,使數據的採集、管護、儲存、訪問以及使用策略均實現標准化,同時還會考慮各個部門和崗位的不同需求。平衡不同部門之間存在沖突的需求,在安全性與訪問需求之間進行協調,確保最高效、最安全的數據管理策略。
建立數據治理委員會
負責評估各個數據用戶的需求,建立覆蓋全公司的數據管理策略,滿足內部用戶、外部用戶甚至法律方面的各種需求。該委員會的成員應該囊括各個業務領域的利益相關者,確保各方需求都得到較好地滿足,所有類型的數據所有權均得到體現。委員會也需要有數據安全專家,數據安全也是重要的一環。了解數據治理委員會的目標是什麼,這一點很重要,因此,應該思考企業需要數據治理策略的原因,並清楚地加以說明。
制定數據治理的框架
這個框架要將企業內部、外部、甚至是法律層面的數據需求都納入其中。框架內的各個部分要能夠融合成一個整體,滿足收集、清洗、存儲、檢索和安全要求。為此,企業必須清楚說明其端到端數據策略,以便設計一個能夠滿足所有需求和必要操作的框架。
有計劃地把各個部分結合起來,彼此支持,這有很多好處,比如在高度安全的環境中執行檢索要求。合規性也需要專門的設計,成為框架的一部分,這樣就可以追蹤和報告監管問題。這個框架還包括日常記錄和其他安全措施,能夠對攻擊發出早期預警。在使用數據前,對其進行驗證,這也是框架的一部分。數據治理委員會應該了解框架的每個部分,明確其用途,以及它如何在數據的整個生命周期中發揮作用。
數據測試策略
通常一個數據策略需要在小規模的商用環境中進行測試,用來發現數據策略在框架,結構和計劃上的不足之處並進行調整,之後才能夠投入正式使用。
數據治理策略要與時俱進
隨著數據治理策略延伸到新的業務領域,肯定需要對策略進行調整。而且,隨著技術的發展,數據策略也應該發展,與安全形勢、數據分析方法以及數據管理工具等保持同步。
明確什麼是成功的數據策略
我們需要確立衡量數據治理是否成功的明確標准,以便衡量進展。制定數據管理目標,有助於確定成功的重要指標,進而確保數據治理策略的方向是符合企業需求。
無論企業大小,在使用數據上都面臨相似的數據挑戰。企業越大,數據越多,而數據越多,越發需要制定一個有效的,正式的數據治理策略。規模較小的企業也許只需要非正式的數據治理策略就足夠了,但這只限於那些規模很小且對數據依賴度很低的公司。即便是非正式的數據治理計劃也需要盡可能考慮數據用戶和員工數據的採集、驗證、訪問、存儲。
當企業規模擴大,數據需求跨越多個部門時,當數據系統和數據集太大,難以駕馭時,當業務發展需要企業級的策略時,或者當法律或監管提出需求時,就必須制定更為正式的數據治理策略。
⑹ 數據治理三個階段是什麼
數據治理分為四個階段:
第一階段,梳理企業信息,構建企業的數據資產庫。首先要清楚企業的數據模型、數據關系,對企業資產形成業務視圖、技術視圖等針對不同用戶視角的展示。
第二階段,建立管理流程,落地數據標准,提升數據質量。從企業角度梳理質量問題,緊抓標准落地。
第三階段,直接為用戶提供價值。本階段依賴於前兩個階段的建設,為用戶提供方便的獲取數據的途徑。
第四階段,為企業提供數據價值。通過多種手段對多種來源的數據進行分析,形成企業知識圖譜,體現數據的深層價值。
通過這4個階段的建設,建立起全企業的數據質量管控平台,以用戶為中心,由用戶使用數據並通過用戶的使用優化數據質量,既達到了數據治理的目標,也最大限度的發揮了數據的價值。
數據治理方案:
有關數據治理的問題並不能在企業的單一部門得到解決。這需要IT與業務部門進行協作,而且必須始終如一地進行協作,以改善數據的可靠性和質量,從而為關鍵業務方案提供支持,並確保遵守法規。
Informatica能夠提供企業級數據治理解決方案,該解決方案可以在本地或雲中使用,在傳統數據或大數據中均有使用案例,可以滿足業務和IT部門的需求。
Informatica可提供功能齊全而又穩健可靠的數據治理解決方案,具備交付可信、安全的數據和啟動成功的元數據管理方案所需的全部精確功能。
Informatica Axon提供端到端智能數據治理解決方案,以整體、協作的方法將員工、流程和系統流暢融合,從而實現戰略業務成果。Axon Data Governance作為協作中心,為成功實施數據治理計劃提供支持。
⑺ 數據安全治理如何開展,怎麼做
數據安全治理以「數據安全使用」為願景。圍繞這一願景,數據安全治理覆蓋了安全防護、敏感信息管理、合規三大目標;這三個目標相對於以往以黑客攻擊和滿足合規性兩大安全目標,更為全面和完善。其核心理念包括:在對數據就行有效理解和分析下,對數據進行不同類別和密級的分類分級;在對數據分類分級的基礎上,了解這些數據在被誰訪問,如何使用,從而針對不同的角色進行數據使用的授權;最後針對不同角色在不同場景下的數據使用需求,在盡可能滿足數據正常使用的目標下,完成相應的安全要求和安全工具的選擇。 通過對數據的分類分級、使用狀況梳理、訪問控制以及定期的稽核實現數據的使用安全。建議你咨詢一下北京安華金和科技有限公司。做數據安全治理很棒的一家廠家。
⑻ 如何實現成功的數據治理
從技術實施角度看,數據治理包含「理」「采」「存」「管」「用」這五個步驟,即業務和數據資源梳理、數據採集清洗、資料庫設計和存儲、數據管理、數據使用。
數據資源梳理:數據治理的第一個步驟是從業務的視角釐清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以資料庫、網頁、文件和 API 介面形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。
數據採集清洗:通過可視化的 ETL 工具將數據從來源端經過抽取 (extract)、轉換 (transform)、載入 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據。基礎數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基於業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那麼基礎庫和主題庫的建設就是在對業務理解的基礎上,基於易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基於一定的原則設計資料庫表結構,然後再根據數據資源清單設計數據採集清洗流程,將整潔干凈的數據存儲到資料庫或數據倉庫中。
元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便於業務人員也能夠理解資料庫中的數據欄位含義,並且,元數據是後面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。
血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那麼數據治理團隊需要知道業務團隊的數據來自於哪個核心庫,核心庫的數據又來自於哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。 數據資源目錄:數據資源目錄一般應用於數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基於業務場景和行業規范而創建,同時依託於元數據和基礎庫主題而實現自動化的數據申請和使用。
質量管理:數據價值的成功發掘必須依託於高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴於對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapRece,HBase 等。
商業智能(BI):數據治理的目的是使用,對於一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那麼可以使用 BI 類的產品快速獲取需要的數據,並分析形成報表,像派可數據就屬於專業的BI廠商。
數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 介面三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 介面共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 介面的形式進行了轉移。API 介面共享可以使用 API 網關實現,常見的功能是自動化的介面生成、申請審核、限流、限並發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。