1. 企業如何做好數據管理
第一、建立自己企業的內部管理區域網絡。
第二、對網路終端實行加密及管理員制度。
第三、對企業的數據中心進行加密和管理員制度,並進行重要數據的 備份工作。
第三、企業員工要有保密意識和責任。對泄露企業秘密的員工要進行處罰!
2. 面對數據治理的挑戰及難點,如何找到最佳解決辦法
一、建立數據治理計劃時,您將遇到幾個挑戰:
· 數據治理是更大的 IT治理策略的一部分。 數據與IT部門需要相互配合才能成功。
· 進行任何類型的優化都很難,讓員工關心數據治理更是難上加難。 需要激勵和動力來讓你的員工遵循新數據治理計劃。
· 數據治理工作需要靈活地適應團隊需求,並且對用戶來說必須簡單易用。 如果數據治理阻礙了政正常業務工作,則不會促進業務目標。
二、面對這些挑戰,您應該如何實施數據治理方案?
以下是8點數據治理最佳實踐方法,它們將幫助您進行數據治理。
1. 為您的數據設置格式標准, 並在後期處理和將數據提取到大數據平台中時使用技術來實施這些標准。您將要從許多不同的來源中提取數據,因此您應該對大數據系統中的數據進行規范化。
2. 非託管數據也是重要數據! 文件,文件夾和共享中的數據是您最有價值的數據中的一部分,而且通常比託管數據具有更大的風險。確保您的數據治理策略涵蓋非結構化數據。
3. 盡早制定 業務目標 以進行數據治理,並分配一名首席數據官(CDO)。使CDO負責管理和實現數據治理目標。
4. 把事情簡單化! 數據治理不是企業大多數人的主要工作。最大限度地減少對個人貢獻者和團隊的影響。
5. 為數據治理團隊的成員建立不同的角色。 數據所有者是關鍵,因為它們與創建和管理的數據最接近。您可以分配數據管理人員與數據所有者合作,以進行指導並促進溝通。您的數據治理團隊應具有跨職能並有權推動您的數據治理計劃。
6. 對所有數據進行分類和標記。 為元數據建立標准,以促進您的業務目標並允許重復使用數據。
7. 用幾種不同的方式衡量您的進度。 您可以收集的指標越多越好。數據治理的一些關鍵指標可能是您要保存多少陳舊數據,已分配數據所有者的文件夾數量以及所創建的敏感數據數量。
8. 盡可能自動化。 自動化工作流程,批准流程, 數據請求,許可權請求以及您可以執行的其他所有操作,以使數據治理計劃能夠高效運轉。
三、數據治理工具推薦--睿治數據治理工具
面對以上8點數據治理最佳實踐方法,我為您推薦一款好用的數據治理工具配合實施數據治理方案,不僅可以保證您的數據治理項目按計劃實施,也可以將每一個過程都以實時可視化的方式展示給您。以下為數據治理工具推薦:
睿治數據治理平台融合數據集成、數據交換、實時計算存儲、元數據管理、數據標准管理、數據質量管理、主數據管理、數據資產管理、數據安全管理、數據生命周期管理十大產品模塊,打通數據治理各個環節,十大產品模塊可獨立或任意組合使用,快速滿足政府、企業各類不同的數據治理場景。
四、睿治數據治理工具實施案例
山東某能源集團大數據資產平台
建設內容:
建設集團 數據治理體系 ,從根本解決問題,掌握數據來龍去脈,發現數據質量原因從源頭提升數據質量;實現數據賦能對人財物產供銷環數據集市建設,全面實現業務人員自助取數分析;建設集團數據應用商店實現數字化運營,實現數據市場化管理,通過智能化、自動化減少運營成本,降低安全風險,提升工作效率,增加企業市場競爭力。
項目價值:
基於數據治理體系建立集團大數據資產平台,運用大數據技術實現數據採集、清洗、分析建模的設計,形成集團高質量數據資產,通過數據資產目錄對全集團發布,並用業務元數據解釋數據含義,便於業務人員定位自己所需數據,與此同時,業務人員可以對自己所需數據提出申請,審批通過後,可直接基於治理數據利用敏捷分析工具實現自助探索分析,真正實現數據賦能,保障日常生產經營管理。
免費試用數據治理工具
3. 企業如何進行數據化管理
導語:對於企業來講,數據化運用和管理無處不在,無論是企業日常運營,還是企業的營銷企劃,都是企業所有管理者或經營者無可否認的重要命題。那麼企業如何進行數據化管理,一起了解一下吧!
然而,做好數據化應用,是一件系統而又復雜的課題。企業如何真正把生產計劃、營銷戰略、財務戰略、經營戰略等體系有效的結合運用是非常考驗管理者知識智慧的。但有的企業主根本無視統計管理、數據分析與經營和營銷的關聯性。
在當今強調競爭優勢的經濟環境中,如果不能把握精確性的專業競爭,不根據各個專業性的概率指標與企業各種資源進行整體的科學組合,就無法使資源配置得到有效利用,資源整合價值最大化就會成為一個泡影,實施數據化管理,培育企業的競爭優勢就會成為一個空話。
一、明確數據化管理的基本要求
1、管理者重視數據化管理,是實施數據化管理的基本條件,管理者重視數據化,重視人的因素,確立人和數據的有效組合,充分利用數據的作用或功能,認知和使用數據的價值,調動人的積極性和主觀能動性,才能構建數據化管理平台按照數據化要求開展相關工作。
2、認清數據與管理的關系。企業不重視數據管理,就無法認清數據與管理的關系。很多管理者會經常通過數據分析來比較管理效率差異的原因。如生產管理中,兩個部門人員、設備、材料、時間等要素完全一致的情況下,但生產的效率不一樣,我就可以通過生產流程中的數據分解,進行數據分析,就可確認是員工士氣、還是員工熟練情況和或管理因素導致生產效率不同的原因。
3、採集的數據必須是真實可靠的。數據因人而存在,是從管理活動中得來。數據的採集方法和管理要有制度和流程規范,不能隨心所欲,更不能估測和偽造數據。數據的真實性對企業的分析和決策非常重要。其真實性一方面要依靠人的道德行為來保證,另一方面制度的保障是不可缺少的。在雙重要求下我們的數據採集才能有保障。
4、數據是連續性和系統性的。在管理活動中,數據採集不能時斷時續。不能只採集某一個方面,否則影響數據的准確性和完整性,企業各業務單元或各部門可按照年度、季度、月度以及每周、每日來採集企業各方面管理和業務發生的數據,進行歸納和統計。
二、以目標管理為基礎拓展數字化管理的空間
數據化管理是以財務管理和目標管理為基礎,由內向外拓展的。企業在戰略目標的指導下,將長期經營目標的所確定的數據向年度進行分解,年度向季度、月度分解,形成了一個金字塔式的數據鏈。企業各個職能部門圍繞著這個時段核心數據設計自己的工作計劃,確定自己所要完成數量目標。這樣的數據指標就成為管理和工作的中心。工作的所有結果是為完成數量目標進行的。
從目標管理的角度來看,更多的是財務數量指標,財務指標為核心數據是毋庸質疑的,但核心數據目標的完成是由其他數據支撐的。如:企業員工的滿意度,客戶的滿意度,銷售終端增長數量的速度,企業投入新技術開發的.費用,高技術人員占員工的比例等等諸多數量指標,都是用於支持財務數據目標實現的基礎。因為很多工作都是依據這些數量指標進行分解,進行分析總結,進行改進和調整。
因此,我們在進行數據管理中,各個業務單元必須讓數據化向企業管理的每一個角落延伸,使其在管理流程、標准及各個模塊都有數據量化的清晰足跡。這樣我們圍繞著數據進行工作,工作效率和效果將有更多的保障。
三、數據化運用管理必須與制度化、流程化、圖表化的連接
在我們很多企業,數據化管理主要就是財務數據,和其他方面看起來似乎沒有關系,實際在管理運用上,離開制度化和流程化,數據化管理就沒有根基,無法進行有效管理。
數據化管理講究的是系統分析,科學評估。
只有深刻了解其過程的每個環節及其特點,確定出標准、流程,才能夠制定出科學的決策與管理辦法。如生產管理中,管理者選擇合適且技術熟練的工人,進行工時、動作、材料研究,在試驗過程中把工人的每一項動作、每一道工序、每一種材料所使用的數據都准確記錄下來,就可得出完成該項工作所需要的總時間、總材料,據此定出一個工人「合理的時、日、月工作量和材料消耗量」。並將規程和標準的操作流程編寫成書面材料,按照此教育訓練員工。
通過制度化的管理要求,長期不懈的執行,這樣數據化在制度化的基礎上與流程化、標准化連接起來。就有一個基本保障。如果同時就生產中的各個要素進行整理成規范的表格,按照規范進行填寫,並規定統計、分析、上報時間,這就在生產管理中就形成數據化管理的基礎。如這樣的管理長期堅持,不斷修正和完善,長此以往累積成企業一整套規范運作的規程與習慣,同樣也可構成企業獨特的核心優勢。
四、必須為數據化管理的設計載體
企業都會每天產生大量的數據,如生產數據、庫存數據、財務數據、產品數據,銷售數據等。但其必須有一個合適的載體進行運轉,使其能產生有效價值,這就需要我們設計一個載體——專業化的圖表(或表單)或專業的管理軟體。這樣我們一方面可運用圖表等工具進行整理分析,一方面可藉助計算機信息軟體技術進行有效快捷的管理活動,但現在許多中小企業在粗放式管理階段還無法進行計算機軟體技術的應用。因此,我們就圖表工具的應用進行簡要的闡述。
表單設計從非專業角度可以講,咨詢公司顧問更多使用的數據分析工具。我們管理者更多的使用的是統計工具。這就我們從財務管理和統計管理方面設計各種表格。進行歸納和總結。
企業在進行管理圖表或表單設計上,必須根據自身的具體情況,設計合理和完善的表。如:日常營業表單、各類費用表單、各類經營管理表單、人力資源相關管理表單等各種表單,並將表單收集的數據按部門分、按級別分、按要求分、按經營分、按時間分等進行分類。設計好編號、類別,等級、審核、製表、抄送等相關信息。將這些信息按照標準的流程進行填寫、審核、分析和管理,以便使管理活動更加富有成效。
特別是產供銷一體化的企業,管理活動復雜,表單眾多,在沒有管理軟體應用支持的情況下,這就需要管理者對一些「共性表」進行合並和篩檢,對「個性表」進行優化,盡可能使表單管理簡要化,一些繁雜可有可無的表單需要及時整理處置,以減少表單管理的復雜性。在進行表單等工具的設計和管理上,我們以電腦操作系統為最基礎的工具,它的許多基本功能就可實現和掌握數據化管理的使用工具。
當然,如企業條件許可,也可引進管理軟體的進行應用,來提高管理效率。用圖表或計算機進行數據積累、數據分析、建立相關模塊,同時確立分析方法、構建數學模型、設計應用系統、提供決策支持等。使用各種方法挖掘數據應用技術,管理效率會得到進一步的提升。
4. 如何有效的進行數據治理和數據管控
從技術實施角度看,主要包含「理」「采」「存」「管」「用」這五個,即業務和數據資源梳理、數據採集清洗、資料庫設計和存儲、數據管理、數據使用。
數據資源梳理:數據治理的第一個步驟是從業務的視角釐清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以資料庫、網頁、文件和 API 介面形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。
數據採集清洗:通過可視化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)將數據從來源端經過抽取 (extract)、轉換 (transform)、載入 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據。基礎數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基於業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那麼基礎庫和主題庫的建設就是在對業務理解的基礎上,基於易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基於一定的原則設計資料庫表結構,然後再根據數據資源清單設計數據採集清洗流程,將整潔干凈的數據存儲到資料庫或數據倉庫中。
元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便於業務人員也能夠理解資料庫中的數據欄位含義,並且,元數據是後面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。
血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那麼數據治理團隊需要知道業務團隊的數據來自於哪個核心庫,核心庫的數據又來自於哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。 數據資源目錄:數據資源目錄一般應用於數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基於業務場景和行業規范而創建,同時依託於元數據和基礎庫主題而實現自動化的數據申請和使用。
質量管理:數據價值的成功發掘必須依託於高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴於對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapRece,HBase 等。
商業智能(BI):數據治理的目的是使用,對於一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那麼可以使用 BI 類的產品快速獲取需要的數據,並分析形成報表,像派可數據就屬於專業的BI廠商。
數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 介面三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 介面共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 介面的形式進行了轉移。API 介面共享可以使用 API 網關實現,常見的功能是自動化的介面生成、申請審核、限流、限並發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。
5. 企業數據化管理怎麼做
企業想要建立數據化管理,實現高效運營,最重要的是遵循基本兩個原則,鼎捷軟體以下就以製造業為例,為各位企業實現數據化管理提供新思路:
1.上下都認同才能發揮力量
若想讓企業實現數據化管理,建立新競爭力,就得從建立全公司的新文化開始。老闆帶頭,全員參與,讓全公司的每個人都能認可數據是可以幫助到其工作的。
未來公司的管理運作都是基於真實、實時可搜集的數據來來進行溝通、目標設定。公司不會因為買了一台新機台或機器手臂,或導入一套新系統,競爭力就會提升。競爭力的提升完全來自於公司管理的強化,而且是基於實時且正確的數據的管理。
當全員內上下都從心裡深處認同,數據是在幫助自己,不管是命令下達還是成果回報,不管是機台控制或是良率改善,這些實時真實搜集的數據就是公司內共通的新語言,那麼大家的方向與行動才會確實且精準的校準在一起,整體的力量也才能發揮。
2.建立數據文化
曾經到訪過某家製造業工廠,該廠的製造副總清楚地認識到數據文化的重要性,也明白傳統工作模式中使用的PPT帶有偽善性,問題無法基於PPT當場釐清與解決,會上決策到會後執行存在時間差,耗時且無法追蹤進度。
基於此,該工廠無論晨會、月會,在會議中直接開系統、拉數據,當場報告與討論。
實施過程中,第一關是IT主管,數據讀取速度、數據呈現等因素都會影響會議進程,但隨著不斷改進,該工廠數據讀取實現30秒內完成。
第二關是現場主管,這種會議模式相當於完全透明、毫無遮掩的被全盤檢視工作,任何異常會被實時指出,透過交叉比對,究其原因、指派任務並解決問題。根因與負責人也會被正確指派與快速解決。
正是因為這種工作模式,該工廠效率不到三個月大幅提升。
其中最為關鍵的是,該工廠的製造副總在實施這套工作模式時,沒有以強硬的態度強制實施,而是比以前加倍包容,以共同努力的態度與員工共同適應新模式,以數據講話,找問題求改善,與下屬一起承擔、面對與解決,持續以這種方式在工廠內部建立起數據文化。
當文化被建立且認同後,數據的力量才得以真正被發揮,從而持續地強化企業競爭力。
6. 如何做好數據管理工作
一、認識做好數據管理工作的重要意義,從思想上高度重視數據管理工作
做好數據管理工作對銀行經營管理來說,有著重要的意義。通過培訓,我改變了以前那種「數據管理就是完成信息統計報表報送和數據整理」的膚淺認識,深刻認識到數據管理工作內涵豐富,尤其是大數據分析和渠道建設創新等工作要做好、做深做透不是一件容易的事情,而且做好數據管理工作對銀行意義重大:
從外部來看,做好數據管理工作是滿足信息披露要求的有力保證。目前我國已初步建立了一套規范上市銀行信息披露行為的規章制度,我們要加強數據管理,嚴格按照外部監管部門的統計管理制度要求完成各類統計報表上報、提高數據質量,才能滿足信息披露要求。
從內部來看,做好數據管理工作有助於全面提升銀行核心競爭力.數據管理部門通過對數據的整理加工,分析挖掘,能為領導決策提供有效的數據信息,有力地支持和服務全行業務發展。特別是當前外部對銀行數據質量要求日益嚴格,我行戰略轉型也需要數據管理工作具有扎實的數據基礎和強大的分析能力。
二、了解掌握並執行數據管理相關制度和要求,為做好數據管理工作打下基礎
數據管理工作,除了報送各類數據信息統計報表以外,更重要的工作應該包括對數據信息進行有效加工和數據管控,大數據推廣應用、調研分析等方面。而我們只有學習掌握了數據管理相關制度才能夠正確執行統計管理制度,為提高數據質量打下基礎。
制度學習方面雖然有看似有些枯燥,但這些是我們必須遵守的,從國家層面來看,國家頒布了一系列數據管理相關的法規和辦法,如:《統計法》、《金融統計管理規定》、《銀行業監管統計管理暫行辦法》、《徵信業管理條例》。特別是本次培訓中,柳糾夫副總經理反復強調我們要依法合規開展徵信工作,如果有違反條例規定未按照與個人信息主體約定的用途使用個人信息或者未經個人信息主體同意向第三方提供個人信息,情節嚴重或者造成嚴重後果的,將被有權機關罰款;如構成犯罪,將依法追究刑事責任。「知規才能執規」,商業銀行只有依法進行金融統計工作、規範金融統計活動,才能保證整個金融統計活動有序、有效開展。除了國家頒布的相關法規及辦法以外,我們還要掌握建行內部制定下發的各項制度規定,嚴格遵照執行,保證數據信息質量和客戶信息安全。
7. Rust編程語言實現數據管理
如果要實現一個數據管理的功能
該如何是好呢
假如可以用vector當做一個池
來存儲數據
池裡每一個位置都存儲一個數字
用來表示代數
表示這個位置的數據是否更改
代數也是更改次數
當一個位置重用了
代數增加
保留先前創建的方法句柄
讓這個位置失效
方法句柄用來訪問數據
它包含池中某位置的數據和代數
數據放入池中
就會產生一個方法句柄和這個數據關聯
此時方法句柄的代數和數據的代數相當
方法句柄是有效狀態直到數據被釋放
這個位置就變成空閑
所有指向這個數據的方法句柄都失效
這個池可以被CPU緩存
所以數據訪問非常快
在 游戲 場景里
場景節點可以存放其它節點的方法句柄
當需要數據的時候
可以取走並保留數據位置是佔用狀態
取走的是數據的索引的包裝
用來把數據放回池裡
取走的還有數據對象本身
如果想取走數據不放回池了
就需要一個方法實現
使數據位置是空閑狀態
否則這個數據位置就不能用了
引發異常
8. 大數據時代如何做好數據治理
企業數據分析系統的數據來源是各個業務系統或手工數據,這些數據的格式、內容等都有可能不同。如果不進行數據治理,數據的價值難以發揮。只有對數據標准進行規范,管理元數據、數據監控等,才能得到高質量的數據。得到規范的數據後,才可在此基礎上進行主題化的數據建模、數據挖掘、數據分析等。
2013年被眾多的IT人定義為中國的大數據元年,這一年國內的大數據項目開始在交通、電信、金融部門被廣泛推動。各大銀行對Hadoop的規劃、POC尤其風生水起,帶動了一波大數據應用的熱潮,這個熱潮和當初數據倉庫進入中國時的2000年左右很相似:應用還沒有想好,先歸集一下數據,提供一些查詢和報表,以技術建設為主,業務推動為輔。這就導致了這股Hadoop熱潮起來的時候,傳統企業都是以數據歸集為主的,而BAT這樣的企業則天生以數據為生,早早進入了數據驅動技術和業務創新的階段。
隨著Hadoop技術的提升,數據如何進來,如何整合,開展什麼樣的應用都已經有了成熟的案例,可是,同傳統數倉時代一樣,垃圾進垃圾出,如何破?相比傳統數倉時代,進入Hadoop集群的數據更加的多樣、更加的復雜、量更足,這個數倉時代都沒有處理好的事情,如何能夠在大數據時代處理好,這是所有大數據應用者最最期盼的改變,也是大數據平台建設者最有挑戰的難題:數據治理難的不是技術,而是流程,是協同,是管理。 睿治數據治理平台平台架構
元數據:採集匯總企業系統數據屬性的信息,幫助各行各業用戶獲得更好的數據洞察力,通過元數據之間的關系和影響挖掘隱藏在資源中的價值。
數據標准:對分散在各系統中的數據提供一套統一的數據命名、數據定義、數據類型、賦值規則等的定義基準,並通過標准評估確保數據在復雜數據環境中維持企業數據模型的一致性、規范性,從源頭確保數據的正確性及質量,並可以提升開發和數據管理的一貫性和效率性。
數據質量:有效識別各類數據質量問題,建立數據監管,形成數據質量管理體系,監控並揭示數據質量問題,提供問題明細查詢和質量改進建議,全面提升數據的完整性、准確性、及時性,一致性以及合法性,降低數據管理成本,減少因數據不可靠導致的決策偏差和損失。
數據集成:可對數據進行清洗、轉換、整合、模型管理等處理工作。既可以用於問題數據的修正,也可以用於為數據應用提供可靠的數據模型。
主數據:幫助企業創建並維護內部共享數據的單一視圖,從而提高數據質量,統一商業實體定義,簡化改進商業流程並提高業務的響應速度。
數據資產:匯集企業所有能夠產生價值的數據資源,為用戶提供資產視圖,快速了解企業資產,發現不良資產,為管理員提供決策依據,提升數據資產的價值。
數據交換:用於實現不同機構不同系統之間進行數據或者文件的傳輸和共享,提高信息資源的利用率,保證了分布在異構系統之間的信息的互聯互通,完成數據的收集、集中、處理、分發、載入、傳輸,構造統一的數據及文件的傳輸交換。
生命周期:管理數據生老病死,建立數據自動歸檔和銷毀,全面監控展現數據的生命過程。
數據安全:提供數據加密、脫敏、模糊化處理、賬號監控等各種數據安全策略,確保數據在使用過程中有恰當的認證、授權、訪問和審計等措施。
建立完整的、科學的、安全的、高質量的數據管控技術體系,是首要的任務。作為數據管控的基石,為了更好支撐後續工作的開展,技術體系必須一步到位,是功能完備、高質量、高擴展性的,而不是僅實現部分功能,或者功能不完善的「半成品」。
疊加更多業務數據、細化數據業務屬性與管理屬性、優化與調整數據管控流程,尤其是適應未來的現代企業數據管控制度的建立完善,是逐步積累推廣、不斷磨合改進的長期過程。這些工作應及早啟動,並成為後續大數據平台建設工作的重點。
談大數據時代的數據治理 當前要做的是功能框架的完善,而完善的著力點則是「數據資產目錄」:用資產化的視角來管理一個企業的數據,只有把數據作為資產來認識和管理,大數據項目才能達成預期,也能夠治理好。大數據時代帶來的價值,個人認為主要有兩個,一個是技術架構,主要是架構理念的進步,另外一個更重要的則是對數據的重視。大數據時代是數據的時代,IT向DT轉型,不單單是BAT,所有的IT公司,未來都在數據這兩個字上。
對於一個企業來說,把數據作為資產,才是建設大數據的最終目的,而不是僅僅是因為Hadoop架構帶來性價比和未來的擴展性。當一個企業把數據作為資產,他就像管理自己名下存摺、信用卡一樣,定期梳理,無時無刻不關心資產的變化情況,關注資產的質量。
而資產目錄就是管理資產的形式和手段,他像菜單一樣對企業的資產進行梳理、分門別類,提供給使用者;使用者通過菜單,點選自己需要的數據,認可菜單對應的後端處理價值,後廚通過適當的加工,推出相應的數據服務;這是一個標準的流程,而這些流程之上,附著一整套數據管理目標和流程。
大數據平台以數據資產目錄為核心,將元數據、數據標准、主數據、數據質量、數據生命周期、數據輪廓等信息在邏輯層面關聯起來,在管理層面上整合成統一的整體,構建起數據管理體系,全面的支持數據服務等具體應用。
大數據平台實現了數據存儲、清洗和應用。在數據匯入和匯出的過程中,需要對數據的元數據進行統一記錄和管理,以利於後續的數據應用和數據血緣分析。數據質量一直是數據集成系統的基礎工作,對數據的各個環節設置數據質量檢查點,對數據質量進行剖析、評估,以保證後續應用的可信度。
在數據收集的過程中,隨著數據維度、指標的聚集,如何找到所需的業務指標及屬性,並且評估相關屬性的業務及技術細節,需要對收集的所有數據進行業務屬性,並進行分類,建立完善的數據資產目錄。
數據資產目錄是整個大數據平台的數據管理基礎,而數據資產目錄由於數據的多樣性,在使用的過程中,必然涉及數據許可權的申請、審批管控流程,而管控流程的建立依賴於相應崗位的設立和對應職責的建立。
大數據平台的數據管理架構規劃,通過數據物理集中和數據邏輯整合,徹底擺脫企業「數據豎井」的困境。大數據平台數據管理架構分為功能架構、流向規劃和數據架構三個層面。
數據管理功能架構:借鑒DAMA數據管理和DMM數據成熟度理論,著眼於數據管理技術和數據管理流程融合,組織數據管理功能。
數據流向規劃架構:規劃整個大數據平台的數據流向,並在數據流入、數據整合、數據服務的具體環節實現精細化管理。
數據管理的數據架構:以數據資產目錄為核心,數據項為最小管理單元,將技術元數據(實體、屬性和關系)、業務元數據和管理元數據(數據標准、主數據、數據質量、數據安全)融合為彼此緊密聯系、密不可分的整體,共同構成精細化管理的數據基礎。
數據管理在整個大數據平台不僅僅是一個主要功能模塊,它還是整個企業層面數據治理的重要組成部分,它是技術和管理流程的融合,也需要合理管控流程框架下組織機構之前的協調合作。如何利用統一的數據管理模塊對企業所有進入到數據湖的數據進行有效管控,不單單取決於數據管理模塊本身,也取決於元數據的合理採集、維護,組織結構及制度的強力支持保證。
談大數據時代的數據治理 大數據平台數據管理參照了DAMA對於數據管理的九個管理目標,並進行裁剪,並對部分管理目標進行了合並,並參照了CMMI制定DMM數據成熟度目標,採用循序漸進,逐步完善的策略對管理目標進行分階段完成,制定完整的管控流程和數據治理規范,以便持續的對數據進行管理,遞進實現DMM定義的成熟度目標。
億信睿治數據治理管理平台和DAMA的對應關系如下:
談大數據時代的數據治理 大數據平台數據管理的核心內容是數據資產目錄,圍繞數據資產目錄的數據流入、數據整合、數據服務都是數據管理的核心。數據管理主要管理數據的流動,以及管理流動帶來的數據變化,並對數據底層的數據結構、數據定義、業務邏輯進行採集和管理,以利於當前和未來的數據使用。為了更好的對數據進行管理和使用,制度層面的建設、流程的設立必不可少,同時也兼顧到數據在流動過程中產生的安全風險和數據隱私風險。
因此數據管理介入到完整的數據流轉,並在每個節點都有相應的管理目標對應,整個數據流框架如下圖所示:
談大數據時代的數據治理 企業在建制大數據平台的同時,對進入數據湖的數據進行梳理,並按照數據資產目錄的形式對外發布。在發布數據資產之後,則對進出數據湖的數據進行嚴格的出入庫管理,保證數據可信度,並定期進行數據質量剖析檢查,確保數據資產完善、安全、可信,避免「不治理便破產」的讖言。
9. 如何實現成功的數據治理
從技術實施角度看,數據治理包含「理」「采」「存」「管」「用」這五個步驟,即業務和數據資源梳理、數據採集清洗、資料庫設計和存儲、數據管理、數據使用。
數據資源梳理:數據治理的第一個步驟是從業務的視角釐清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以資料庫、網頁、文件和 API 介面形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。
數據採集清洗:通過可視化的 ETL 工具將數據從來源端經過抽取 (extract)、轉換 (transform)、載入 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據。基礎數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基於業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那麼基礎庫和主題庫的建設就是在對業務理解的基礎上,基於易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基於一定的原則設計資料庫表結構,然後再根據數據資源清單設計數據採集清洗流程,將整潔干凈的數據存儲到資料庫或數據倉庫中。
元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便於業務人員也能夠理解資料庫中的數據欄位含義,並且,元數據是後面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。
血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那麼數據治理團隊需要知道業務團隊的數據來自於哪個核心庫,核心庫的數據又來自於哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。 數據資源目錄:數據資源目錄一般應用於數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基於業務場景和行業規范而創建,同時依託於元數據和基礎庫主題而實現自動化的數據申請和使用。
質量管理:數據價值的成功發掘必須依託於高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴於對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapRece,HBase 等。
商業智能(BI):數據治理的目的是使用,對於一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那麼可以使用 BI 類的產品快速獲取需要的數據,並分析形成報表,像派可數據就屬於專業的BI廠商。
數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 介面三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 介面共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 介面的形式進行了轉移。API 介面共享可以使用 API 網關實現,常見的功能是自動化的介面生成、申請審核、限流、限並發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。