⑴ 簡述數據管理的三種方法
1、單個雲包括存儲和應用程序
2、應用程序在雲端,存儲在本地
3、應用程序在雲端,而且數據緩存也在雲端,存儲在本地
在第一種情況下,通過將所有的內容都放在單個雲服務商來節省帶寬成本,但是這會產生一些(供應商)鎖定,這個通常與 CIO 的雲戰略或者風險防範計劃所沖突。
第二種方案是僅僅保留應用程序在雲端所收集的數據,並且以最小的方式傳輸到本地存儲。這就需要仔細的考慮策略,其中只有最少使用數據的應用程序部署在雲端。
第三種情況就是將數據緩存在雲端,應用程序和存儲的數據被存儲在本地。這也就意味著分析、人工智慧、機器學習可以在內部運行而無需把數據向雲服務商上傳,然後處理之後再返回。緩存的數據僅僅基於應用程序對雲的需求,甚至進行跨多雲的部署緩存。
企業應根據數據量以及數據的敏感度去進行衡量,判斷是選擇哪一種儲存方式更適合,這樣才能做出對企業發展有益的決策。
⑵ 數據處理的方法有哪些,有什麼優缺點
數據處理主要有四種分類方式
①根據處理設備的結構方式區分,有聯機處理方式和離線處理方式。
②根據數據處理時間的分配方式區分,有批處理方式、分時處理方式和實時處理方式。
③根據數據處理空間的分布方式區分,有集中式處理方式和分布處理方式。
④根據計算機中央處理器的工作方式區分,有單道作業處理方式、多道作業處理方式和互動式處理方式。
數據處理對數據(包括數值的和非數值的)進行分析和加工的技術過程。包括對各種原始數據的分析、整理、計算、編輯等的加工和處理。比數據分析含義廣。隨著計算機的日益普及,在計算機應用領域中,數值計算所佔比重很小,通過計算機數據處理進行信息管理已成為主要的應用。如測繪制圖管理、倉庫管理、財會管理、交通運輸管理,技術情報管理、辦公室自動化等。在地理數據方面既有大量自然環境數據(土地、水、氣候、生物等各類資源數據),也有大量社會經濟數據(人口、交通、工農業等),常要求進行綜合性數據處理。故需建立地理資料庫,系統地整理和存儲地理數據減少冗餘,發展數據處理軟體,充分利用資料庫技術進行數據管理和處理。
計算機數據處理主要包括8個方面。
①數據採集:採集所需的信息。
②數據轉換:把信息轉換成機器能夠接收的形式。
③數據分組:指定編碼,按有關信息進行有效的分組。
④數據組織:整理數據或用某些方法安排數據,以便進行處理。
⑤數據計算:進行各種算術和邏輯運算,以便得到進一步的信息。
⑥數據存儲:將原始數據或計算的結果保存起來,供以後使用。
⑦數據檢索:按用戶的要求找出有用的信息。
⑧數據排序:把數據按一定要求排成次序。
⑶ 如何有效的進行數據治理和數據管控
從技術實施角度看,主要包含「理」「采」「存」「管」「用」這五個,即業務和數據資源梳理、數據採集清洗、資料庫設計和存儲、數據管理、數據使用。
數據資源梳理:數據治理的第一個步驟是從業務的視角釐清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以資料庫、網頁、文件和 API 介面形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。
數據採集清洗:通過可視化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)將數據從來源端經過抽取 (extract)、轉換 (transform)、載入 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據。基礎數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基於業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那麼基礎庫和主題庫的建設就是在對業務理解的基礎上,基於易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基於一定的原則設計資料庫表結構,然後再根據數據資源清單設計數據採集清洗流程,將整潔干凈的數據存儲到資料庫或數據倉庫中。
元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便於業務人員也能夠理解資料庫中的數據欄位含義,並且,元數據是後面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。
血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那麼數據治理團隊需要知道業務團隊的數據來自於哪個核心庫,核心庫的數據又來自於哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。 數據資源目錄:數據資源目錄一般應用於數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基於業務場景和行業規范而創建,同時依託於元數據和基礎庫主題而實現自動化的數據申請和使用。
質量管理:數據價值的成功發掘必須依託於高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴於對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapRece,HBase 等。
商業智能(BI):數據治理的目的是使用,對於一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那麼可以使用 BI 類的產品快速獲取需要的數據,並分析形成報表,像派可數據就屬於專業的BI廠商。
數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 介面三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 介面共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 介面的形式進行了轉移。API 介面共享可以使用 API 網關實現,常見的功能是自動化的介面生成、申請審核、限流、限並發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。
⑷ 數據資產的管理方法
在最近幾年的業務發展中,數據都是各大公司建設的「寵兒」,幾乎所有的業務都圍繞數據展開,其重要性堪比信息化時代的「石油」。因此,大多數的公司都會建設自己的數據資產平台,一方面是為了做一些諸如統一數據口徑一類的基礎工作,另一方面也是為了深入挖掘數據的價值,為企業帶來高額的利潤回報。
回看過去的發展歷史,圍繞著數據的採集、建設、管理和應用,已經基本形成了體系化的建設方法。運營在做定價的時候,需要數據的支持;財務在評估預算的時候,需要數據的支持;法務在判定風險時,同樣需要數據的支持…… 同時,隨著企業發展的進行,數據口徑的統一需要對數據進行治理;成本的管理需要對數據進行治理;支持業務的增多需要對數據進行治理…… 凡此種種,當我們缺少了數據資產門戶的時候,很多的治理和查詢工作,便很容易產生亂子。
某些意義上,數據資產的整理,是一種「臟活累活」,需要持續的維護和迭代,但做好之後,其發揮的價值,也是非常大的,只不過這種價值需要依附於別的項目才能體現出來。
因此,本文簡單介紹一種整理數據資產的方法,供大家交流,篇幅不長,介紹思路更多一些。
其實數據的整理,用「運營」的思路來講,更像是「品類規劃」。只有把類目和索引做到了,全局層面便有了可視化的基礎,後續資產的整理和歸類,也會有科學的指引。
像比較大一點的互聯網公司,業務通常不是單一的,因此如何仿照類目的思路,將一、二、三級索引做好,就是一個關鍵點和難點。
從消費者的視角,可以根據行為偏好、互動行為、個人屬性、社交關系等方面構建類目,行為偏好又可以分為購買行為、點擊行為、瀏覽行為,等等;從業務的視角,可以根據電商、金融、社交、媒體等業務屬性構建類目,電商又可以分為B2C、C2C、B2B2C等不同的業務模式;從部門的視角,又可以根據XX事業部這種方式來建設,然後一級一級細分到具體負責的團隊。總之,根據某一種分類的原則,將一二三級類目做完整,通常情況下可以很快的定位到需要的數據。
當然,只有類目也是不行的,這時候支持一個基本的搜索功能,將業務名、表名、欄位名、屬性名等做成模糊匹配的方法,供用戶搜索和查詢,便可以支持絕大多數的自行查詢場景。
當然,因為表或者欄位的展示格式都是固定的,因此搜索的結果可以做到非常的美觀,配合手工打上的標簽,90%以上的場景都可以支持用戶自定義查詢。
總結一下,資產的導航,適合以「類目」的方式進行組織,以搜索的方式配合使用,展示的介面以樹形最佳,配合標簽等個性化的內容,可以最大程度上滿足查詢訴求。
當用戶查詢到需要使用的數據時,下一步便是如何獲取和使用數據。在通常的技術場景下,研發的同學只需要申請對應的表許可權既可以獲得。
但現在是有三種情況,我們需要分別看獲取的方式:
一種是這種數據不適合直接開放底表,因為許可權隔離的緣故,不能把所有許可權開放出去,這時候就需要有資產分離的功能,也就是根據適用范圍申請數據;
一種是非技術的同學申請,通常直接給一個表也是不知道怎麼用的,可能給一個數據看板,或者是申請一個數據集,更合適一些,非研發的同學,可以使用報表工具自行配置。當然這種場景可以支持的數據查詢能力會比較有限,需要盡可能的將報表的門戶建設做好之後,再開放出去;
一種是有明確數據安全場景的訴求,比如最近剛出台的「個保法」,對於用戶隱私的數據監管非常嚴格,這時候就需要配套有對應的法務審批或者是其他的數據安全介面人審批,這里的流程也是要單獨設置的。
但不論哪種方式,都少不了完善的數據使用流程,這其實是屬於「流程管理」的范疇,系統通常會默認指定審批人,但如果有特殊的需要,比如「個保法」,通常也需要能夠自行設定審批流程。
總結一下,數據的獲取,根據場景和使用人的不同,提供數據表、欄位或者是報表等多種方式,同時要配合有相應的許可權審批和資產分離的功能。
數據的治理也是一項比較重要但繁瑣的工作。因為數據資產的錄入,通常是人來維護的,那麼相同的指標,錄入多次的時候,用戶以哪次為准呢?這就是最典型維護難題,因此,在錄入或者自動更新數據的時候,提供一些提示性的功能,或者通過「精品」、「臨時」等標簽予以區分,也是一種可行的思路。
因而,通常情況下,技術提供的公共資產,一般以公共層的數據為准,只有明確使用場景的情況下,ADS才會被提供出來。
接下來,就是針對龐大的數據資產,構建自動化的診斷和分析功能了,關於如何用數據來治理資產,參考個人之前的文章《數據資產治理概要:用數據來治理數據》。標准化的治理之前,通常需要有全局的數據資產視圖,才能制定出明確的目標、范圍和結果。
最後,數據資產的使用,通常也是需要有穩定性的治理,比如每個表或者某一份數據,更新的頻率、每次更新的時間等,都需要有說明提供給使用者,而開發來維護顯然是不現實的,因此通過監控Hadoop集群的運行結果來自動更新,就是一種不錯的方法。同時,一些執行明顯偏慢但又使用者非常多的數據,也可以有相應的預警郵件提供給使用者。
數據資產的管理,底層也是基於數倉建模、數據平台、元數據標准、質量監控等基礎的機制,配合組織的審批、管理等標准,最終才能服務於頂層戰略。
⑸ 如何有效的進行數據治理和數據管控
大數據時代的到來,讓政府、企業看到了數據資產的價值,並快速開始 探索 應用場景和商業模式、建設技術平台。但是,如果在大數據拼圖中遺忘了數據治理,那麼做再多的業務和技術投入也是徒勞的,因為很經典的一句話:Garbage in Garbage out。
當你處理或使用過大量數據,那麼對「數據治理」這個詞你一定不會陌生。你會思考數據治理是什麼?數據治理是否適合你?如何實施。簡單來說,數據治理就是處理數據的策略——如何收集、驗證、存儲、訪問、保護和使用數據。數據治理也還包括誰來查看,使用,共享你的數據。
隨著大數據時代的推進,以上這些問題日益突出,越來越多的企業依賴採集、治理、儲存和分析數據,並實現他們的商業目標。數據變成了企業的盈利工具、業務媒介和商業機密。數據泄露會導致法律糾紛,還會令消費者對公司的核心業務失去信心。
如果抱著僥幸的心理,讓各個業務部門自己管理數據,那麼你會缺乏有效的數據管理,甚至各部門會自己做自己的。你無法想像各個部門按隨心所欲地自己生產、儲存、銷售產品。數據使用不當就像庫存使用不當一樣,會給企業造成沉重的損失。因此必須制定一項測量用以保證所需數據的有效和安全,可用性,這就是我們要談的「數據治理」。
數據治理策略必須包含完整的數據生命周期。策略必須包含從數據採集、清洗到管理,在這個生命周期內,數據治理必須要有關注以下內容:
數據從哪裡來,數據怎麼來
這是數據生命周期的起點。數據來源決定了數據治理策略的基礎。例如數據集的大小就由數據來源所決定。是從目標市場、現存用戶和社交媒體收集數據?還是使用第三方收集數據或者分析你收集的數據?輸入數據流是什麼?數據治理必須關注這些問題,並制定策略來管理數據的採集,引導第三方處理他們收集的數據或者分析你收集的數據,控制數據的路徑和生命周期。
數據校驗
通常數據源都是非常龐大且多樣的,這是一個讓數據管理者非常頭疼的問題。將數據噪音和重要數據進行區分僅僅只是開始,如果你正從關聯公司收集數據,你必須確保數據是可靠的,對於那些幾萬、幾十萬、甚至成百上千萬的復雜關系數據,單靠人為的通過Excel對進行數據清洗已經不太現實,需要專業的數據清洗工具或系統對海量復雜關系數據進行批量查詢、替換、糾正、豐富以及存儲。將元數據、主數據、交易數據、參考數據以及數據標准內置固化到數據清洗工具或系統中,結合組織架構、內容管控、過程管控等管理機制、技術標准提高數據治理人員的工作效率。比如:需要手工編寫程序收集的元數據,系統幫你自動獲取;需要人工識別或編寫代碼實現的數據質量檢查,系統幫你自動識別問題;用文檔管理的數據字典,系統幫你在線管理;基於郵件和線下的流程,系統幫你線上自動化。當然,系統並不是萬能的,數據治理的軟體工具與其他軟體工具一樣,沒有什麼神奇之處,沒有數據治理人員的參與和數據治理工作的推進,軟體再完美也無法完成數據治理整個過程。這也是為什麼數據治理咨詢服務一直有其市場,以及為什麼國內大部分單純數據治理軟體項目未能達到預期目標。
數據治理必須解決存儲問題
而數據存儲和數據集的大小有密切關系。大數據的存儲必須是在安全的冗餘系統之中。常常利用層次體系,根據使用頻率來存儲數據。這樣一來,昂貴的在線系統提供的是被頻繁請求的數據,而請求頻率較低的數據則存儲在便宜,可用率較低的系統上。當然,一些請求頻率低但是敏感的數據如果存儲於安全性較低的系統上,風險會大大提升。因此,在制定數據存儲方案時,良好的數據治理策略必須考慮到方方面面的因素。
數據治理必須建立訪問管理制度,在需求和安全性找到平衡點
明確訪問者的許可權,只能訪問他們對應許可權包含的數據。只有合法請求才能夠訪問數據,而敏感的數據需要更高的許可權和更嚴密的驗證才可以被訪問。只向具有特定安全級別的用戶開放。應該對用戶和數據本身設置訪問級別,管理賬戶時,應與人力資源部和采購部緊密互動,這一點非常重要,因為這樣可以及時地使離職員工和停止合作的供應商不再擁有訪問許可權。處理好這些細節以及確保數據所有權和責任,這是構成完整的數據治理策略的一部分。
數據的使用/共享/分析
如何使用數據是數據治理之後一項重要的內容,數據可能會用於客戶管理,提高客戶體驗,投放定向廣告,用戶應用系統初始化基礎數據工作,輔助應用系統建設,提供市場分析和關聯公司共享數據。必須仔細界定哪些數據可用於共享或者用於營銷,並保護它們免遭攻擊和泄露,因為數據本來就應該被用於純粹的內部用途。讓用戶知悉採集數據的所有公司都會遵守數據安全和保證的規定。能夠確保數據被合理合規的使用,也是數據治理重要的一項內容。
收集、驗證、存儲、訪問和使用都是數據安全計劃的必要組成部分
收集、驗證、存儲、訪問和使用都是數據安全計劃的必要組成部分,必須要有一個全面的策略來解決這些問題以及其他安全問題。數據安全計劃必須是有效且可用性高,但是數據生命周期的所有部分都很容易受到攻擊和由於粗心造成的破壞。你必須在數據治理中確定數據安全計劃,包括訪問控制,靜態數據,數據加工,數據傳輸之後的加密等。
管理/元數據
沒有管理的數據生命周期是不完整的。例如,將元數據應用於一段數據,用來進行識別檢索。元數據包含數據的來源,採集或生成的日期,信息訪問的級別,語義分類及其他企業所必須的信息。數據治理能建立一個元數據詞彙表,界定數據的有效期。請注意數據也會過期,過期之後我們只能用於 歷史 數據的分析。
數據治理創建的過程中可能會在企業內部遭到一些阻力,比如有的人會害怕失去訪問數據的許可權,而有些人也不願意和競爭者共享數據。數據治理政策需要解決上述問題,讓各方面的人都可接受。習慣了數據筒倉環境的公司,在適應新的數據治理策略上面會有困難,但如今對大型數據集的依賴以及隨之而來的諸多安全問題,使創建和實施覆蓋全公司的數據策略成為一種必然。
數據日益成為企業基礎設施的一部分,在企業一步步處理各種特定情況的過程中形成決策。它以一次性的方式作出,常常是對某一特定問題的回應。因此,企業處理數據的方法會因為不同部門而改變,甚至會因為部門內部的不同情況而改變。即使每個部門已經有一套合理的數據處理方案,但這些方案可能彼此沖突,企業將不得不想辦法協調。弄清數據存儲的要求和需求是一件難事,如果做得不好,就無法發揮數據在營銷和客戶維系方面的潛力,而如果發生數據泄露,你還要承擔法律責任。
另外在大企業內部,部門之間會展開對數據資源的爭奪,各部門只關注自身的業務情況,缺乏全局觀念,很難在沒有調解的情況下達成妥協。
因此公司需要一個類似數據治理委員會的機構,他的職責是執行現有數據策略、挖掘未被滿足的需求以及潛在安全問題等,創建數據治理策略,使數據的採集、管護、儲存、訪問以及使用策略均實現標准化,同時還會考慮各個部門和崗位的不同需求。平衡不同部門之間存在沖突的需求,在安全性與訪問需求之間進行協調,確保最高效、最安全的數據管理策略。
建立數據治理委員會
負責評估各個數據用戶的需求,建立覆蓋全公司的數據管理策略,滿足內部用戶、外部用戶甚至法律方面的各種需求。該委員會的成員應該囊括各個業務領域的利益相關者,確保各方需求都得到較好地滿足,所有類型的數據所有權均得到體現。委員會也需要有數據安全專家,數據安全也是重要的一環。了解數據治理委員會的目標是什麼,這一點很重要,因此,應該思考企業需要數據治理策略的原因,並清楚地加以說明。
制定數據治理的框架
這個框架要將企業內部、外部、甚至是法律層面的數據需求都納入其中。框架內的各個部分要能夠融合成一個整體,滿足收集、清洗、存儲、檢索和安全要求。為此,企業必須清楚說明其端到端數據策略,以便設計一個能夠滿足所有需求和必要操作的框架。
有計劃地把各個部分結合起來,彼此支持,這有很多好處,比如在高度安全的環境中執行檢索要求。合規性也需要專門的設計,成為框架的一部分,這樣就可以追蹤和報告監管問題。這個框架還包括日常記錄和其他安全措施,能夠對攻擊發出早期預警。在使用數據前,對其進行驗證,這也是框架的一部分。數據治理委員會應該了解框架的每個部分,明確其用途,以及它如何在數據的整個生命周期中發揮作用。
數據測試策略
通常一個數據策略需要在小規模的商用環境中進行測試,用來發現數據策略在框架,結構和計劃上的不足之處並進行調整,之後才能夠投入正式使用。
數據治理策略要與時俱進
隨著數據治理策略延伸到新的業務領域,肯定需要對策略進行調整。而且,隨著技術的發展,數據策略也應該發展,與安全形勢、數據分析方法以及數據管理工具等保持同步。
明確什麼是成功的數據策略
我們需要確立衡量數據治理是否成功的明確標准,以便衡量進展。制定數據管理目標,有助於確定成功的重要指標,進而確保數據治理策略的方向是符合企業需求。
無論企業大小,在使用數據上都面臨相似的數據挑戰。企業越大,數據越多,而數據越多,越發需要制定一個有效的,正式的數據治理策略。規模較小的企業也許只需要非正式的數據治理策略就足夠了,但這只限於那些規模很小且對數據依賴度很低的公司。即便是非正式的數據治理計劃也需要盡可能考慮數據用戶和員工數據的採集、驗證、訪問、存儲。
當企業規模擴大,數據需求跨越多個部門時,當數據系統和數據集太大,難以駕馭時,當業務發展需要企業級的策略時,或者當法律或監管提出需求時,就必須制定更為正式的數據治理策略。