① 數據治理周周談(三):數據質量管理
數據質量管理的定義和目的
數據質量管理是指對是指對數據從產生、獲取、存儲、共享、維護、應用等數據全生命周期可能出現的各類數據質量問題,進行識別、檢測、度量、預警以及處理等一系列管理活動。
數據質量管理的目的是通過提升數據的完整性、准確性和真實性,為企業提供堅實、可靠的數據基礎,提升數據的使用價值,對企業的日常經營、精準營銷、管理決策、風險管理等領域發揮積極有效作用。
數據質量的評估維度
如何判斷數據質量的優劣?從哪些方面可以評估數據質量?在實踐中,我們認為一般可以通過數據質量評估維度進行評估。數據質量評估維度是數據質量的特徵之一,它們為度量和管理數據的質量提供了一種途徑和標准。在一個具體的數據質量項目中,要選擇最適用於業務需求的數據質量維度進行測量,以評價數據的質量。
在《GB/T36344-信息技術數據質量評價指標》中,國家標准化管理委員會明確了數據質量評價指標框架。
規范性:數據符合數據標准、數據模型、業務規則、元數據或權威參考數據的程度。
完整性:按照數據規則要求,數據元素被賦予數值的程度。
准確性:數據准確表示其所描述的真實實體(實際對象)真實值的程度。
一致性:數據與其他特定上下文中使用的數據無矛盾的程度。
時效性:數據在時間變化中的正確程度。
可訪問性:數據能被訪問的程度。
國際數據管理協會(DAMA)在其發布的《DAMA數據管理知識體系指南》提出了其數據質量評估框架:
對於數據質量的評估指標在國家標准、國際實踐中存在一定的差異,企業應根據自身業務實際情況,在內部管理要求下建設適合的數據質量評估體系、維度和指標。
數據質量問題產生的原因
數據質量問題導致的後果是顯而易見的,那麼導致數據質量問題的根本原因是哪些呢?影響數據質量的主要因素是技術、業務和管理三個方面,以下從這三個方面來分析產生的原因。
技術方面
數據源存在數據質量問題,例如:有些數據是從生產系統採集過來的,在生產系統中這些數據就存在重復、不完整、不準確等問題,而採集過程有沒有對這些問題做清洗處理,這種情況也比較常見。
數據採集過程質量問題, 例如:採集參數和流程設置的不正確,數據採集介面效率低,導致的數據採集失敗、數據丟失、數據映射和轉換失敗。
數據傳輸過程的問題,例如:數據介面本身存在問題、參數配置錯誤、網路不可靠等都會造成數據傳輸過程中的發生數據質量問題。
數據裝載過程的問題,例如:數據的清洗、轉換、裝載規則配置有問題。
數據存儲的質量問題,例如:存儲設計不合理,存儲能力有限,人為後台調整數據,引起的數據丟失、數據無效、數據失真、記錄重復。
業務系統存在數據孤島,煙囪式建設,系統間的數據不一致問題嚴重。
業務方面
業務端數據錄入不規范,一些常見的數據錄入問題,如大小寫、全半形、單位等。業務端輸入時,系統沒有嵌入相關數據校驗規則,導致錄入受人為因素影響大,如應輸入合同金額,100000元、十萬元、拾萬元等。人工錄入的數據質量與錄數據的業務人員密切相關,錄數據的人工作嚴謹、認真,數據質量就相對較好,反之就較差。
管理方面
企業管理思維層面沒有認識到數據質量的重要性,重系統而輕數據,認為系統是萬能的,存儲在系統中的數據就應該是質量過硬的。
企業內部沒有明晰數據的認責管理制度,沒有設定相應的歸口管理部門,出現數據質量問題找不到對應的負責人。
數據錄入規范不統一,同一業務部門在處理相同業務時,因為規范不統一,人為因素造成數據沖突或者矛盾。
缺乏從上至下的數據規劃,沒有設定相應的數據質量管理目標,沒有制定數據質量相關的政策、管理和考核制度。
缺乏有效的數據質量問題處理機制,從數據質量問題的發現、指派、處理、優化沒有統一的流程和制度支撐,數據質量問題無法做到閉環管理和考核。
數據質量管理解決方案
針對以上從技術、業務、管理三個方面產生數據質量問題的原因剖析,有必要從事前預防控制、事中過程監控、事後監督管理三個方面進行數據質量監控以持續改進數據質量。
事前控制預防
建立企業內涵蓋各業務主題的數據標准,統一指標定義、指標口徑、涵蓋每個業務欄位的錄入規范。對於手動錄入的數據,盡可能的使用非開放式的輸入手段,如下拉菜單、單復選框、時間控制項、標簽(支持自定義學習型)等,必須開放的輸入部分,進行必要的及時校驗。另外對於系統原因造成的數據質量問題,我們需要建立數據標准體系,對於可以改造的生產系統,在數據標準的指導下進行改造,對於不能改造的系統,通過一些技術手段進行清洗轉換,在數據產生的環節把控數據質量,這樣效率必然是最高的。
建立企業內部的數據認責制、數據質量管理部門,制定數據質量監控流程和考核辦法亦有助於數據質量的事前控制預防機制的完善。
事中過程監控
事中數據質量的控制,即在數據的維護和使用過程中去監控和處理數據質量。通過建立數據質量的流程化控制體系,對數據的新建、變更、採集、加工、裝載、應用等各個環節進行流程化控制。在這個過程中可以藉助數據質量管理工具中的相關模塊對數據流向的各個節點進行數據質量監測,可以實時預警數據質量,從數據的源頭端控制好數據質量,支持系統自動化校驗和人工審核相結合的方式進行管理。在這個過程中,亦可將在數據質量管理工具中嵌入企業的數據質量問題處理機制相關流程和審批流,有效輔助和監控數據質量。
事後監督管理
對於已經存儲在 數倉 中的數據,發現質量問題,就得使用數據質量管控工具了。在數據倉庫或數據中心建立時,就按照數據標准對關鍵欄位進行統一命名、格式、精度等,排除數據的歧義。根據數據標准,在數據質量管理工具中建立相應的規則模型,對於導入的歷史數據,可以藉助運行規則模型發現數據質量問題,並在平台中對於數據質量問題進行全流程的追蹤。
結語
數據質量管理是企業數據治理一個重要的組成部分,企業數據治理的所有工作都是圍繞提升數據質量目標而開展的。要做好數據質量的管理,應抓住影響數據質量的關鍵因素,設置質量管理點或質量控制點,從數據的源頭抓起,從根本上解決數據質量問題。
數據質量問題對於很多企業已經是迫在眉睫需要解決的問題了,是時候開展 數據治理 了。數據質量的提升並不是一蹴而就的,做一次數據整改就能解決所有數據質量問題。對於已有數據,通過數據質量管理工具進行校驗和清洗,另外需要通過數據標准和數據質量建立起完善的數據質量管控體系,在各個環節進行監控,定期檢查數據質量,確定解決方案,並加以改進,不斷地提升數據質量。
② 什麼叫經濟數據偏差
經濟數據偏差是指在進行經濟數據採集、統計以及分析比較得出的價值數據與真實經濟活動數據有一定程度的偏離。經濟數據偏差是由其內生性決定的, 比如由於國民經濟統計體系本身存在缺陷,地方政府 GDP 政績沖動或者微觀經濟主體規避稅收和管制的動機,都可能造成經濟數據的扭曲。在觀測者-被觀測者-決策者模型中,存在三方都有可能欺騙的可能和動機。經濟數據偏差會對於經濟決策帶來嚴重後果。