導航:首頁 > 數據處理 > 數據質量是什麼

數據質量是什麼

發布時間:2022-12-14 04:08:46

❶ 數據的質量體現在哪裡

數據質量主要包括:統計數據的內容質量、表述質量、約束標准三大方面。
統計數據的內容質量是統計數據最基本的特徵,它包括相關性、准確性與及時性。一旦缺少了其中任何一個,統計數據就失去了轉化為信息的性質和基本作用。因此,這三個特徵也可稱為統計數據質量的主要特徵。
數據是組織最具價值的資產之一。企業的數據質量與業務績效之間存在著直接聯系,高質量的數據可以使公司保持競爭力並在經濟動盪時期立於不敗之地。有了普遍深入的數據質量,企業在任何時候都可以信任滿足所有需求的所有數據。

❷ 數據質量有幾種維度分別是什麼


❸ 數據質量與數據質量八個維度指標

數據質量與數據質量八個維度指標

數據的質量直接影響著數據的價值,並且直接影響著數據分析的結果以及我們以此做出的決策的質量。質量不高的數據不僅僅是數據本身的問題,還會影響著企業經營管理決策;錯誤的數據還不如沒有數據,因為沒有數據時,我們還會基於經驗和基於常識的判斷來做出不見得是錯誤的決策,而錯誤的數據會引導我們做出錯誤的決策。因此數據質量是企業經營管理數據治理的關鍵所在。

數據的質量可以從八個方面進行衡量,每個維度都從一個側面來反映數據的品相。八個維度分別是:准確性、真實性、完整性、全面性、及時性、即時性、精確性和關聯性。

我們在比較兩個數據集的品相的時候往往採用這種圖形表示。比如說,常規來講內部數據採集的准確性、真實性、完整性高,而全面性、及時性、即時性、精確性和關聯性方面取決於企業內部對數據的重視程度以及採用的技術手段的先進性有關;外部數據集,比如說微博數據、互聯網媒體數據等,其全面性、及時性和即時性都可以通過技術手段,如網路爬蟲等得到提高,但在准確性、真實性、精確性上難以保證,也難以控制,在關聯性方面取決於數據採集和挖掘的相關技術。

我們也可以用這個模型來衡量公司內部各個職能部門數據的品相。下圖是個示意,通過數據質量8大指標的評價,我們可以對企業內部數據治理有針對性地採取措施去提高企業的數據質量。

數據的准確性

數據的准確性(Accuracy)是指數據採集值或者觀測值和真實值之間的接近程度,也叫做誤差值,誤差越大,准確度越低。數據的准確性由數據的採集方法決定的。

數據的精確性

數據的精確性(Precision)是指對同一對象的觀測數據在重復測量時所得到不同數據間的接近程度。精確性,也可以叫精準性。精確性與我們數據採集的精度有關系。精度高,要求數據採集的粒度越細,誤差的容忍程度越低。

測量人的身高,我們可以精確到厘米,多次測量差異只會在厘米級別;測量北京到上海的距離,我們精確到公里,多次測量結果間的差異會在公里級別;採用游標卡尺測量一個零件的厚度,可以精確到1/50毫米,多次測量的結果間的誤差也只會在1/50毫米間。採用的測量方法和手段直接影響著數據的精確性。

數據的真實性

數據的真實性,也叫數據的正確性(Rightness)。數據的正確性取決於數據採集過程的可控程度,可控程度高,可追溯情況好,數據的真實性容易得到保障,而可控程度低或者無法追溯,數據造假後無法追溯,則真實性難以保證。

為了提高數據的真實性,採用無人進行過程干涉的智能終端直接採集數據,能夠更好地保證所採集數據的真實性,減少人為干預,減少數據造假,從而讓數據更加正確地反應客觀事物。

數據的及時性

數據的及時性(In-time)就是數據能否在需要的時候得到保證。我們月初會對上個月的經營和管理數據進行統計匯總,這些數據能否及時處理完成,財務能否在月度關賬後及時核算。數據的及時性是我們數據分析和挖掘及時性的保障。如果公司的財務核算復雜,核算速度緩慢,上個月的數據在月中才能統計匯總完成,等需要調整財務策略的時候,已經到了月底了,一個月已經快過完了。特別是公司做大了之後,業務覆蓋多個市場、多個國家,數據不能及時匯總,會影響到高層決策的及時程度。

數據的及時性與企業數據處理的速度和效率有直接的關系,為了提高數據的及時性,越來越多的公司採用管理信息系統,並在管理信息系統中附加各種自動數據處理功能,能夠在數據上傳系統之後自動完成絕大部分報表,從而保證數據處理的效率。計算機自動處理中間層數據是提高企業數據處理效率的有效手段。

除了保證數據採集的及時性和數據處理的效率問題外,還需要從制度和流程上保證數據傳輸的及時性。數據報表完成了,要及時或者在要求的時間范圍內發送到指定的部門,或者上傳到指定的存儲空間。

數據的即時性

數據的即時性是指數據採集時間節點和數據傳輸的時間節點,一個數據在數據源頭採集後立即存儲,並立即加工呈現,就是即時數據,而經過一段時間之後再傳輸到信息系統中,則數據即時性就稍差。

微博的數據採集,當用戶發布了微博,數據立即能夠被抓取和加工,會生成即時微博數據報告,並隨著時間推移,數據不斷變化,我們可以稱作是即時採集和處理的。一個生產設備的儀表即時反應著設備的溫度、電壓、電流、氣壓等數據,這些數據生成數據流,隨時監控設備的運行狀況,這個數據可以看作是即時數據。而當設備的即時運行數據存儲下來,用來分析設備運行狀況與設備壽命的關系,這些數據就成為歷史數據。

數據的完整性

數據的完整性是從數據採集到的程度來衡量的,是應採集和實際採集到數據之間的比例。一條信息採集12個數據點,如我們採集員工信息數據的時候,要求填寫姓名、出生日期、性別、民族、籍貫、身高、血型、婚姻狀況、最高學歷、最高學歷專業、最高學歷畢業院校、最高學歷畢業時間等12項信息,而某一員工僅僅填寫了部分信息,如只填寫了其中的5項,則該員工所填寫數據的完整性只有一半。

一個公司數據的完整性體現著這個公司對數據的重視程度。要求採集數據而實際上並未完整採集,只採集了一部分,這就是不完整的,往往是公司對數據採集質量要求不到位導致的。公司要求每個人都填寫完整的個人信息表,而有部分員工拒絕填寫,公司2000員工,只有1200人填寫了完整的個人信息表,則這個數據集就是不完整的。

另外,對於動態數據,我們可以從時間軸上去衡量數據採集的完整性。比如,我們要求每小時採集一次數據,每天會形成24個數據點,記錄為24條數據,但是員工瀆職,只記錄了20次,那麼這個數據集也是不完整的。

數據的全面性

數據的全面性和完整性不同,完整性衡量的是應採集和實際採集的差異。而全面性指的是數據採集點的遺漏情況。比如說,我們要採集員工行為數據,我們只採集了員工上班打卡和下班打卡的數據,上班時間的員工行為數據並未採集,或者沒有找到合適的方法來採集。那麼,這個數據集就是不全面的。

我們描述一個產品的包裝,僅僅描述了產品包裝的正面和背面,沒有記錄產品包裝的側面,則就是不全面的。我們記錄一個客戶的交易數據,我們只採集了客戶訂單中的產品、訂單中產品的價格和數量,而沒有採集客戶送貨地址、采購時間,這個數據採集就是不全面的。

騰訊QQ和微信的用戶數據記錄了客戶交流溝通的數據;阿里和京東的用戶數據記錄了用戶的購買交易數據;網路地圖記錄了用戶出行的數據;大眾點評和美團記錄了客戶餐飲娛樂的數據。對於全面描述一個人的生活的衣食住行各方面,這些公司的數據都是不全面的,而如果把他們的數據整合起來,則會形成更加全面的數據。所以說,數據的全面性說一個相對的概念。過度追求數據的全面性說不現實的。

數據的關聯性

數據的關聯性是指各個數據集之間的關聯關系。比如員工工資數據和員工績效考核數據是通過員工這個資源關聯在一起來的,而且績效數據直接關繫到工資的多少。采購訂單數據與生產訂單數據之間通過物料的追溯機制進行關聯,而生產訂單又是由員工完成的,即通過員工作業數據與員工信息數據關聯起來。

其實,我們本書探討的企業大數據,每個數據集都是相關關聯的,有些是直接關聯的,比如員工工資數據和員工績效數據,有些是間接關聯的,比如說物料采購訂單數據與員工工資數據。這些數據的關聯關系是由公司的資源,包括人、財、物和信息等,連接起來的。如果有任何的數據集不能連接到其他的數據集,就會存在數據割裂或者數據孤島。數據割裂和數據孤島是企業數據關聯性不足導致的。而數據的關聯性直接影響到企業數據集的價值。

❹ 什麼是地理信息系統的數據質量具體包括哪些內容

-關於數據質量
質量:是一個用來表徵人造物品的優越性或者證明其所具有技術含量的多少或

者表示其藝術性高低的常用術語。
近年來由於一下原因,關注數據質量:
1, 增加私營部門的數據生產 。
2,進一步利用地理信息作為決策支持工具。
3,日益依賴二手數據來源。
—空間數據質量的概念:
1,誤差:反映了數據與真值或者大家公認的真值之間的關系。
2,數據的准確度:被定義為結果計算值或估計值或公認值之間的接近程度。
3,數據的精密度(儀器本身):是指在數量上能夠辨別的程度,指數據的有效位

數,表示測量值本身的離散程度。解析度影響到一個資料庫對某個具體應用的適用

程度。
4,不確定性:是關於空間過程和特徵,不能被准確確定的程度。

❺ 淺談數據質量管理:為了更清醒的數據

戰戰兢兢地寫下標題,得意下「清醒」這個詞用得真是獨樹一幟,跟外面那些妖艷賤貨好不一樣。我們常常說人要時刻保持清醒,這樣才能不被假象所蒙蔽。那數據其實更需要這點,我們需要透過數據挖掘本質,如果數據是不具備完整人格的,缺失完整性、規范性、一致性等維度,那麼我們看到的本質也是偏差的。開篇先鬼扯一下,詳情請往下滑~

數據質量管理是指為了滿足信息利用的需要,對信息系統的各個信息採集點進行規范,包括建立模式化的操作規程、原始信息的校驗、錯誤信息的反饋、矯正等一系列的過程。

為什麼有這么多人強調改善數據質量管理的重要性,用一種很抽象的比喻描述,如果把整個數據應用比作人體的話,那好的數據就相當於新鮮和沸騰的血液,能讓我們的身體充滿活力,高效地工作思考。而質量差的血液攜帶廢物和毒素,隨著毒素越積越多,血液以及血管就會發生病變,血液流經的全身各處器官也會大受影響。如果非要要具體的數據證明,我摘取了一些專家的統計:

那什麼會影響數據質量呢?其實簡單就分為2個因素。

在此附上數據的生命周期圖,包括各環節的數據流轉和數據處理。

那怎麼樣才算質量好的數據呢?借用數據質量評估六要素,順便附上自己的一些解析:

如何通過具體工作來貫徹落實數據質量管理呢?由於數據質量管理是貫穿數據整個生命周期的,所以根據數據的各環節進行分點描述:

數據稽核是指實現數據的完整性和一致性檢查,提升數據質量,數據稽核是一個從數據採集,預處理,比對,分析,預警,通知,問題修復的完整數據質量管控鏈條。

1、配置校驗規則,例如欄位映射等。
2、配置調度規則,例如調度頻率等。
3、配置報表模板,例如稽核結果等。

數據清洗是指發現並糾正數據文件中可識別的錯誤的最後一道程序,包括檢查數據一致性,處理無效值和缺失值等。與問卷審核不同,錄入後的數據清理一般是由計算機而不是人工完成。

如何保證數據質量?
數據分析師必修課(1)——數據質量評估
淺談數據質量管理
利用數據質量規則庫推動數據質量管理
主數據-數據質量管理
談數據稽核(3)
中興軟創-數據稽核系統解決方案

❻ 數據質量分析的主要內容包括哪些

包括:
1、影響GIS數據質量的因素
2、 GIS數據源的質量問題
3、GIS資料庫建立過程中的質量問題
4、GIS分析處理過程引入的數據質量問題

❼ 數據質量包括什麼方面

數據質量包括數據質量控制和數據治理。

數據是組織最具價值的資產之一。企業的數據質量與業務績效之間存在著直接聯系,高質量的數據可以使公司保持競爭力並在經濟動盪時期立於不敗之地。有了普遍深入的數據質量,企業在任何時候都可以信任滿足所有需求的所有數據。

一個戰略性和系統性的方法能幫助企業正確研究企業的數據質量項目,業務部門與 IT 部門的相關人員將各自具有明確角色和責任,配備正確的技術和工具,以應對數據質量控制的挑戰。

(7)數據質量是什麼擴展閱讀:

控制方法:

1、探查數據內容、結構和異常

第一步是探查數據以發現和評估數據的內容、結構和異常。通過探查,可以識別數據的優勢和弱勢,幫助企業確定項目計劃。一個關鍵目標就是明確指出數據錯誤和問題,例如將會給業務流程帶來威脅的不一致和冗餘。

2、建立數據質量度量並明確目標

Informatica的數據質量解決方案為業務人員和IT人員提供了一個共同的平台建立和完善度量標准,用戶可以在數據質量記分卡中跟蹤度量標準的達標情況,並通過電子郵件發送URL來與相關人員隨時進行共享。

3、設計和實施數據質量業務規則

明確企業的數據質量規則,即,可重復使用的業務邏輯,管理如何清洗數據和解析用於支持目標應用欄位和數據。業務部門和IT部門通過使用基於角色的功能,一同設計、測試、完善和實施數據質量業務規則,以達成最好的結果。

4、將數據質量規則構建到數據集成過程中

Informatica Data Quality支持普遍深入的數據質量控制,使用戶可以從擴展型企業中的任何位置跨任何數量的應用程序、在一個基於服務的架構中作為一項服務來執行業務規則。

數據質量服務由可集中管理、獨立於應用程序並可重復使用的業務規則構成,可用來執行探查、清洗、標准化、名稱與地址匹配以及監測。

5、檢查異常並完善規則

在執行數據質量流程後,大多數記錄將會被清洗和標准化,並達到企業所設定的數據質量目標。然而,無可避免,仍會存在一些沒有被清洗的劣質數據,此時則需要完善控制數據質量的業務規則。Informatica Data Quality可捕獲和突顯數據質量異常和異常值,以便更進一步的探查和分析。

5、對照目標,監測數據質量

數據質量控制不應為一次性的「邊設邊忘」活動。相對目標和在整個業務應用中持續監測和管理數據質量對於保持和改進高水平的數據質量性能而言是至關重要的。

Informatica Data Quality包括一個記分卡工具,而儀錶板和報告選項則具備更為廣泛的功能,可進行動態報告以及以更具可視化的方式呈現。

❽ 什麼是數據的質量

�1�3 測量系統分析(MSA) 什麼是測量系統 * 測量系統:用來對被測特性賦值的操作、程序、量具、設備、 軟體及操作人員的集合 人 設備 材料 測量過程 數據 方法 環境 輸入 輸出 * 測量系統應具備的特性 1 ) 處於統計控制狀態,即只存在變差的普通原因; 2 ) 測量系統的變異性小於過程變異性; 3 ) 測量系統的變異性小於技術規范界限; 4 ) 測量精度應高於過程變異性和技術規范寬度的 1/10 ; 5 ) 當被測項目變化時,測量系統統計特性的最大變差小於過 程變差和規范寬度較小者; * 數據的類型 ——計量型數據 ——計數型數據 * 如何評定數據質量 ——測量結果與「真」值的差越小越好 ——數據質量是用多次測量的統計結果進 行評定 * 計量型數據的質量 ——均值與真值(基準值)之差 ——方差大小 * 計數型數據的質量 ——對產品特性產生錯誤分級的概率 測量系統評定的兩個階段 * 第一階段(使用前) ——確定統計特性是否滿足需要 ——確定環境因素是否有影響 * 第二階段(使用過程) ——確定是否持續的具備恰當的統計特性 測量系統特性及變差類型和定義 類型 定義 圖示 分辨力 測量系統檢出並 如實指出被測定 特性微小變化的 能力 評價均值質量 偏倚 觀測平均值與基 准值的差 基準值 偏倚 穩定性 在某種持續時間 內測量同一基準 或零件單一特性 結果的總變差 穩定性 時間 2 時間 1 線性 量具的預期工作 范圍內偏倚的變 化 觀察平均值 有偏倚 無偏倚 基準值 評價變差 質量 重復性 同一評價人,多次 測量同一特性的 觀測值變差 再現性 不同評價人,測量 同一特性觀測平 均值的變差 B C A 再現性 測量系統的分辨力 * 建議的可視解析度 ≤ 6 σ /10 σ——過程的標准差(不是公差寬度的 1/10 ) * 解析度不足對控制圖的影響 測量系統的穩定性 * 兩種穩定性 ——一般概念:隨著時間變化系統偏倚的總變 差。 ——統計穩定性概念:測量系統只存在普通原 因變差而沒有特殊原因變差。 * 利用控制圖評價測量系統穩定性。 ——保持基準件或標准樣件。 ——極差圖(標准差圖)出現失控時,說明存 在不穩定的重復性。 ——均值圖出現失控時,說明偏倚不穩定。 評價測量系統的三個基本問題 * 是否有足夠的分辨力 * 是否統計穩定 * 統計特性用於過程式控制制和分析是否可接受。 盲測法 * 在實際測量環境下,在操作者事先不知正在對 該測量系統進行評定的條件下,獲得測量結果。 向傳統觀念挑戰 * 長期存在的把測量誤差只作為公差范圍百分 率來報告的傳統,是不能面臨未來持續改進的 市場挑戰。 國際標准 國家標准 地方標准 公司標准 檢測設 備製造廠 測量結果 * 追溯性:通過應用連接標准等級體系的適當標 標準的傳遞 國際實驗室 國家實驗室 國家認可的 校準機構 企業的校準 實驗室 生產現場 准程序,使單個測量結果與國家標准或國家接 受的測量系統相聯系。

❾ 數據質量

淺談數據質量管理:為了更清醒的數據

數據質量管理的一些思考

大數據Clouder認證:使用MaxCompute進行數據質量核查

度量的兩個方面:

1、設計質量度量

數據資產目錄 數據標准 數據模型 數據分布

2、執行質量度量

完整性 准確性 唯一性 一致性 及時性 有效性  (單列、跨列、跨行、跨表)

數據質量設計原則

1、關鍵環節注入監控流程 比如數據源接入、多維模型等

2、重要數據:事務數據、主數據、基礎數據(數據字典)要進入監控流程;持續穩定的數據可以退出監控流程;價值密度低可以退出監控流程;

數據質量四部曲

策劃、控制、度量、改進

打分機制:

指定表的質量KPI,針對表的故障率進行數據質量運營。

最主要的數據質量度量:

1、完整性:空值,數據量(是否漏傳)等;

2、一致性:各層前後結果是否一致;

3、是否重復性:數據在單層是否重復

工具:

Griffin 功能有Bug 

Shell+Hive 建議(通過Web界面化)

各層校驗規則:

ods層:

- 增量數據記錄數(短期)設置合理值

- 全量數據記錄數(長期)設置合理值

- 空值:

-重復值:使用不為空的欄位校驗

dwd層:

- 一致性 將需要一致性檢測的欄位,與ods層做關聯join

- 重復性 使用不為空的欄位校驗

- 空值不需要檢驗:因為已經做了一致性校驗了

dws/dwt層:

- 思路跟ods層一樣

ads層:

- 判定指標是否在合理范圍內,需設置合理值,與之對比,如超預期,展現層不體現該指標,並觸發質量問題排查追蹤(atlas追蹤血緣關系,觸發ETL流程)

數據質量修復:

1、數據丟失:按DT分區,重新導入

2、數據重復:分區表:按DT分區,刪除分區所有數據,重新導入;全量表:重導一次

3、指標不符合正常規律:atlas追蹤血緣關系,觸發ETL流程

❿ 數據質量基本概念

誤差反映了數據與真實值或者公認的真值之間的差異,它是一種常用的衡量數據准確性的表達公式。

數據的准確度被定義為結果、計算值或估計值與真實值或者公認的真值的接近程度。
如果兩地間的距離為110,從地圖上量測的舉例為98,那麼地圖距離的誤差為2;若用GPS測量並計算兩點間的距離得99.9,則GPS的測距誤差為0.1,因而GPS比地圖量測距離更准確。

數據的精密度指數據表示的精密程度,亦即數據表示的有效位數。它表現了測量值本身的離散程度。由於精密度的實質在於它對數據准確度的影響。同時在很多情況下,它可以通過准確度而得到體現,故常把兩者結合在一起稱為精確度,簡稱精度。
如對同樣兩點,用GPS測量可得9.903,而用工程制圖尺在1:10萬地形圖上量算僅可得小數點後兩位,即9.85。9.85比9.903精度低。但精度低的數據並不一定準確度低。

不確定性是關於空間過程和特徵不能被准確確定的程度,是自然界各種空間現象自身固有的屬性。在內容上,它是以真值為中心的一個范圍,這個范圍越大,數據的不確定性也就越大。
當真值不可測或無法知道時,我們就無法確定誤差,因而用不確定性取代誤差。統計上,用多次測量的平均值來計算真值,因而標准差來反映可能的誤差大小。因此可以用標准差來表示測量值不確定性。然而欲知標准差,就需要對同一現象做多次測量。所以要知道某測量值的不確定程度,需要多次測量,而稱一次測量的結果為不確定的。

相容性是指兩個來源的數據在同一個應用中使用的難易程度。
例如兩個相鄰地區的土地利用圖,當要將它們拼接到一起時,兩圖邊緣處不僅邊界線可良好地銜接,而且類型也一致,稱兩圖相容性好。反之,若圖上的土地利用邊界無法接邊,可見兩個城市的統計指標不一致也可造成數據無法比較致使數據不相容。這種不相容可以通過同一分類和統計標准來減輕。
另一類不相容性,可從使用不同比例尺的地圖數據看到,一般土壤圖比例尺小於1:10萬,而植被圖則在1:15000至1:50000之間,當使用這兩種數據進行生態分類時,可能出現兩種情況:一是當某一土壤圖的圖斑大得使它代表的土壤類型在生態分類時可以被忽略;二是當土地界線與某植被圖斑相交時,它實際應該與植被圖斑的部分界線一致。

一致性是指對同一現象或同類現象的表達的一致程度。如果同一條河流,在地形圖上和在土壤圖上形狀不同,又如同一行政邊界在人口圖和土地利用圖上不能重合,這些均表示數據的一致性差。

完整性是指具有同一準確度和精度的數據在類型上和特定范圍內是否完整的程度。完整性主要是針對空間屬性數據的,且隨著時代的發展而完整性不斷在完善。針對不同的應用部門對完整性的內容不一樣,如:交通部門和房地產部門對房子的認識就不一樣,交通部門只要知道房子的位置就行了,而房地產部門對房子就要知道其大小,結構,房主,房價等。可見實體的完整性是地圖最難確定的,也是最需要更新的。

可得性是指獲取或使用數據的容易程度。保密的數據按其等級限制使用者的多少,有些單位或個人無權使用;公開的數據則按價決定可得性。由於我國經濟水平還比較低,數據的可得性已人為制約地圖在我國的發展和造成地圖基礎設施的重復建設。

現勢性是指數據反映客觀目前狀況的程度。不同現象的變化頻率是不同的,如地形、地質狀況的變化一般來說比人類建設要緩慢,地形可能由於山崩、雪崩、滑坡、泥石流、人工挖掘及填海等原因而在局部區域改變。

閱讀全文

與數據質量是什麼相關的資料

熱點內容
山東工程職業技術大學校服多少錢 瀏覽:217
村民如何查詢被征地信息 瀏覽:614
微信上的小程序如何徹底刪除 瀏覽:474
廣東過禮娶親要走什麼程序 瀏覽:761
交易中的心魔怎麼克服 瀏覽:639
童裝代理什麼品牌好 瀏覽:774
研發轉技術文檔怎麼樣 瀏覽:702
商業銀行的市場准入有哪些內容 瀏覽:355
政府引導市場運作是什麼意思 瀏覽:39
為什麼qq經常正在更新數據 瀏覽:180
內存是如何存數據的 瀏覽:55
信道狀態指示包括以下哪些信息 瀏覽:305
什麼是現代市場體系 瀏覽:891
加盟代理商如何注冊 瀏覽:249
g工程和數字媒體技術哪個前景好 瀏覽:372
信息化系統如何運維 瀏覽:415
濟南特色早餐技術培訓哪裡好 瀏覽:292
什麼是貨幣交易所的充值與提幣 瀏覽:951
信息提取題考查什麼 瀏覽:388
老外技術到底怎麼樣 瀏覽:745