❶ 數據探索 —— 數據質量分析
數據質量分析是數據挖掘中數據准備過程的重要一環,是數據預處理的前提,也是數據挖掘分析結論有效性和准確性的基礎,沒有可信的數據,數據挖掘構建的模型將是空中樓閣。
數據質量分析的主要任務是檢查原始數據中是否存在臟數據,臟數據一般是指不符合要求,以及不能直接進行響應分析的數據。在常見的數據挖掘工作中,臟數據包括如下內容:
數據的缺失主要包括記錄的缺失和記錄中某個欄位信息的缺失,兩者都會造成分析結果的不準確,以下從缺失值產生的原因及影響等方面展開分析。
(1)缺失值產生的原因
1)有些信息暫時無法獲取,或者獲取信息的代價太大。
2)有些信息是被遺漏的。可能是因為輸入時認為不重要、忘記填寫或對數據理解錯誤等一些人為因素而遺漏,也可能是由於數據採集設備的故障、存儲介質的故障、傳輸媒體的故障等非人為原因而丟失。
3)屬性值不存在。在某些情況下,缺失值並不意味著數據有錯誤。對一些對象來說某些屬性值不存在的,如一個未婚者的配偶姓名、一個兒童的固定收入等。
(2)缺失值的影響
1)數據挖掘建模將丟失大量的有用信息。
2)數據挖掘模型所表現出的不確定性更加顯著,模型中蘊含的規律更難把握。
3)包含空值的數據會使建模過程陷入混亂,導致不可靠的輸出。
(3)缺失值的分析
使用簡單的統計分析,可以得到含有缺失值的屬性的個數,以及每個屬性的未缺失數、缺失數與缺失率等。
異常值分析是檢驗數據是否有錄入錯誤以及含有不合常理的數據。忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數據的計算分析過程中,對結果會產生不良影響;重視異常值的出現,分析其產生的原因,常常成為發現問題進而改進決策的契機。
異常值是指樣本中的個別值,其數據明顯偏離其餘的觀測值。異常值也稱為離群點,異常值的分析也稱為離群點分析。
(1)簡單計量分析
可以先對變數做一個描述性統計,進而查看哪些數據是不合理的。最常用的統計量是最大值和最小值,用來判斷這個變數的取值是否超出了合理的范圍。如客戶年齡的最大值為199歲,則該變數的取值存在異常。
(2)3σ原則
如果數據服從正態分布,在3σ原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標准差的值。在正態分布的假設下,距離平均值3σ之外的值出現的概率為P(|x-μ|>3σ)≤0.003,屬於極個別小概率事件。
如果數據不服從正態分布,也可以用遠離平均值的多少倍標准差來描述。
(3)箱型圖分析
箱型圖提供了識別異常值的一個標准:異常值通常被定義為小於QL-1.5IQR或大於Qu+1.5IQR的值。QL成為下四分位數,表示全部觀察值中有四分之的數據取值比它小;Qu稱為上四分位數,表示全部觀察值中有四分之一的數據取值比它大;IQR稱為四分位數間距,是上四分位數與下四分位數之差,其間包含了全部觀察值的一半。
箱型圖依據實際數據繪制,沒有對數據作任何限制性要求(如服從某種特定的分布形式),它只是真實直觀地表現數據分布的本來面貌;另一方面,箱型圖判斷異常值的標准以四分位數和四分位距為基礎,四分位數具有一定的魯棒性:多達25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值不能對這個標准施加影響。由此可見,箱型圖識別異常值得結果比較客觀,在識別異常值方面有一定的優越性。
在餐飲系統中的銷量額數據可能出現缺失值和異常值,如下表所示:
分析餐飲系統日銷售額數據可以發現,其中有部分數據是缺失的,但是如果數據記錄和屬性較多,使用人工分辨的方法就不切合實際,所以這里需要編寫程序來檢測出含有缺失值的記錄和屬性以及缺失率個數和缺失率。
在Python的Pandas庫中,只需要讀入數據,然後使用describe()函數就可以查看數據的基本情況。
運行結果如下:
其中count是非空數值,通過len(data)可以知道數據記錄為201條,因此缺失值數為1。另外,提供的基本參數還有平均值(mean)、標准差(std)、最小值(min)、最大值(max)以及1/4、1/2、3/4分位數(25%、50%、75%)。更直觀地展示這些數據,並且可以檢測異常值的方法是使用箱型圖。
運行程序,其結果為「缺失值個數為:1」,同時可以得到如上圖所示的箱型圖。
從圖中可以看出,箱型圖中超過上下界的7個銷售額數據可能為異常值。結合具體業務可以把865、4060.3、4065.2歸為正常值,將22、51、60、6607.4、9106.44歸為異常值。最後確定過濾規則為:日銷量在400以下5000以上則屬於異常數據,編寫過濾程序,進行後續處理。
數據不一致性是指數據的矛盾性、不相容性。直接對不一致的數據進行挖掘,可能會產生與實際相違背的挖掘結果。
在數據挖掘過程中,不一致數據的產生主要發生在數據集成過程中,這可能是由於從不同的數據源、對於重新存放的數據未能進行一致性造成的。例如,兩張表中都存儲了用戶的電話號碼,但在用戶的電話號碼發生改變時只更新了一張表中的數據,那麼這兩張表中就有了不一致的數據。
❷ 達縣統計局如何進行數據質量監管
達縣統計局的主要職責涉及以下幾個方面:
統計局組織學習和宣傳統計法律、法規,嚴格執行國家統計法律法規,確保其有效實施。通過全縣性統計執法檢查,規范統計秩序,保障統計數據的准確性和可靠性。
統計局負責協調各股室、鄉鎮和部門,嚴格執行國家統計標准和報表制度。制定並管理地方統計和國民經濟核算體系,確保統計數據的統一性和完整性。
統計局督促行政區域內的單位配置統計資源,完成統計任務。組織全縣性普查和專項調查,對統計數據質量進行嚴格監控。
統計局進行深入的統計分析,為決策提供依據,並參與全縣經濟社會目標責任的考核,實施有效監督。
統計局負責核定、管理、公布和出版全縣性基本統計資料,定期發布國民經濟和社會發展的重要統計信息。
統計局致力於統計現代化,管理全縣統計信息自動化和統計資料庫體系,提高工作效率。
統計局對統計機構和人員進行業務考核,並組織統計專業技術資格考試、技術職務評審和統計人員的崗位培訓。
受省統計局委託,統計局領導和管理達縣農村社會經濟調查隊,確保農村統計數據的准確。
統計局負責本系統的精神文明建設、社會穩定和安全工作,維護良好的統計工作環境。
❸ 在收集數據時對數據質量進行控制的主要辦法包括
在收集數據時對數據質量進行控制的主要辦法包括:
1.明確研究目的和問題:
在數據收集之前,研究者需要明確研究的目的和問題。這有助於確定需要收集的數據類型、范圍和深度,從而提高數據的准確性和相關性。明確研究目的有助於避免不必要的數據收集,使得數據更加有針對性。
9.建立數據管理系統:
建立科學的數據管理系統有助於確保數據的安全性和完整性。包括數據備份、許可權管理、版本控制等方面的措施,可以有效防範數據丟失和篡改的風險。
10.開展數據質量評估:
在數據收集結束後,進行數據質量評估是一個總結性的環節。通過統計分析、邏輯檢查、異常值分析等方法,對數據進行全面評估,發現潛在問題並提出改進意見,為後續數據分析提供可靠的基礎。
總體而言,對數據質量的控制是數據收集過程中至關重要的一環。通過上述主要辦法的綜合應用,研究者可以有效提高數據的准確性、可靠性和科學性,確保研究結論的有效性和可信度。