導航:首頁 > 數據處理 > 如何發現數據異常

如何發現數據異常

發布時間:2024-08-29 00:49:46

A. 如何判別測量數據中是否有異常值

1、概述:一組測量數據中,如果個別數據偏離平均值很遠,那麼這個(這些)數據稱作「可疑值」。如果用統計方法—例如格拉布斯(Grubbs)法判斷,能將「可疑值」從此組測量數據中剔除而不參與平均值的計算,那麼該「可疑值」就稱作「異常值(粗大誤差)」。本文就是介紹如何用格拉布斯法判斷「可疑值」是否為「異常值」。

2、測量數據:例如測量10次(n=10),獲得以下數據:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

3、排列數據:將上述測量數據按從小到大的順序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。

4、計算平均值x-和標准差s:x-=7.89;標准差s=2.704。計算時,必須將所有10個數據全部包含在內。

5、計算偏離值:平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。

6、確定一個可疑值:比較起來,最大值與平均值之差6.11大於平均值與最小值之差3.19,因此認為最大值14.0是可疑值。

7、計算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序號——10號;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由於 x10-x-是殘差,而s是標准差,因而可認為G10是殘差與標准差的比值。

8、下面要把計算值Gi與格拉布斯表給出的臨界值GP(n)比較,如果計算的Gi值大於表中的臨界值GP(n),則能判斷該測量數據是異常值,可以剔除。但是要提醒,臨界值GP(n)與兩個參數有關:檢出水平α (與置信概率P有關)和測量次數n (與自由度f有關)。

9、定檢出水平α:如果要求嚴格,檢出水平α可以定得小一些,例如定α=0.01,那麼置信概率P=1-α=0.99;如果要求不嚴格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。

10、查格拉布斯表獲得臨界值:根據選定的P值(此處為0.95)和測量次數n(此處為10),查格拉布斯表,橫豎相交得臨界值G95(10)=2.176。

11、比較計算值Gi和臨界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。

12、判斷是否為異常值:因為Gi>G95(10),可以判斷測量值14.0為異常值,將它從10個測量數據中剔除。

13、餘下數據考慮:剩餘的9個數據再按以上步驟計算,如果計算的Gi>G95(9),仍然是異常值,剔除;如果Gi<G95(9),不是異常值,則不剔除。本例餘下的9個數據中沒有異常值。

閱讀全文

與如何發現數據異常相關的資料

熱點內容
交易平台哪個最便宜 瀏覽:360
外傾角數據正負35怎麼計算 瀏覽:610
理財產品的t0模式是什麼意思 瀏覽:389
哪個市場最便宜的東西 瀏覽:432
你想要了解哪些信息英語翻譯 瀏覽:757
如何在防城港房產網發布信息 瀏覽:454
工控產品行業網站有哪些 瀏覽:770
時光代理人怎麼沒資源 瀏覽:812
現在游戲幣交易最多的是哪個游戲 瀏覽:35
oppo手機密碼忘記怎麼解鎖保留數據 瀏覽:42
釘釘打卡如何創建市場部群 瀏覽:780
法院人事代理什麼意思 瀏覽:24
代理傢具哪裡好賣 瀏覽:118
債權交易理財怎麼樣 瀏覽:413
手機流氓程序如何刪除 瀏覽:387
t型數據線的正負怎麼分辨 瀏覽:406
正宗奶茶技術一般多少錢 瀏覽:585
吳淞水產交易市場搬到哪裡去了 瀏覽:749
法幣交易賣出最低要多少 瀏覽:845
中學生必備數碼產品有哪些 瀏覽:494