導航:首頁 > 數據處理 > 如何發現數據異常

如何發現數據異常

發布時間:2024-08-29 00:49:46

A. 如何判別測量數據中是否有異常值

1、概述:一組測量數據中,如果個別數據偏離平均值很遠,那麼這個(這些)數據稱作「可疑值」。如果用統計方法—例如格拉布斯(Grubbs)法判斷,能將「可疑值」從此組測量數據中剔除而不參與平均值的計算,那麼該「可疑值」就稱作「異常值(粗大誤差)」。本文就是介紹如何用格拉布斯法判斷「可疑值」是否為「異常值」。

2、測量數據:例如測量10次(n=10),獲得以下數據:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

3、排列數據:將上述測量數據按從小到大的順序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。

4、計算平均值x-和標准差s:x-=7.89;標准差s=2.704。計算時,必須將所有10個數據全部包含在內。

5、計算偏離值:平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。

6、確定一個可疑值:比較起來,最大值與平均值之差6.11大於平均值與最小值之差3.19,因此認為最大值14.0是可疑值。

7、計算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序號——10號;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由於 x10-x-是殘差,而s是標准差,因而可認為G10是殘差與標准差的比值。

8、下面要把計算值Gi與格拉布斯表給出的臨界值GP(n)比較,如果計算的Gi值大於表中的臨界值GP(n),則能判斷該測量數據是異常值,可以剔除。但是要提醒,臨界值GP(n)與兩個參數有關:檢出水平α (與置信概率P有關)和測量次數n (與自由度f有關)。

9、定檢出水平α:如果要求嚴格,檢出水平α可以定得小一些,例如定α=0.01,那麼置信概率P=1-α=0.99;如果要求不嚴格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。

10、查格拉布斯表獲得臨界值:根據選定的P值(此處為0.95)和測量次數n(此處為10),查格拉布斯表,橫豎相交得臨界值G95(10)=2.176。

11、比較計算值Gi和臨界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。

12、判斷是否為異常值:因為Gi>G95(10),可以判斷測量值14.0為異常值,將它從10個測量數據中剔除。

13、餘下數據考慮:剩餘的9個數據再按以上步驟計算,如果計算的Gi>G95(9),仍然是異常值,剔除;如果Gi<G95(9),不是異常值,則不剔除。本例餘下的9個數據中沒有異常值。

閱讀全文

與如何發現數據異常相關的資料

熱點內容
潤滑油代理費用多少 瀏覽:63
技能交易平台哪個最好 瀏覽:488
市場廢銅價格多少錢一噸 瀏覽:978
竹葉的顏色怎麼調數據 瀏覽:728
統計數據用什麼鍵盤好用 瀏覽:130
江蘇會計代理記賬需要多少錢 瀏覽:975
程序員那麼可愛多少集男主追妻 瀏覽:763
銑工零件技術要求分析怎麼寫 瀏覽:588
稅務網站怎麼更改交易內容 瀏覽:559
花椒最大市場在哪裡 瀏覽:795
數據湖的概念由什麼廠商提出的 瀏覽:885
程序員怎麼調到非外包公司 瀏覽:285
咪咕小程序在哪裡打開 瀏覽:764
蘋果哪個是程序號 瀏覽:13
下屬等領導怎麼發信息 瀏覽:504
畢業設計怎麼做微信小程序 瀏覽:53
怎麼查內幕交易 瀏覽:746
java程序怎麼打開 瀏覽:435
汽車正時數據流正常是多少度 瀏覽:54
珠海北山市場怎麼聯系管理員 瀏覽:285