導航:首頁 > 數據處理 > 如何發現數據異常

如何發現數據異常

發布時間:2024-08-29 00:49:46

A. 如何判別測量數據中是否有異常值

1、概述:一組測量數據中,如果個別數據偏離平均值很遠,那麼這個(這些)數據稱作「可疑值」。如果用統計方法—例如格拉布斯(Grubbs)法判斷,能將「可疑值」從此組測量數據中剔除而不參與平均值的計算,那麼該「可疑值」就稱作「異常值(粗大誤差)」。本文就是介紹如何用格拉布斯法判斷「可疑值」是否為「異常值」。

2、測量數據:例如測量10次(n=10),獲得以下數據:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

3、排列數據:將上述測量數據按從小到大的順序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。

4、計算平均值x-和標准差s:x-=7.89;標准差s=2.704。計算時,必須將所有10個數據全部包含在內。

5、計算偏離值:平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。

6、確定一個可疑值:比較起來,最大值與平均值之差6.11大於平均值與最小值之差3.19,因此認為最大值14.0是可疑值。

7、計算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序號——10號;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由於 x10-x-是殘差,而s是標准差,因而可認為G10是殘差與標准差的比值。

8、下面要把計算值Gi與格拉布斯表給出的臨界值GP(n)比較,如果計算的Gi值大於表中的臨界值GP(n),則能判斷該測量數據是異常值,可以剔除。但是要提醒,臨界值GP(n)與兩個參數有關:檢出水平α (與置信概率P有關)和測量次數n (與自由度f有關)。

9、定檢出水平α:如果要求嚴格,檢出水平α可以定得小一些,例如定α=0.01,那麼置信概率P=1-α=0.99;如果要求不嚴格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。

10、查格拉布斯表獲得臨界值:根據選定的P值(此處為0.95)和測量次數n(此處為10),查格拉布斯表,橫豎相交得臨界值G95(10)=2.176。

11、比較計算值Gi和臨界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。

12、判斷是否為異常值:因為Gi>G95(10),可以判斷測量值14.0為異常值,將它從10個測量數據中剔除。

13、餘下數據考慮:剩餘的9個數據再按以上步驟計算,如果計算的Gi>G95(9),仍然是異常值,剔除;如果Gi<G95(9),不是異常值,則不剔除。本例餘下的9個數據中沒有異常值。

閱讀全文

與如何發現數據異常相關的資料

熱點內容
公司上市總代理商有什麼好處 瀏覽:624
交易貓為什麼一直要給錢 瀏覽:412
uk里燈具產品屬於什麼賦碼 瀏覽:818
新手做批發去哪個市場拿貨比較好 瀏覽:653
代理提成機制怎麼做 瀏覽:428
車輛電話標牌需要哪些信息 瀏覽:866
漳州哪裡有粉彩交易 瀏覽:342
如何更改數據線設置 瀏覽:297
三個分段函數的程序如何編寫 瀏覽:262
族譜信息採集需要哪些信息 瀏覽:739
太倉有什麼旅遊產品 瀏覽:130
發什麼信息可以讓蘋果系統崩潰 瀏覽:88
網路商城是怎麼采購產品 瀏覽:753
南充軟體技術學院怎麼樣 瀏覽:547
高電壓技術分壓比是什麼 瀏覽:421
餐飲代理怎麼營銷 瀏覽:366
冷凍復活技術要多少錢 瀏覽:281
律師不做風險代理是什麼原因 瀏覽:238
蒼山毛線市場在什麼地方 瀏覽:470
招標技術措施怎麼寫 瀏覽:140