導航:首頁 > 數據處理 > 如何發現數據異常

如何發現數據異常

發布時間:2024-08-29 00:49:46

A. 如何判別測量數據中是否有異常值

1、概述:一組測量數據中,如果個別數據偏離平均值很遠,那麼這個(這些)數據稱作「可疑值」。如果用統計方法—例如格拉布斯(Grubbs)法判斷,能將「可疑值」從此組測量數據中剔除而不參與平均值的計算,那麼該「可疑值」就稱作「異常值(粗大誤差)」。本文就是介紹如何用格拉布斯法判斷「可疑值」是否為「異常值」。

2、測量數據:例如測量10次(n=10),獲得以下數據:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

3、排列數據:將上述測量數據按從小到大的順序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。

4、計算平均值x-和標准差s:x-=7.89;標准差s=2.704。計算時,必須將所有10個數據全部包含在內。

5、計算偏離值:平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。

6、確定一個可疑值:比較起來,最大值與平均值之差6.11大於平均值與最小值之差3.19,因此認為最大值14.0是可疑值。

7、計算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序號——10號;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由於 x10-x-是殘差,而s是標准差,因而可認為G10是殘差與標准差的比值。

8、下面要把計算值Gi與格拉布斯表給出的臨界值GP(n)比較,如果計算的Gi值大於表中的臨界值GP(n),則能判斷該測量數據是異常值,可以剔除。但是要提醒,臨界值GP(n)與兩個參數有關:檢出水平α (與置信概率P有關)和測量次數n (與自由度f有關)。

9、定檢出水平α:如果要求嚴格,檢出水平α可以定得小一些,例如定α=0.01,那麼置信概率P=1-α=0.99;如果要求不嚴格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。

10、查格拉布斯表獲得臨界值:根據選定的P值(此處為0.95)和測量次數n(此處為10),查格拉布斯表,橫豎相交得臨界值G95(10)=2.176。

11、比較計算值Gi和臨界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。

12、判斷是否為異常值:因為Gi>G95(10),可以判斷測量值14.0為異常值,將它從10個測量數據中剔除。

13、餘下數據考慮:剩餘的9個數據再按以上步驟計算,如果計算的Gi>G95(9),仍然是異常值,剔除;如果Gi<G95(9),不是異常值,則不剔除。本例餘下的9個數據中沒有異常值。

閱讀全文

與如何發現數據異常相關的資料

熱點內容
純糧白酒代理利潤如何 瀏覽:503
中國花椒交易網怎麼做 瀏覽:239
崑山貨車市場在哪個區 瀏覽:639
怎麼寫一個電腦桌面的寵物小程序 瀏覽:30
不會寫程序怎麼提升 瀏覽:733
cac在哪裡能交易 瀏覽:913
感測器檢測技術怎麼學 瀏覽:579
中國移動產品經理做什麼 瀏覽:305
數控車床宏程序app哪個好 瀏覽:88
園藝技術和園林技術什麼區別 瀏覽:364
六氟酸鉀是什麼產品 瀏覽:936
權益類理財產品一般會受什麼影響 瀏覽:781
水泵廠家如何指導代理商 瀏覽:379
什麼企業可以出產品合格證 瀏覽:399
如何加工天然石頭程序 瀏覽:997
市場營銷管理這個行業怎麼樣 瀏覽:837
法蘭絨批發市場在哪裡 瀏覽:878
任務管沒滑鼠怎麼關閉程序 瀏覽:122
為什麼數據線連接手機不彈出界面 瀏覽:753
大數據平台治理工程師是什麼 瀏覽:82