導航:首頁 > 數據處理 > 如何發現數據異常

如何發現數據異常

發布時間:2024-08-29 00:49:46

A. 如何判別測量數據中是否有異常值

1、概述:一組測量數據中,如果個別數據偏離平均值很遠,那麼這個(這些)數據稱作「可疑值」。如果用統計方法—例如格拉布斯(Grubbs)法判斷,能將「可疑值」從此組測量數據中剔除而不參與平均值的計算,那麼該「可疑值」就稱作「異常值(粗大誤差)」。本文就是介紹如何用格拉布斯法判斷「可疑值」是否為「異常值」。

2、測量數據:例如測量10次(n=10),獲得以下數據:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

3、排列數據:將上述測量數據按從小到大的順序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。

4、計算平均值x-和標准差s:x-=7.89;標准差s=2.704。計算時,必須將所有10個數據全部包含在內。

5、計算偏離值:平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。

6、確定一個可疑值:比較起來,最大值與平均值之差6.11大於平均值與最小值之差3.19,因此認為最大值14.0是可疑值。

7、計算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序號——10號;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由於 x10-x-是殘差,而s是標准差,因而可認為G10是殘差與標准差的比值。

8、下面要把計算值Gi與格拉布斯表給出的臨界值GP(n)比較,如果計算的Gi值大於表中的臨界值GP(n),則能判斷該測量數據是異常值,可以剔除。但是要提醒,臨界值GP(n)與兩個參數有關:檢出水平α (與置信概率P有關)和測量次數n (與自由度f有關)。

9、定檢出水平α:如果要求嚴格,檢出水平α可以定得小一些,例如定α=0.01,那麼置信概率P=1-α=0.99;如果要求不嚴格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。

10、查格拉布斯表獲得臨界值:根據選定的P值(此處為0.95)和測量次數n(此處為10),查格拉布斯表,橫豎相交得臨界值G95(10)=2.176。

11、比較計算值Gi和臨界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。

12、判斷是否為異常值:因為Gi>G95(10),可以判斷測量值14.0為異常值,將它從10個測量數據中剔除。

13、餘下數據考慮:剩餘的9個數據再按以上步驟計算,如果計算的Gi>G95(9),仍然是異常值,剔除;如果Gi<G95(9),不是異常值,則不剔除。本例餘下的9個數據中沒有異常值。

閱讀全文

與如何發現數據異常相關的資料

熱點內容
數據大屏用什麼原型設計工具 瀏覽:159
古董交易怎麼算價格 瀏覽:152
美團熱銷產品買不了是什麼原因 瀏覽:597
學汽車技術哪個專業比較好 瀏覽:78
五愛市場是哪個部門提出建設 瀏覽:207
曹莊子市場怎麼去 瀏覽:778
抖音的大數據怎麼看 瀏覽:611
報到證怎麼交到人才市場 瀏覽:627
哪裡有新市場開場開發 瀏覽:337
寶葉生物技術怎麼樣 瀏覽:15
電話手錶如何查看微信信息 瀏覽:99
海鮮批發市場扇貝丁為什麼沒有鮮甜味道 瀏覽:531
手機插上電腦怎麼沒有驅動程序 瀏覽:593
程序員那麼可愛一集多少時間 瀏覽:307
個人財務代理記賬多少錢 瀏覽:595
市場服務科怎麼能減少調整計劃 瀏覽:944
想找個便民市場太原哪裡有 瀏覽:654
去華東城水果市場怎麼走更近 瀏覽:469
代理水果沒有季節性水果怎麼辦 瀏覽:569
淘寶銅錢怎麼交易 瀏覽:232