导航:首页 > 数据处理 > 如何发现数据异常

如何发现数据异常

发布时间:2024-08-29 00:49:46

A. 如何判别测量数据中是否有异常值

1、概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。

2、测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

3、排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。

4、计算平均值x-和标准差s:x-=7.89;标准差s=2.704。计算时,必须将所有10个数据全部包含在内。

5、计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。

6、确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。

7、计算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由于 x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。

8、下面要把计算值Gi与格拉布斯表给出的临界值GP(n)比较,如果计算的Gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。但是要提醒,临界值GP(n)与两个参数有关:检出水平α (与置信概率P有关)和测量次数n (与自由度f有关)。

9、定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。

10、查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=2.176。

11、比较计算值Gi和临界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。

12、判断是否为异常值:因为Gi>G95(10),可以判断测量值14.0为异常值,将它从10个测量数据中剔除。

13、余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的Gi>G95(9),仍然是异常值,剔除;如果Gi<G95(9),不是异常值,则不剔除。本例余下的9个数据中没有异常值。

阅读全文

与如何发现数据异常相关的资料

热点内容
咪咕小程序在哪里打开 浏览:763
苹果哪个是程序号 浏览:11
下属等领导怎么发信息 浏览:502
毕业设计怎么做微信小程序 浏览:52
怎么查内幕交易 浏览:745
java程序怎么打开 浏览:433
汽车正时数据流正常是多少度 浏览:52
珠海北山市场怎么联系管理员 浏览:283
永州职业技术学院有哪些奖金 浏览:860
闲鱼怎么取消交易不卖了 浏览:550
小程序搜索的热搜怎么做 浏览:55
蚂蚁财富工资理财怎么差取出交易 浏览:140
怎么把表格中的数据栏拉到最底下 浏览:358
一加t8如何关闭流量节省程序 浏览:675
怎么区分贴膜改色技术好坏 浏览:733
邵阳古玩市场在什么地 浏览:639
生死狙击手游交易所邮件限时多久 浏览:183
哪里装牙齿技术最好 浏览:627
晋州有哪些布匹市场 浏览:18
联想代理点怎么样 浏览:102