导航:首页 > 数据处理 > 如何发现数据异常

如何发现数据异常

发布时间:2024-08-29 00:49:46

A. 如何判别测量数据中是否有异常值

1、概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。

2、测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

3、排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。

4、计算平均值x-和标准差s:x-=7.89;标准差s=2.704。计算时,必须将所有10个数据全部包含在内。

5、计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。

6、确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。

7、计算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由于 x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。

8、下面要把计算值Gi与格拉布斯表给出的临界值GP(n)比较,如果计算的Gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。但是要提醒,临界值GP(n)与两个参数有关:检出水平α (与置信概率P有关)和测量次数n (与自由度f有关)。

9、定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。

10、查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=2.176。

11、比较计算值Gi和临界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。

12、判断是否为异常值:因为Gi>G95(10),可以判断测量值14.0为异常值,将它从10个测量数据中剔除。

13、余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的Gi>G95(9),仍然是异常值,剔除;如果Gi<G95(9),不是异常值,则不剔除。本例余下的9个数据中没有异常值。

阅读全文

与如何发现数据异常相关的资料

热点内容
驾驶证信息表在哪里打印 浏览:232
证券交易的定义原则和流程是什么 浏览:908
微信用什么小程序做表格 浏览:42
如何分辨交易商是正规的 浏览:606
数据的维护工作主要包括哪些 浏览:202
三元牛奶有哪些产品 浏览:787
鼎汉技术亏损多少钱 浏览:436
办案数据密码是什么意思 浏览:808
肝细胞信息交流方式有哪些 浏览:21
花呗商户如何取消交易 浏览:79
体脂秤数据为什么那么难看 浏览:947
手机如何获得路由器信息 浏览:34
投资币圈在哪里交易 浏览:427
飞书技术顾问是什么岗位 浏览:924
主播换新号了告诉大哥怎么发信息 浏览:382
怎么评价广州期货交易所 浏览:1
股票交易日常怎么样 浏览:325
拼多多怎么看排名第一的产品 浏览:605
微店代理一开始没有流量怎么办 浏览:2
丸碧怎么代理 浏览:521