Ⅰ 怎麼殘差分析
resial 在回歸分析中,測定值與按回歸方程預測的值之差,以δ表示。殘差δ遵從正態分布N(0,σ2)。δ與σ之比,稱為標准化殘差,以δ*表示。δ*遵從標准正態分布N(0,1)。實驗點的標准化殘差落在(-2,2)區間以外的概率≤0.05。若某一實驗點的標准化殘差落在(-2,2)區間以外,可在95%置信度將其判為異常實驗點,不參與回歸線擬合。 所謂殘差是指實際觀察值與回歸估計值的差。(如圖) 顯然,有多少對數據,就有多少個殘差。殘差分析就是通過殘差所提供的信息,分析出數據的可靠性、周期性或其它干擾 。
Ⅱ 工程測量時,如何用格拉布斯准則剔除異常值
在做測量不確定度的評定時,對於測量結果進行數據處理之前,往往要進行異常值的剔除工作。超出在規定條件下預期的誤差叫做異常值。產生異常值的原因一般是由於疏忽、失誤或突然發生的不該發生的原因造成的,如讀錯、記錯、儀器示值突然跳動、突然震動、操作失誤等。所以必須在計算測量結果及不確定度評定中要考慮異常值的判別和剔除。
異常值的判別方法也叫異常值檢驗法,即:判斷異常值的統計檢驗法。其方法有很多種,例如格拉布斯法、狄克遜法、偏度-峰度法、拉依達法、奈爾法等等。每種方法都有其適用范圍和優缺點。每種統計檢驗法都會犯錯誤1和錯誤2。但是有人做過統計,在所有方法中,格拉布斯法犯這兩種錯誤的概率最小,所以本文介紹如何使用格拉布斯法來剔除異常值,其判別步驟如下:
1、假設現在有一組測量數據為:例如測量10次(n=10),獲得以下數據:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
2、排列數據:將上述測量數據按從小到大的順序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。
3、計算平均值x-和標准差s:x-=7.89;標准差s=2.704。計算時,必須將所有10個數據全部包含在內。
4、計算偏離值:平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。
5、確定一個可疑值:比較起來,最大值與平均值之差6.11大於平均值與最小值之差3.19,因此認為最大值14.0是可疑值。
6、計算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序號——10號;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由於 x10-x-是殘差,而s是標准差,因而可認為G10是殘差與標准差的比值。下面要把計算值Gi與格拉布斯表給出的臨界值GP(n)比較,如果計算的Gi值大於表中的臨界值GP(n),則能判斷該測量數據是異常值,可以剔除。但是要提醒,臨界值GP(n)與兩個參數有關:檢出水平α (與置信概率P有關)和測量次數n (與自由度f有關)。
7、定檢出水平α:如果要求嚴格,檢出水平α可以定得小一些,例如定α=0.01,那麼置信概率P=1-α=0.99;如果要求不嚴格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
8、查格拉布斯表獲得臨界值:根據選定的P值(此處為0.95)和測量次數n(此處為10),查格拉布斯表,橫豎相交得臨界值G95(10)=2.176。
9、比較計算值Gi和臨界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。
10、判斷是否為異常值:因為Gi>G95(10),可以判斷測量值14.0為異常值,將它從10個測量數據中剔除。
11、餘下數據考慮:剩餘的9個數據再按以上步驟計算,如果計算的Gi>G95(9),仍然是異常值,剔除;如果Gi<G95(9),不是異常值,則不剔除。本例餘下的9個數據中沒有異常值。
Ⅲ 由學生化殘差怎麼判斷模型是否存在異常值
異常值處理的常用方法 (1)直接將該條觀測刪除
在SPSS軟體里有2種不同的刪除方法,整條刪除和成對刪除。
當然,這種方法簡單易行,但缺點也很明顯,首先我們經常會遇到的情況是觀測值很少,這種刪除會造成樣本量不足,其次,直接刪除的觀測很多,也可能會改變變數的原有分布,從而造成統計模型不夠穩定。
(2)暫且保留,待結合整體模型綜合分析
通常我們觀測到的異常值,有時在對於整個模型而言,其異常性質並沒有觀測到的明顯,因此最好綜合分析一下,像回歸分析,我們經常利用殘差分布信息來判斷模型優劣,殘差有沒有超出經驗范圍(+3標准差),呈現什麼分布等,另外對於整個模型而言,會有一些指標像Mahalanobis、Cook's、協方差比率等可以提供某條觀測或整體的擬合信息,這些指標也會提示分析人員的異常值信息。如果對於整個模型而言,並不是很明顯時,建議保留。
(3)如果樣本量很小,可以考慮使用均值或其他統計量取代
這不失為一種折中的方法,大部分的參數方法是針對均值來建模的,用均值取代,實際上克服了丟失樣本的缺陷,但卻丟失了樣本「特色」,可以說是不大不小的錯誤。當然如果是時序數據, 用於取代的統計量,可供選擇的范圍就會多一些,可以針對序列選擇合適的統計量取代異常值,也較少存在上述問題。
(4)將其視為缺失值,利用統計模型填補
該方法的好處是可以利用現有變數的信息,對異常值(缺失值)填補。不過這里最好要視該異常值(缺失值)的特點而定,例如需視是完全隨機缺失、隨機缺失還是非隨機缺失的不同情況而定。
(5)不做過多處理,根據其性質特點,使用穩健模型加以修飾
如果按參數性質分的話,可以將穩健方法分為參數、非參和半參3種情況,這大致與通常的關於參數的假設、優點一樣,請參見:
(6)使用抽樣技術或模擬技術,接受更合理的標准誤等信息
抽樣樣本(SPSS默認是1000)所計算出的均值的標准誤,一般來說會更合理,這可以有效應對異常值的影響,但前提是原始樣本量不能太少(小於10),小樣本的結果不夠穩定。另外模擬技術可以利用先驗分布特徵和樣本信息來構建事後預測的概率分布,進行事後模擬,這種技術現在發展的很好,在異常值的應對中,表現良好。
Ⅳ matlab怎樣進行殘差分析
[b, bint,r,rint,stats]=regress(Y,X,alpha)
rcoplot(r,rint)做殘差圖
從殘差圖可以看出數據的殘差離零點的遠近,當殘差的置信區間均包含零點,這說明回歸模型 能較好的符合原始數據,否則可視為異常點. 。
Ⅳ 殘差圖怎樣剔除異常數據
要是說把不相關的數據剔除,可能不太好弄。但是可以剔除異常值
Ⅵ matlab 作殘差圖怎樣編寫剔除異常的數據代碼
需要知道你的數據異常是什麼? 或者給個大小閾值, 就可以編程序了.
如最大為Vmax, 最小為Vmin,數據以向量輸入,記為xn. 代碼如下:
yn = xn(find( xn<Vmax & xn>Vmin))
yn中即去掉異常之後的數據,yn中數據屬於區間[Vmin, Vmax]
Ⅶ 測試中的異常數據剔除用什麼方法
統計學中剔除異常數據的方法很多,但在檢測和測試中經常用的方法有2種:
1-拉依達准則(也稱之為3σ准則):
很簡單,就是首先求得n次獨立檢測結果的實驗標准差s和殘差,│殘差│大於3s的測量值即為異常值刪去,然後重新反復計算,將所有異常值剔除。
但這個方法有局限,數據樣本必須大於10,一般要求大於50。所以,這個方法現在不常用了,國標裡面已經剔除該方法!
2-格拉布斯准則(Grubbs):
這個方法比較常用,尤其是我們檢測領域。
方法也很簡單,還是首先求得n次獨立檢測結果的實驗標准差s和殘差,│殘差│/s的值大於g(n)的測量值即為異常值,可刪去;同樣重新反復計算之,將所有異常值剔除。
g(n)指臨界系數,可直接查表獲得. 95%的系數可參見下表:
Ⅷ 如何判別測量數據中是否有異常值
1、概述:一組測量數據中,如果個別數據偏離平均值很遠,那麼這個(這些)數據稱作「可疑值」。如果用統計方法—例如格拉布斯(Grubbs)法判斷,能將「可疑值」從此組測量數據中剔除而不參與平均值的計算,那麼該「可疑值」就稱作「異常值(粗大誤差)」。本文就是介紹如何用格拉布斯法判斷「可疑值」是否為「異常值」。
2、測量數據:例如測量10次(n=10),獲得以下數據:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
3、排列數據:將上述測量數據按從小到大的順序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。
4、計算平均值x-和標准差s:x-=7.89;標准差s=2.704。計算時,必須將所有10個數據全部包含在內。
5、計算偏離值:平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。
6、確定一個可疑值:比較起來,最大值與平均值之差6.11大於平均值與最小值之差3.19,因此認為最大值14.0是可疑值。
7、計算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序號——10號;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由於 x10-x-是殘差,而s是標准差,因而可認為G10是殘差與標准差的比值。
8、下面要把計算值Gi與格拉布斯表給出的臨界值GP(n)比較,如果計算的Gi值大於表中的臨界值GP(n),則能判斷該測量數據是異常值,可以剔除。但是要提醒,臨界值GP(n)與兩個參數有關:檢出水平α (與置信概率P有關)和測量次數n (與自由度f有關)。
9、定檢出水平α:如果要求嚴格,檢出水平α可以定得小一些,例如定α=0.01,那麼置信概率P=1-α=0.99;如果要求不嚴格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
10、查格拉布斯表獲得臨界值:根據選定的P值(此處為0.95)和測量次數n(此處為10),查格拉布斯表,橫豎相交得臨界值G95(10)=2.176。
11、比較計算值Gi和臨界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。
12、判斷是否為異常值:因為Gi>G95(10),可以判斷測量值14.0為異常值,將它從10個測量數據中剔除。
13、餘下數據考慮:剩餘的9個數據再按以上步驟計算,如果計算的Gi>G95(9),仍然是異常值,剔除;如果Gi<G95(9),不是異常值,則不剔除。本例餘下的9個數據中沒有異常值。
Ⅸ SPSS殘差分析,這個散點圖能說明什麼
SPSS殘差分析,這個散點圖能說明殘差在-2到+2之間,可以解釋大部分預測值,也證明了你的這個回歸方程是有效的。
SPSS(Statistical Proct and Service Solutions),「統計產品與服務解決方案」軟體。最初軟體全稱為「社會科學統計軟體包」(SolutionsStatistical Package for the Social Sciences),但是隨著SPSS產品服務領域的擴大和服務深度的增加,SPSS公司已於2000年正式將英文全稱更改為「統計產品與服務解決方案」,這標志著SPSS的戰略方向正在做出重大調整。