導航:首頁 > 數據處理 > 如何用r對數據進行正態性檢驗

如何用r對數據進行正態性檢驗

發布時間:2023-03-23 11:35:38

『壹』 正態性檢驗之qqplot和ppplot原理及R語言實現

輸入為一個vector,我們以a <- seq(1, 250, 1)做為示例數據

利用qqnorm函數直接繪制出了如下正態檢驗qq圖

還可以進一步使用qqline命令在qq圖上加上標準直線

註:qqline的默認演算法為向量a上四分位數和下四分位數對應兩個點的連線

Step 1: 首先我們算出vector中每一個數對應的百分激茄位數
  在向量a中,數字1對應的累積比例(即小於等於數字1的頻率)為1/length(a) = 0.04,數字250對應的累積比例為250/length(a) = 100%

  
Step 2: 根據累積比例數計算出正態分布對應的百分位數值

  直接繪制點圖即為qqplot圖

  

Step 3: 可以查看一下q值發現,最後的q值為Inf
  這是因為百分位100%對應的正態分布數值為無窮大,所以最後得出的圖與R自帶的qqnorm的稍微有一點點區別,這是因為在內置的qqnorm函數中對累積百分數進行了調整,為了避免inf的出現,使用 t <- (rank(a) -0.5)/length(a) 調整後得出的結果與qqnorm的結果圖就完全一致了。


Step 4: 繪制標準直線
  如果是依據標准正態分布做的qq圖,則標準直線截距為mean(a),斜率為sd(a)

[圖片上傳失敗...(image-50be7a-1512789490785)]
  如果是依據(mean(a), var(a))正態分布做的qq圖,則標準直線為y=x

[圖片上傳失敗...(image-4e2370-1512789490785)]

pp plot橫軸為實際累積概率,即上森培文qq plot中的變數t
縱軸為期望累積的概率,標準直線為 y=x

[圖片上傳失敗...(image-682bd0-1512789490785)]

結果大致呈一條直線則說明大致服從正態分布

快速計算累積百分明春察數的方法:

[圖片上傳失敗...(image-de8e63-1512789490785)]

參考:
https://wenku..com/view/c661ebb365ce050876321319.html
http://data.library.virginia.e/understanding-q-q-plots/
http://www.cnblogs.com/xianghang123/archive/2012/08/08/2628623.html
https://d.cosx.org/d/18521-18521

『貳』 正態性檢驗 Normality Test in R

包括相關性、回歸、t檢驗和方差分升兆析(ANOVA)在內的許多統計檢驗都假設數據具有某些特定的特徵。 他們要求數據遵循正態分布或高斯分布, 這些統計檢驗稱為參數檢驗,因為它們的有效性取決於數據的分布。
在使用參數檢驗之前,我們應該執行一些初步測試,以確保滿冊笑消足檢驗假設。 在違反假設的情況下,建議使用非參數檢驗。

密度圖和Q-Q圖可用於檢查正態性。

可視化檢查通常是不可靠的。 可以使用顯著性檢驗將樣本分布與正常分布進行比較,以確定數據是否顯示出與正態性的嚴重偏差。

正態性檢驗有幾種方法,例如Kolmogorov-Smirnov(K-S)和Shapiro-Wilk。
Shapiro-Wilk是廣泛適用的正態性檢驗,它比K-S更有力。 它基於數據和相應的正常分數之間的相關性。州知

從輸出來看,p=0.1091> 0.05意味著數據的分布與正態分布沒有顯著差異。 換句話說,我們可以假設正常性。

參考資料:

『叄』 如何使用R語言進行正態性檢驗

卡方擬合優度檢驗或者正態性檢驗都可圓滲以檢驗一串數據是否服橘核脊從正態分布。如果你用spss裡面就有正態性檢驗QQ圖PP圖如果你用R就用shapiro.testkolmogorov-smirnov非參數檢驗K-S檢驗如果你用matlab就氏蘆是normplot實際就是QQ圖

『肆』 r語言S-W和K-S兩種正態性檢驗

Shapiro-Wilk檢驗 用來檢驗是否數據符合正態分布 ,類似於線性回歸的方法一樣,是檢驗其於回歸曲線的殘差。該方法作者推薦在樣本量很小巧燃的時候使用,比如N<20。但是也有作者推薦在大數據集上使用。該作者將這種修改後的方法運用在R語言的stats包中的 shapiro.test 函數中。

為排序後的樣本數據, 為待估常量,假設樣本數據確實符合一個未知均值 、標准差 的正態分布,那麼樣本數據就會滿足下列一次函數式:

其中xi是隨機正態分布N(0,1)中排序數據。

統計量越大則表示數據越符合正態分布,但是僅憑這一個參數是不夠的, 在非正態分布的小樣本數據中也經常會出現較大的W值。 該統計量的分布是未知的,因此需要通過模擬或者查表輪搜來估計其概率。由於原假設是其符合正態分布,所以當P值小於指定顯著水平時表示其不符合正態分布。臘寬歷

主要分析p-value,由於原假設H0假定數據和正態分布沒有差異,p<0.05否定原假設,說明數據不符合正態分布。

換一組數據

由於原假設H0假定數據和正態分布沒有差異,p顯著大於0.05,不能否定原假設,說明可認為數據符合正態分布。

由於原假設H0假定數據和正態分布沒有差異,p顯著小於0.05,否定原假設,說明數據不符合正態分布。

『伍』 如何使用R語言進行正態性檢驗

x<-c(-10:10)
shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.95993, p-value = 0.5148
shapiro.test(c(x,"辯配a"))
Error: is.numeric(x) is not TRUE
你的數據不全是數舉磨字正灶斗。

閱讀全文

與如何用r對數據進行正態性檢驗相關的資料

熱點內容
武漢葵花葯店代理怎麼樣 瀏覽:135
人事代理是指哪些 瀏覽:445
紅軍為什麼不投入轉會市場 瀏覽:138
資料庫一頁多少k 瀏覽:568
華為換蘋果x手機怎麼轉移數據 瀏覽:353
張氏絕密技術有哪些 瀏覽:928
如何在電腦上安裝顯卡驅動程序 瀏覽:174
如何編apk程序 瀏覽:861
上匯眼鏡市場怎麼樣 瀏覽:710
夏門金龍技術部員工月工資多少 瀏覽:584
社保卡上信息與交費怎麼查 瀏覽:737
如何編寫串列口初始化程序 瀏覽:389
南昌菜市場在哪個位置擺攤 瀏覽:740
讀醫學類大專所學的專業技術如何 瀏覽:491
中國石頭花架批發市場在哪個地方 瀏覽:646
目前市場上什麼狗最便宜 瀏覽:174
行動預設數據是什麼 瀏覽:864
地球科學與技術專業是什麼 瀏覽:544
查詢百萬條數據會出現什麼情況 瀏覽:463
中國電信政企部和市場部哪個好 瀏覽:145