导航:首页 > 数据处理 > 如何用r对数据进行正态性检验

如何用r对数据进行正态性检验

发布时间:2023-03-23 11:35:38

‘壹’ 正态性检验之qqplot和ppplot原理及R语言实现

输入为一个vector,我们以a <- seq(1, 250, 1)做为示例数据

利用qqnorm函数直接绘制出了如下正态检验qq图

还可以进一步使用qqline命令在qq图上加上标准直线

注:qqline的默认算法为向量a上四分位数和下四分位数对应两个点的连线

Step 1: 首先我们算出vector中每一个数对应的百分激茄位数
  在向量a中,数字1对应的累积比例(即小于等于数字1的频率)为1/length(a) = 0.04,数字250对应的累积比例为250/length(a) = 100%

  
Step 2: 根据累积比例数计算出正态分布对应的百分位数值

  直接绘制点图即为qqplot图

  

Step 3: 可以查看一下q值发现,最后的q值为Inf
  这是因为百分位100%对应的正态分布数值为无穷大,所以最后得出的图与R自带的qqnorm的稍微有一点点区别,这是因为在内置的qqnorm函数中对累积百分数进行了调整,为了避免inf的出现,使用 t <- (rank(a) -0.5)/length(a) 调整后得出的结果与qqnorm的结果图就完全一致了。


Step 4: 绘制标准直线
  如果是依据标准正态分布做的qq图,则标准直线截距为mean(a),斜率为sd(a)

[图片上传失败...(image-50be7a-1512789490785)]
  如果是依据(mean(a), var(a))正态分布做的qq图,则标准直线为y=x

[图片上传失败...(image-4e2370-1512789490785)]

pp plot横轴为实际累积概率,即上森培文qq plot中的变量t
纵轴为期望累积的概率,标准直线为 y=x

[图片上传失败...(image-682bd0-1512789490785)]

结果大致呈一条直线则说明大致服从正态分布

快速计算累积百分明春察数的方法:

[图片上传失败...(image-de8e63-1512789490785)]

参考:
https://wenku..com/view/c661ebb365ce050876321319.html
http://data.library.virginia.e/understanding-q-q-plots/
http://www.cnblogs.com/xianghang123/archive/2012/08/08/2628623.html
https://d.cosx.org/d/18521-18521

‘贰’ 正态性检验 Normality Test in R

包括相关性、回归、t检验和方差分升兆析(ANOVA)在内的许多统计检验都假设数据具有某些特定的特征。 他们要求数据遵循正态分布或高斯分布, 这些统计检验称为参数检验,因为它们的有效性取决于数据的分布。
在使用参数检验之前,我们应该执行一些初步测试,以确保满册笑消足检验假设。 在违反假设的情况下,建议使用非参数检验。

密度图和Q-Q图可用于检查正态性。

可视化检查通常是不可靠的。 可以使用显着性检验将样本分布与正常分布进行比较,以确定数据是否显示出与正态性的严重偏差。

正态性检验有几种方法,例如Kolmogorov-Smirnov(K-S)和Shapiro-Wilk。
Shapiro-Wilk是广泛适用的正态性检验,它比K-S更有力。 它基于数据和相应的正常分数之间的相关性。州知

从输出来看,p=0.1091> 0.05意味着数据的分布与正态分布没有显着差异。 换句话说,我们可以假设正常性。

参考资料:

‘叁’ 如何使用R语言进行正态性检验

卡方拟合优度检验或者正态性检验都可圆渗以检验一串数据是否服橘核脊从正态分布。如果你用spss里面就有正态性检验QQ图PP图如果你用R就用shapiro.testkolmogorov-smirnov非参数检验K-S检验如果你用matlab就氏芦是normplot实际就是QQ图

‘肆’ r语言S-W和K-S两种正态性检验

Shapiro-Wilk检验 用来检验是否数据符合正态分布 ,类似于线性回归的方法一样,是检验其于回归曲线的残差。该方法作者推荐在样本量很小巧燃的时候使用,比如N<20。但是也有作者推荐在大数据集上使用。该作者将这种修改后的方法运用在R语言的stats包中的 shapiro.test 函数中。

为排序后的样本数据, 为待估常量,假设样本数据确实符合一个未知均值 、标准差 的正态分布,那么样本数据就会满足下列一次函数式:

其中xi是随机正态分布N(0,1)中排序数据。

统计量越大则表示数据越符合正态分布,但是仅凭这一个参数是不够的, 在非正态分布的小样本数据中也经常会出现较大的W值。 该统计量的分布是未知的,因此需要通过模拟或者查表轮搜来估计其概率。由于原假设是其符合正态分布,所以当P值小于指定显着水平时表示其不符合正态分布。腊宽历

主要分析p-value,由于原假设H0假定数据和正态分布没有差异,p<0.05否定原假设,说明数据不符合正态分布。

换一组数据

由于原假设H0假定数据和正态分布没有差异,p显着大于0.05,不能否定原假设,说明可认为数据符合正态分布。

由于原假设H0假定数据和正态分布没有差异,p显着小于0.05,否定原假设,说明数据不符合正态分布。

‘伍’ 如何使用R语言进行正态性检验

x<-c(-10:10)
shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.95993, p-value = 0.5148
shapiro.test(c(x,"辩配a"))
Error: is.numeric(x) is not TRUE
你的数据不全是数举磨字正灶斗。

阅读全文

与如何用r对数据进行正态性检验相关的资料

热点内容
代理什么酱酒有发展 浏览:270
信息技术兴起于20世纪哪个年代 浏览:282
欠款要是走法律程序需要什么证据 浏览:397
成都购买电动轮椅大市场在哪里 浏览:265
房子过户赠予和交易哪个好 浏览:608
环评审批信息属于什么单位 浏览:776
嵊州领带批发市场有哪些 浏览:278
武汉葵花药店代理怎么样 浏览:135
人事代理是指哪些 浏览:445
红军为什么不投入转会市场 浏览:138
数据库一页多少k 浏览:568
华为换苹果x手机怎么转移数据 浏览:353
张氏绝密技术有哪些 浏览:930
如何在电脑上安装显卡驱动程序 浏览:174
如何编apk程序 浏览:861
上汇眼镜市场怎么样 浏览:711
夏门金龙技术部员工月工资多少 浏览:587
社保卡上信息与交费怎么查 浏览:737
如何编写串行口初始化程序 浏览:389
南昌菜市场在哪个位置摆摊 浏览:740