㈠ SPSS非正态分布数据如何修改成为正态分布数据!急求
可以应用变量变换的方法,将不服从正态分布的资料转化为非正态分布或近似正态分布。
常用的变量变换方法有对数变换、平方根变换、倒数变换、平方根反正玄变换等,应根据资料性质选择适当的变量变换方法。
X’=lgX当原始数据中有小值及零时,亦可取X’=lg(X+1)还可根据需要选用X’=lg(X+k)或X’=lg(k-X)对数变换常用于(1)使服从对数正态分布的数据正态化。如环境中某些污染物的分布,人体中某微量元素的分布等,可用对数正态分布改善其正态性。
图形特征
集中性:正态曲线的高峰位于正中央,即均数所在的位置。
对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。
以上内容参考:网络-正态分布
㈡ 数据的标准化和正态化变换
数据挖掘过程中,不同变量数据单位不一,比如,我们想知道一个人身体健康状况,其身高是180cm,体重是80kg,视力是2.5,心跳是70/min,这些指标都是描述一个人身体状况的数据,这些单一不一的指标会对建模的准确度有一定影响。因此,在数据挖掘之前,我们要对数据做标准化处理。
另外,建模之后,我们产生了有价值的目标变量数据,但是这些数据都是标准化数据形式,跟实际业务问题的需求有一定偏差。如此,源拆需要对数据做一定的变换,比如使其接近正态分布,这样从数据形式上可以对业务问题有更好的解释。
数据标准化有很多形式,这里简单总结三种,如下:
假设我们有一个X向量,x(i,j),i = 1,..,m;j = 1,..,n。z_score规范化如下:
x(i,j)' = [x(i,j) - E(j)] / S[j] ,即x(i,j)减去第j列的均值再除以第j列的标准差。
这样处理之后,原数据就变成了均值为0,方差为1,记作:
X' = [X - E(X)] / S(X) ,其中,E(X) = 0, S(X) = 1。
假设我们有让裂弯一个X向量,x(i,j),i = 1,..,m;j = 1,..,n。中心化如下:
x(i,j)' = x(i,j) - E(j) ,E(j)是第j列的均值。
如此变化以后,均值为0,但是方差矩阵不变。
假设我们有一个X向量,x(i,j),i = 1,..,m;j = 1,..,n。极差标准化如下:
x(i,j) = [x(i,j) - E(j)]/ ( max(j) - min(j) .
这样变换后,均值为0,方差为1.
小数定标规范化通过移动数据A的小数点位置进行规范化。小数点的移动位置依赖数据A的最大值。由下式计算:|max(A)|<1的最小整数。假设A的取值为-986 ~ 917,A的最大绝对值为986,使用小数定标规范化,用1000除以每个值,这样-986标准化为-0.986,917则为0.917.
注意:极差标准化和小数定标规范化都改变了原数据,如果想统一转换为原数据比较麻烦。所以可以尽量通过前两种方法来做规范化。
R语言中有现成的函数,比如scale,可以通过设置scale的参数来实现z_score和中心化的数据标准化,具体参考?scale.
当然,可以可以自己写一个规范化函数,如下:
数据正态化,目的是稳定方差,直线化,使数据分布正态或者接近正态。
如果y = f(x) 是x的线性函数,不影响分析;但是如果是非线性函数,y和x的表现就完全不同,包括分布,方差和数据间关系也会不同。
这个不做过多解释,请参考 这里
Box-Cox在1964年从实际数坦闷据出发提出了一个很有效的变换,如下:
y = ifelse(k = 0,log(y),[y^k-1]/k) ,此变换有如下特点:
实际应用中,Box-Cox还有个扩展式,如下:
y = ifelse(k1 = 0,log(y+k2),[(y +k2)^k1-1]/k1) ,任意y,保证y+k2>0,即k2已知,k1为参数。
请参考这个文章, Box-Cox Transformation
1, Box-Cox Transform: An Overview
2, Box-Cox变换
3, 统计学与R语言笔记-徐俊晓
㈢ SPSS中怎样把数据正态化
我用的是spss18.0,这是个汉化版,将一组数据正态化的按纽分别是:“转换”——“个案排秩”——把要正态化的数据迁入“变量”栏——把要呈现的表格式样迁入“排序标准”——再点右上角“秩的类型”——再点右下角“正态得分”,基本上就差不多了,只是正态化有四个选择项,我用的是tukey法,这种方法对负偏态比较严重的分数相当好。
㈣ 如何进行标准正态变换
标准正态变换,也称为Z-score标准化,是将一组数据转换为具有均值为0、标准差为1的标准正态分布的过程。可以通过以下步骤进行标准正态变换:
计算嫌羡数据集的均值和标准差。
对于每个数据点,使用以下公式计算其Z-score:
Z = (X - μ) / σ
其中,Z为标准辩者纤化后的值,X为原始数据点,μ为数据集的均值,σ为数据集的标准差。
对于所有数据点,计算Z-score并将其替换为原始值。
通过这些步骤,数据集就会被转换为具有均值为0、标准差为1的标准正态分布。标准正态分布是一个非常重要的分布,因为它是很多统计分析和机器学习算法的前提,所以标准正态变换在数据预处理中非常常携仿用。
㈤ 标准正态分布是怎么转换过去的
标准正态分布是转换过去:实际这就是一个坐标系的转换,标准正太分布(均值为0,标准差为1),为正太分布分均值,为正太分布的标准差,z为变化后的值,X为随意变量。
在一般形式的正态分布中,变量是X,是采样的具体数据,所求值要么是具体的该数据下的数据量,要么是此数据量在总数据量中所占的百分比;而在标准正态分布中,变量是采样的具体数据与总体均值的差值并且用标差为单位显示出来(比上标差σ)。
正凳段态曲线呈钟型
两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。若随机变量X服从一个数学期碰粗枝望为μ、方差为σ2的正态分布,记为笑敏N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
㈥ 如何把数组拉伸成正态分布
分布数据:
X’=lgX
当原始数据中有小值及零时,亦可取X’=lg(X+1)
还可根据需要选用X’=lg(X+k)或X’=lg(k-X)
对数变换常用于(1)使服从对数正态分布的数据正态祥饥化。如环境中某些污染物的分布,人体中某些微量元素的分布等,可用对数正态分布改善其正态性。(2)使数据达到方差齐性,特别是各样本的标准差与均数成比例或变异系数CV接近于一个常数时。
2、平方根变换 即将原始数据X的平方根作为新的分布数据。
X’=sqrt(X)
平方根变换常用于:1)使服从Poission分布的计数资料或轻度偏态资料正态化,可用平方根变换使其正态化。2)当各样本的方差与均数呈正相关时,可使资料达到方差齐性。
3、倒数变换 即将原始数据X的倒数作为新的分析数据。
X’=1/X
常用于资料两端波动较大的资料,可使极端值的影响减小。
4、平方根反正旋变换 即将原始数据X的平方根反正玄值做为新的分析数据。
X’=sin-1sqrt(X)
常用于服从二项分布的率或百分比的资料。一般认为等总体率较小如<30%时或较大(如>70%时),偏离正态较为明显,通过样本率的平方根反正玄变换,可使资料接近正态分布,达到方差齐性的要求。
5. 计量经济学中常用的BOX-COX变换
6.在SPSS中:
在转换-计算变量里面点进去,就可以把一个变量进行各种变换,就和计算器类似
不过最好的方法是把数据标准化,
分析——描述统计——描述,有个选项是将标准化得分另存为变量
这样你的变量都符合正态性了
或者在SPSS上的操作方法:工具栏transform-Rank cases,将左边你要进行正态化的变量拖入右边“变量”框中;点选rank types对话窗,选中normal scores选项(共四种计算方法,系统默认的是bloom计算方法,可根据你的需要进行改进),点击continue,ok。
spss会在数据观察表中生成两列新变量,其中N总分变量就是你想要的正态化结果。欢迎来参加《小白爱上SPSS》课程
小白爱上SPSS
这是加餐课程:如何将非正态分布数据转换为正态分布。手把手教你SPSS操作
在前面我们学过的参数检验中,比如两独立样本T检验和单因素方差分析中,有一个重要前提条件是连续型变量要满足正态分布。
如果遇到非正态分布数据怎么办?一种建议是选用合适的非参数检验方法,比如两样本秩和检验;另一种是对原始进行转换使得其满足正态分布特性。
这一讲,我们来讲解下如何转换?
一、正负偏态的转换方法
正态分布转换方法庆枝有很多,比如:对数变换、平方根变换、平方根反正弦变换、平方变换、倒数变换、Box-Cox变换、正态得分法。
这里选择几种常用方法讲解,起示范作用。数据转换分成两种情况,一种是正偏态数据,另一种是负偏态数据,每种又分成轻度、中度和严重三种情况。
(一)正偏态数据转换方法
1、轻度正偏态分布
当偏度值>0,偏度值为其标准误差的2-3倍,即Z-score=2~3,此时认誉宴敏为资料分布呈现轻度的正偏态分布,故考虑对变量x取根号开平方的方法来进行转换。
SPSS语句如下:
COMPUTE x_new = SQRT(x)
(SQRT为开平方根Square Root缩写)
2、中度正偏态分布
当偏度值>0,偏度值为其标准误差的3倍以上时,即Z-score>3,此时认为资料分布呈现中度的正偏态分布,可以考虑对变量x取对数来进行转换。可以取自然对数(ln)或以10为底的对数(log10)。
SPSS语句如下:
COMPUTE x_new = LN(x)
COMPUTE x_new = LG10(x)
注意:LG10的纠正力度较强,有时甚至会矫枉过正,将正偏态转换为负偏态,因此在进行正态转换后一定要对该变量再次进行正态性检验。
3、重度正偏态分布
对于两端波动比较大的数据资料,极端值可能产生较大的影响,此时可以考虑取倒数的方法来进行转换。
SPSS语句如下:
COMPUTE x_new = 1/x
若你不太熟悉SPSS语法编辑窗口,则可通过SPSS中“转换”—“计算变量”实现,找到sqrt, ln, lg10等函数。
注意:根号下要求数据均为非负数(即≥0),对数要求数据均为正数(即>0);取倒数要求分母不为0, 如果变量x中出现上述情况,则需要先将其进行一定的转换,如x+K或K-x,再对其取根号、对数或倒数。其中K为一个常数,可以根据需要进行赋值,例如赋值为1,或取数据的最小值、最大值等。
(二)负偏态数据转换方法
对于负偏态分布的数据资料,首先需要将负偏态资料进行反转,转换为正偏态,然后再参考正偏态分布资料的转换方法进行转换。
反转的方法:首先找出该数据系列的最大值max,用最大值+1,再减去每个数值。
1、轻度负偏态分布
SPSS语句如下:
COMPUTE x_new = SQRT(max+1-x)
2、中度负偏态分布
SPSS语句如下:
COMPUTE x_new = LN(max+1-x)
COMPUTE x_new = LG10(max+1-x)
3、重度负偏态分布
SPSS语句如下:
COMPUTE x_new = 1/(max+1-x)
二、实战案例
下面是42名员工的月收入,试检验其正态性。若不服从正态性,请将其转化为正态分布(关注本公众号,回复【小白数据】即可下载原始数据 )。
三、正态性检验
这里主要通过SPSS的探索性描述统计方法来考察收入的分布情况。
(一)操作如下
点击分析——描述统计——探索
将“收入”选入因变量列表,点击 图 --勾选直方图--勾选含检验的正态图--继续--确定。
(二)结果解读
1.描述看峰度偏度
2.计算偏度系数
3.计算峰度系数
由以上结果可知,偏度系数的绝对值均大于1.96,可以认为该组样本数据不服从符合正态分布。
4.看正态性检验结果
5.结果解读:
当数据量≤50时,倾向于以夏皮洛-威尔克(S-W)检验结果为准;
当数据量>50时,倾向以柯尔莫戈洛夫-斯米诺夫(K-S)检验结果为准;当数据量>5000时,SPSS只会显示K-S检验结果。
本例中,我们检验40名员工收入的正态分布情况,由上表显示,样本量(可参考自由度那一列数值)小于50,故以夏皮洛-威尔克(S-W)检验结果为准。检验的p值(即显着性那一列)为0.000,小于0.05,说明40名员工收入不符合正态分布,故认为收入不满足正态性。
四、SPSS:对数转换法
(一)选择检验方法和操作步骤
由上可知,因本案例中偏度值<0,为负偏态,偏度值为其标准误差的3倍以上,故考虑对变量x取对数来进行转换。对于负偏态分布的数据资料,首先需要将负偏态资料进行反转,转换为正偏态,然后再参考正偏态分布资料的转换方法进行转换。
㈦ 如何用SPSS做数据正态化转换
将非正碧悄态分布的数据转化为正态可以通过以下方式处理:
spss工具栏:transform-Rank cases,将左边你要进行正态化的变量拖入右边“变量”框中;点选rank types对话窗,选中normal scores选项(共四种计算方法,系统默认的是bloom计算方法,可根据你的需要进行改进),点击continue,ok,此时spss页面上会生成两列新变量,第一个变量,N打头的那个就是正态化后的新变量
要注意的一点是不是任何非正态数据都可以进行正态转换,只有我们有把握认为数据的总体分布是正态的时候才可以去做正态转换,否则强梁岩行进行z或悔渣渣者t检验得到的结果未必是正确的。
㈧ 正态分布怎么转化为标准正态分布
正态分布的标准化需要礼仪相反侧面积相等若分别都服从正态分布,那么,aX+bY也服从正态分布、怎么样把普通正态分布转化为标准正态分布。服从正态分布,则先计算该组数据的期望μ及标准差σ,则新构成的这一组数据Y-σ服从标准正态分布,即可以得出P[- Y-]。不同参数的正态分布之间需要相互比较时,就需要按照上述方式转换为标准正态分布、实际应用,某金融机构的的风险水平下资产损失为亿,即有的可能性会亏损亿元,就是即为风险值。金融机构的风险控制,一般管理左尾概率,右尾概率一般不去管它,因为右尾都是指碧孝高兴的事情、作业:上证指数月报慧贺酬率的分布,计算平均数、标准差。若为标准正态分布,将其平方2的分布就是卡方分布。因为x+∞,但平方之后,x+∞,卡方分布只有一个参数,即自由度,所以卡方分布是正态分布的亲戚、若X/Y独立,且分别都是标准正态分布,+Y2也是卡方分布,自由度为。以此类推自由度为的卡方分布,就是个标唯稿准正态分布的平方之总和。
㈨ 如何将非正态数据转换成正态分布数据
做SPSS分析,数据不符合正态分布,如何将非正并衫态数据转为正态分布数据,可以采用以滑绝下步骤来转换:
先将原始分数的频数转化为相对累积频数(百分等级),将它视为正态分布的概率,然后通过查正态分布表中概率值相对应的Z值,将其转化为Z分数,达到正态化的目的。
在SPSS上的操作方法:工具栏transform-Rank cases,将左边你要进行正态化的变量拖入右边“变量”框中;点选rank types对话窗,选中normal scores选项(共四种计算方法,系统默认的是bloom计算方法,可根据你的需要进行改进),点击continue,ok。
spss会在数据观察表中生成两列新变量信蔽姿,其中N总分变量就是你想要的正态化结果。
注:尊重知识,请提问者尽快采纳答案。