1. 怎麼用數學方法判斷是否屬於正態分布
一、圖示法
1、P-P圖
以樣本的累計頻率作為橫坐標,以安裝正態分布計算的相應累計概率作為縱
坐標,把樣本值表現為直角坐標系中的散點。如果資料服從整體分布,則樣本點應圍繞第一象限的對角線分布。
2、Q-Q圖
以樣本的分位數作為橫坐標,以按照正態分布計算的相應分位點作為縱坐
標,把樣本表現為指教坐標系的散點。如果資料服從正態分布,則樣本點應該呈一條圍繞第一象限對角線的直線。
以上兩種方法以Q-Q圖為佳,效率較高。
3、直方圖
判斷方法:是否以鍾形分布,同時可以選擇輸出正態性曲線。
4、箱式圖
判斷方法:觀測離群值和中位數。
5、莖葉圖
類似與直方圖,但實質不同。
二、計演算法
1、偏度系數(Skewness)和峰度系數(Kurtosis)
計算公式:
g1表示偏度,g2表示峰度,通過計算g1和g2及其標准誤σg1及σg2然後作U檢驗。兩種檢驗同時得出U<U0.05=1.96,即p>0.05的結論時,才可以認為該組資料服從正態分布。由公式可見,部分文獻中所說的「偏度和峰度都接近0……可以認為……近似服從正態分布」並不嚴謹。
2、非參數檢驗方法
非參數檢驗方法包括Kolmogorov-Smirnov檢驗(D檢驗)和Shapiro- Wilk(W 檢驗)。
SAS中規定:當樣本含量n≤2000時,結果以Shapiro – Wilk(W檢驗)為准,當樣本含量n >2000時,結果以Kolmogorov – Smirnov(D檢驗)為准。
SPSS中則這樣規定:(1)如果指定的是非整數權重,則在加權樣本大小位
於3和50之間時,計算Shapiro-Wilk統計量。對於無權重或整數權重,在加權
樣本大小位於3和5000之間時,計算該統計量。由此可見,部分SPSS教材裡面關於「Shapiro –Wilk適用於樣本量3-50之間的數據」的說法是在是理解片面,誤人子弟。(2)單樣本Kolmogorov-Smirnov檢驗可用於檢驗變數(例如income)是否為正態分布。
對於此兩種檢驗,如果P值大於0.05,表明資料服從正態分布。
2. 如何判斷一組數據是不是正態分布
正態分布也叫常態分布,是連續隨機變數概率分布的一種,自然界、人類社會、心理和教育中大量現象均按正態形式分布,例如能力的高低,學生成績的好壞等都屬於正態分布.標准正態分布是正態分布的一種,具有正態分布的所有特徵.所有正態分布都可以通過Z分數公式轉換成標准正態分布.兩者特點比較:(1)正態分布的形式是對稱的,對稱軸是經過平均數點的垂線.(2)中央點最高,然後逐漸向兩側下降,曲線的形式是先向內彎,再向外彎.(3)正態曲線下的面積為1.正態分布是一族分布,它隨隨機變數的平均數、標准差的大小與單位不同而有不同的分布形態.標准正態分布是正態分布的一種,其平均數和標准差都是固定的,平均數為0,標准差為1.
(4)正態分布曲線下標准差與概率面積有固定數量關系.所有正態分布都可以通過Z分數公式轉換成標准正態分布.把你的數據畫成圖 對比一下
3. 如何判斷一組數據是否為正態分布
當我們應用統計方法對數據進行分析時,會發現許多計量資料的分析方法,例如常用的T檢驗、方差分析、相關分析以及線性回歸等等,都要求數據服從正態分布或者近似正態分布,但這一前提條件往往被使用者所忽略。因此為了保證數據滿足上述統計方法的應用條件,對原始數據進行正態性檢驗是十分必要的,這一節內容我們主要向大家介紹如何對數據資料進行正態性檢驗。一、正態性檢驗:偏度和峰度1、偏度(Skewness):描述數據分布不對稱的方向及其程度(見圖1)。當偏度≈0時,可認為分布是對稱的,服從正態分布;當偏度>0時,分布為右偏,即拖尾在右邊,峰尖在左邊,也稱為正偏態;當偏度<0時,分布為左偏,即拖尾在左邊,峰尖在右邊,也稱為負偏態;注意:數據分布的左偏或右偏,指的是數值拖尾的方向,而不是峰的位置,容易引起誤解。2、峰度(Kurtosis):描述數據分布形態的陡緩程度(圖2)。當峰度≈0時,可認為分布的峰態合適,服從正態分布(不胖不瘦);當峰度>0時,分布的峰態陡峭(高尖);當峰度<0時,分布的峰態平緩(矮胖);利用偏度和峰度進行正態性檢驗時,可以同時計算其相應的Z評分(Z-score),即:偏度Z-score=偏度值/標准誤,峰度Z-score=峰度值/標准誤。在α=0.05的檢驗水平下,若Z-score在±1.96之間,則可認為資料服從正態分布。了解偏度和峰度這兩個統計量的含義很重要,在對數據進行正態轉換時,需要將其作為參考,選擇合適的轉換方法4. spss判斷是否符合正態分布
今天和大家分享一下SPSS中判斷一組數據是否符合正態分布的幾種方法。 以下表為例,需要判斷地理成績的分布是否符合正態分布。 在開始菜單點擊「分析」、「頻率」,在頻率對話框中將地理欄位選入選框。 在頻率圖表選項中勾選「直方圖」、「在直方圖中顯示正態曲線」。 之後可以在輸出結果中看到數據分布情況。 我們也可以使用Q-Q 圖進行判斷。 P-P圖判斷的操作方法與Q-Q圖基本一致。 此外還可以使用K-S檢驗。 和前面的判斷方法不同的是這種方法輸出的結果並沒有圖形展示,我們只需要關注最後的漸近顯著性是否大於0.05即可。
偏度和峰度
1、偏度(Skewness):描述數據分布不對稱的方向及其程度(見圖1)。
當偏度≈0時,可認為分布是對稱的,服從正態分布;
當偏度>0時,分布為右偏,即拖尾在右邊,峰尖在左邊,也稱為正偏態;
當偏度<0時,分布為左偏,即拖尾在左邊,峰尖在右邊,也稱為負偏態;
注意:數據分布的左偏或右偏,指的是數值拖尾的方向,而不是峰的位置,容易引起誤解。
2、峰度(Kurtosis):描述數據分布形態的陡緩程度(圖2)。
當峰度≈0時,可認為分布的峰態合適,服從正態分布(不胖不瘦);
當峰度>0時,分布的峰態陡峭(高尖);
當峰度<0時,分布的峰態平緩(矮胖);
利用偏度和峰度進行正態性檢驗時,可以同時計算其相應的Z評分(Z-score),即:偏度Z-score=偏度值/標准誤,峰度Z-score=峰度值/標准誤。在α=0.05的檢驗水平下,若Z-score在±1.96之間,則可認為資料服從正態分布。
了解偏度和峰度這兩個統計量的含義很重要,在對數據進行正態轉換時,需要將其作為參考,選擇合適的轉換方法。
3、SPSS操作方法
以分析某人群BMI的分布特徵為例。
(1) 方法一
選擇Analyze → Descriptive Statistics → Frequencies
將BMI選入Variable(s)框中 → 點擊Statistics → 在Distribution框中勾選Skewness和Kurtosis
(2) 方法二
選擇Analyze → Descriptive Statistics → Descriptives
將BMI選入Variable(s)框中 → 點擊Options → 在Distribution框中勾選Skewness和Kurtosis
4、結果解讀
在結果輸出的Descriptives部分,對變數BMI進行了基本的統計描述,同時給出了其分布的偏度值0.194(標准誤0.181),Z-score = 0.194/0.181 = 1.072,峰度值0.373(標准誤0.360),Z-score = 0.373/0.360 = 1.036。偏度值和峰度值均≈0,Z-score均在±1.96之間,可認為資料服從正態分布。
二、正態性檢驗:圖形判斷
1、直方圖:表示連續性變數的頻數分布,可以用來考察分布是否服從正態分布
(1)選擇Graphs → Legacy Diaiogs → Histogram
(2)將BMI選入Variable中,勾選Display normal curve繪制正態曲線
2、P-P圖和Q-Q圖
(1) P-P圖反映了變數的實際累積概率與理論累積概率的符合程度,Q-Q圖反映了變數的實際分布與理論分布的符合程度,兩者意義相似,都可以用來考察數據資料是否服從某種分布類型。若數據服從正態分布,則數據點應與理論直線(即對角線)基本重合。
(2) SPSS操作:以P-P圖為例
選擇Analyze → Descriptive Statistics → P-P Plots
將BMI選入Variables中,Test Distribution選擇Normal,其他選項默認即可。
三、正態性檢驗:非參數檢驗分析法
1、正態性檢驗屬於非參數檢驗,原假設為「樣本來自的總體與正態分布無顯著性差異,即符合正態分布」,也就是說P>0.05才能說明資料符合正態分布。
通常正態分布的檢驗方法有兩種,一種是Shapiro-Wilk檢驗,適用於小樣本資料(SPSS規定樣本量≤5000),另一種是Kolmogorov–Smirnov檢驗,適用於大樣本資料(SPSS規定樣本量>5000)。
2、SPSS操作
(1) 方法一:Kolmogorov–Smirnov檢驗方法可以通過非參數檢驗的途徑實現
選擇Analyze → Nonparametric Tests → Legacy Dialogs → 1-Sample K-S
將BMI選入Test Variable List中,在Test Distribution框中勾選Normal,點擊OK完成操作。
(2) 方法二:Explore方法
選擇Analyze → Descriptive Statistics → Explore
將BMI選入Dependent List中,點擊Plots,勾選Normality plots with tests,在Descriptive框中勾選Histogram,Boxplots選擇None,點擊OK完成操作。
3、結果解讀
(1)在結果輸出的Descriptives部分,對變數BMI進行了基本的統計描述,同時給出了其分布的偏度值、峰度值及其標准誤,具體意義參照上面介紹的內容。
(2)在結果輸出的Tests of Normality部分,給出了Shapiro-Wilk檢驗及Kolmogorov-Smirnov檢驗的結果,P值分別為0.200和0.616,在α=0.05的檢驗水準下,P>0.05,不拒絕原假設,可認為資料服從正態分布。
(3)在結果輸出的最後部分,同時給出了直方圖和Q-Q圖,具體意義參照上面介紹的內容。建議可以直接使用Explore方法,結果中不僅可以輸出偏度值,峰度值,繪制直方圖,Q-Q圖,還可以輸出非參數檢驗的結果,一舉多得。
四、注意事項
事實上,Shapiro-Wilk檢驗及Kolmogorov-Smirnov檢驗從實用性的角度,遠不如圖形工具進行直觀判斷好用。在使用這兩種檢驗方法的時候要注意,當樣本量較少的時候,檢驗結果不夠敏感,即使數據分布有一定的偏離也不一定能檢驗出來;而當樣本量較大的時候,檢驗結果又會太過敏感,只要數據稍微有一點偏離,P值就會<0.05,檢驗結果傾向於拒絕原假設,認為數據不服從正態分布。所以,如果樣本量足夠多,即使檢驗結果P<0.05,數據來自的總體也可能是服從正態分布的。
因此,在實際的應用中,往往會出現這樣的情況,明明直方圖顯示分布很對稱,但正態性檢驗的結果P值卻<0.05,拒絕原假設認為不服從正態分布。此時建議大家不要太刻意追求正態性檢驗的P值,一定要參考直方圖、P-P圖等圖形工具來幫助判斷。很多統計學方法,如T檢驗、方差分析等,與其說要求數據嚴格服從正態分布,不如說「數據分布不要過於偏態」更為合適。
5. 如何判斷一組數據是否符合正態分布
方法和詳細的操作步驟如下:
1、第一步,新建Excel文檔,見下圖,轉到下面的步驟。