⑴ 如何判斷一組數據是否為正態分布
當我們應用統計方法對數據進行分析時,會發現許多計量資料的分析方法,例如常用的T檢驗、方差分析、相關分析以及線性回歸等等,都要求數據服從正態分布或者近似正態分布,但這一前提條件往往被使用者所忽略。因此為了保證數據滿足上述統計方法的應用條件,對原始數據進行正態性檢驗是十分必要的,這一節內容我們主要向大家介紹如何對數據資料進行正態性檢驗。一、正態性檢驗:偏度和峰度1、偏度(Skewness):描述數據分布不對稱的方向及其程度(見圖1)。當偏度≈0時,可認為分布是對稱的,服從正態分布;當偏度>0時,分布為右偏,即拖尾在右邊,峰尖在左邊,也稱為正偏態;當偏度<0時,分布為左偏,即拖尾在左邊,峰尖在右邊,也稱為負偏態;注意:數據分布的左偏或右偏,指的是數值拖尾的方向,而不是峰的位置,容易引起誤解。2、峰度(Kurtosis):描述數據分布形態的陡緩程度(圖2)。當峰度≈0時,可認為分布的峰態合適,服從正態分布(不胖不瘦);當峰度>0時,分布的峰態陡峭(高尖);當峰度<0時,分布的峰態平緩(矮胖);利用偏度和峰度進行正態性檢驗時,可以同時計算其相應的Z評分(Z-score),即:偏度Z-score=偏度值/標准誤,峰度Z-score=峰度值/標准誤。在α=0.05的檢驗水平下,若Z-score在±1.96之間,則可認為資料服從正態分布。了解偏度和峰度這兩個統計量的含義很重要,在對數據進行正態轉換時,需要將其作為參考,選擇合適的轉換方法⑵ 怎麼用數學方法判斷是否屬於正態分布
一、圖示法
1、P-P圖
以樣本的累計頻率作為橫坐標,以安裝正態分布計算的相應累計概率作為縱
坐標,把樣本值表現為直角坐標系中的散點。如果資料服從整體分布,則樣本點應圍繞第一象限的對角線分布。
2、Q-Q圖
以樣本的分位數作為橫坐標,以按照正態分布計算的相應分位點作為縱坐
標,把樣本表現為指教坐標系的散點。如果資料服從正態分布,則樣本點應該呈一條圍繞第一象限對角線的直線。
以上兩種方法以Q-Q圖為佳,效率較高。
3、直方圖
判斷方法:是否以鍾形分布,同時可以選擇輸出正態性曲線。
4、箱式圖
判斷方法:觀測離群值和中位數。
5、莖葉圖
類似與直方圖,但實質不同。
二、計演算法
1、偏度系數(Skewness)和峰度系數(Kurtosis)
計算公式:
g1表示偏度,g2表示峰度,通過計算g1和g2及其標准誤σg1及σg2然後作U檢驗。兩種檢驗同時得出U<U0.05=1.96,即p>0.05的結論時,才可以認為該組資料服從正態分布。由公式可見,部分文獻中所說的「偏度和峰度都接近0……可以認為……近似服從正態分布」並不嚴謹。
2、非參數檢驗方法
非參數檢驗方法包括Kolmogorov-Smirnov檢驗(D檢驗)和Shapiro- Wilk(W 檢驗)。
SAS中規定:當樣本含量n≤2000時,結果以Shapiro – Wilk(W檢驗)為准,當樣本含量n >2000時,結果以Kolmogorov – Smirnov(D檢驗)為准。
SPSS中則這樣規定:(1)如果指定的是非整數權重,則在加權樣本大小位
於3和50之間時,計算Shapiro-Wilk統計量。對於無權重或整數權重,在加權
樣本大小位於3和5000之間時,計算該統計量。由此可見,部分SPSS教材裡面關於「Shapiro –Wilk適用於樣本量3-50之間的數據」的說法是在是理解片面,誤人子弟。(2)單樣本Kolmogorov-Smirnov檢驗可用於檢驗變數(例如income)是否為正態分布。
對於此兩種檢驗,如果P值大於0.05,表明資料服從正態分布。
⑶ 如何判斷一組數據是不是正態分布
正態分布也叫常態分布,是連續隨機變數概率分布的一種,自然界、人類社會、心理和教育中大量現象均按正態形式分布,例如能力的高低,學生成績的好壞等都屬於正態分布.標准正態分布是正態分布的一種,具有正態分布的所有特徵.所有正態分布都可以通過Z分數公式轉換成標准正態分布.兩者特點比較:(1)正態分布的形式是對稱的,對稱軸是經過平均數點的垂線.(2)中央點最高,然後逐漸向兩側下降,曲線的形式是先向內彎,再向外彎.(3)正態曲線下的面積為1.正態分布是一族分布,它隨隨機變數的平均數、標准差的大小與單位不同而有不同的分布形態.標准正態分布是正態分布的一種,其平均數和標准差都是固定的,平均數為0,標准差為1.
(4)正態分布曲線下標准差與概率面積有固定數量關系.所有正態分布都可以通過Z分數公式轉換成標准正態分布.把你的數據畫成圖 對比一下
⑷ 如何判斷一組數據是否符合正態分布
方法和詳細的操作步驟如下:
1、第一步,新建Excel文檔,見下圖,轉到下面的步驟。