1. 不是正態分布的數據怎麼分析
不是正態的數據分析,第一反應是尋求變換,常用的就是Box-Cox變換。如果還不行的話,就直接上非參數了。
對待這種問題,一般要先弄清不正態的原因再說。
第一種情況:數據本來就不是正態的。
如果明確知道樣本數據所代表的總體本來就不是正態分布的,可以考慮尋求變換,通常都會找到恰當的變換參數。但有些數據也不一定能夠變換成功,這時可以採用非參數檢驗來進行分析。
第二種情況:存在異常點。
如果確認是異常點,可以考慮剔除。但如果找不到產生異常點的原因,它可能就是一個正常數據,此時可以考慮補充抽樣,看看能不能把異常點與大多數數據中的空間填補上。
2. SPSSAU數據不符合正態分布,應該怎麼辦
正態性檢驗要求嚴格通常無法滿足,如果峰度絕對值小於10並且偏度絕對值小於3,則說明數據雖然不是絕對正態,但基本可接受為正態分布。 除此之外,也可以對數據取對數,開根號等(數據處理-生成變數),然後對新數據再次檢驗正態性。一般來說取對數,開根號等處理只會改變數據的相對值,而數據的相對意義並不會改變,因此如果使用取對數等方法讓數據更『正態』,是科學合理的做法。具體可查看SPSSAU幫助手冊說明。
3. 當數據不符合正態分布,且希望能符合正態分布時候可以用哪些方法
正態分布法:X服從一個數學期望為μ、方差為σ^2的正態分布,記為N(μ,σ^2)。其概率密度函數為正態分布的期望值μ決定了其位置,其標准差σ決定了分布的幅度。當μ = 0,σ = 1時便符合正態分布了。
故必須認定這二者之一(算術平均的優良性,誤差的正態性) 為出發點。但算術平均到底並沒有自行成立的理由,以它作為理論中一個預設的出發點,終覺有其不足之處。拉普拉斯的理論把這斷裂的一環連接起來,使之成為一個和諧的整體,實有著極重大的意義。
其實,他提出的形式有相當大的局限性:海根把誤差設想成個數很多的、獨立同分布的「元誤差」 之和,每隻取兩值,其概率都是1/2,由此出發,按棣莫弗的中心極限定理,立即就得出誤差(近似地)服從正態分布。
拉普拉斯所指出的這一點有重大的意義,在於他給誤差的正態理論一個更自然合理、更令人信服的解釋。因為,高斯的說法有一點循環論證的氣味:由於算術平均是優良的,推出誤差必須服從正態分布;反過來,由後一結論又推出算術平均及最小二乘估計的優良性。
4. 關於數據非正態分布怎麼辦
可以應用變數變換的方法,將不服從正態分布的資料轉化為非正態分布或近似正態分布。常用的變數變換方法有對數變換、平方根變換、倒數變換、平方根反正玄變換等,應根據資料性質選擇適當的變數變換方法。
1、對數變換 即將原始數據X的對數值作為新的分布數據:
X』=lgX
當原始數據中有小值及零時,亦可取X』=lg(X+1)
還可根據需要選用X』=lg(X+k)或X』=lg(k-X)
對數變換常用於(1)使服從對數正態分布的數據正態化。如環境中某些污染物的分布,人體中某些微量元素的分布等,可用對數正態分布改善其正態性。
(2)使數據達到方差齊性,特別是各樣本的標准差與均數成比例或變異系數CV接近於一個常數時。
2、平方根變換 即將原始數據X的平方根作為新的分布數據。
X』=sqrt(X)
平方根變換常用於:
1)使服從Poission分布的計數資料或輕度偏態資料正態化,可用平方根變換使其正態化。2)當各樣本的方差與均數呈正相關時,可使資料達到方差齊性。
3)倒數變換 即將原始數據X的倒數作為新的分析數據。
X』=1/X
常用於資料兩端波動較大的資料,可使極端值的影響減小。
4、平方根反正旋變換 即將原始數據X的平方