導航:首頁 > 數據處理 > 數據如何正態轉換

數據如何正態轉換

發布時間:2023-05-25 02:09:35

㈠ SPSS非正態分布數據如何修改成為正態分布數據!急求

可以應用變數變換的方法,將不服從正態分布的資料轉化為非正態分布或近似正態分布。

常用的變數變換方法有對數變換、平方根變換、倒數變換、平方根反正玄變換等,應根據資料性質選擇適當的變數變換方法。

X』=lgX當原始數據中有小值及零時,亦可取X』=lg(X+1)還可根據需要選用X』=lg(X+k)或X』=lg(k-X)對數變換常用於(1)使服從對數正態分布的數據正態化。如環境中某些污染物的分布,人體中某微量元素的分布等,可用對數正態分布改善其正態性。

圖形特徵

集中性:正態曲線的高峰位於正中央,即均數所在的位置。

對稱性:正態曲線以均數為中心,左右對稱,曲線兩端永遠不與橫軸相交。

均勻變動性:正態曲線由均數所在處開始,分別向左右兩側逐漸均勻下降。

曲線與橫軸間的面積總等於1,相當於概率密度函數的函數從正無窮到負無窮積分的概率為1。即頻率的總和為100%。

以上內容參考:網路-正態分布

㈡ 數據的標准化和正態化變換

數據挖掘過程中,不同變數數據單位不一,比如,我們想知道一個人身體健康狀況,其身高是180cm,體重是80kg,視力是2.5,心跳是70/min,這些指標都是描述一個人身體狀況的數據,這些單一不一的指標會對建模的准確度有一定影響。因此,在數據挖掘之前,我們要對數據做標准化處理。
另外,建模之後,我們產生了有價值的目標變數數據,但是這些數據都是標准化數據形式,跟實際業務問題的需求有一定偏差。如此,源拆需要對數據做一定的變換,比如使其接近正態分布,這樣從數據形式上可以對業務問題有更好的解釋。

數據標准化有很多形式,這里簡單總結三種,如下:

假設我們有一個X向量,x(i,j),i = 1,..,m;j = 1,..,n。z_score規范化如下:
x(i,j)' = [x(i,j) - E(j)] / S[j] ,即x(i,j)減去第j列的均值再除以第j列的標准差。
這樣處理之後,原數據就變成了均值為0,方差為1,記作:
X' = [X - E(X)] / S(X) ,其中,E(X) = 0, S(X) = 1。

假設我們有讓裂彎一個X向量,x(i,j),i = 1,..,m;j = 1,..,n。中心化如下:
x(i,j)' = x(i,j) - E(j) ,E(j)是第j列的均值。
如此變化以後,均值為0,但是方差矩陣不變。

假設我們有一個X向量,x(i,j),i = 1,..,m;j = 1,..,n。極差標准化如下:
x(i,j) = [x(i,j) - E(j)]/ ( max(j) - min(j) .
這樣變換後,均值為0,方差為1.

小數定標規范化通過移動數據A的小數點位置進行規范化。小數點的移動位置依賴數據A的最大值。由下式計算:|max(A)|<1的最小整數。假設A的取值為-986 ~ 917,A的最大絕對值為986,使用小數定標規范化,用1000除以每個值,這樣-986標准化為-0.986,917則為0.917.

注意:極差標准化和小數定標規范化都改變了原數據,如果想統一轉換為原數據比較麻煩。所以可以盡量通過前兩種方法來做規范化。

R語言中有現成的函數,比如scale,可以通過設置scale的參數來實現z_score和中心化的數據標准化,具體參考?scale.
當然,可以可以自己寫一個規范化函數,如下:

數據正態化,目的是穩定方差,直線化,使數據分布正態或者接近正態。
如果y = f(x) 是x的線性函數,不影響分析;但是如果是非線性函數,y和x的表現就完全不同,包括分布,方差和數據間關系也會不同。

這個不做過多解釋,請參考 這里

Box-Cox在1964年從實際數坦悶據出發提出了一個很有效的變換,如下:
y = ifelse(k = 0,log(y),[y^k-1]/k) ,此變換有如下特點:

實際應用中,Box-Cox還有個擴展式,如下:
y = ifelse(k1 = 0,log(y+k2),[(y +k2)^k1-1]/k1) ,任意y,保證y+k2>0,即k2已知,k1為參數。

請參考這個文章, Box-Cox Transformation

1, Box-Cox Transform: An Overview
2, Box-Cox變換
3, 統計學與R語言筆記-徐俊曉

㈢ SPSS中怎樣把數據正態化

我用的是spss18.0,這是個漢化版,將一組數據正態化的按紐分別是:「轉換」——「個案排秩」——把要正態化的數據遷入「變數」欄——把要呈現的表格式樣遷入「排序標准」——再點右上角「秩的類型」——再點右下角「正態得分」,基本上就差不多了,只是正態化有四個選擇項,我用的是tukey法,這種方法對負偏態比較嚴重的分數相當好。

㈣ 如何進行標准正態變換

標准正態變換,也稱為Z-score標准化,是將一組數據轉換為具有均值為0、標准差為1的標准正態分布的過程。可以通過以下步驟進行標准正態變換:

㈤ 標准正態分布是怎麼轉換過去的

標准正態分布是轉換過去:實際這就是一個坐標系的轉換,標准正太分布(均值為0,標准差為1),為正太分布分均值,為正太分布的標准差,z為變化後的值,X為隨意變數。

在一般形式的正態分布中,變數是X,是采樣的具體數據,所求值要麼是具體的該數據下的數據量,要麼是此數據量在總數據量中所佔的百分比;而在標准正態分布中,變數是采樣的具體數據與總體均值的差值並且用標差為單位顯示出來(比上標差σ)。

正凳段態曲線呈鍾型

兩頭低,中間高,左右對稱因其曲線呈鍾形,因此人們又經常稱之為鍾形曲線。若隨機變數X服從一個數學期碰粗枝望為μ、方差為σ2的正態分布,記為笑敏N(μ,σ2)。其概率密度函數為正態分布的期望值μ決定了其位置,其標准差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分布是標准正態分布。

㈥ 如何把數組拉伸成正態分布

分布數據:
X』=lgX
當原始數據中有小值及零時,亦可取X』=lg(X+1)
還可根據需要選用X』=lg(X+k)或X』=lg(k-X)
對數變換常用於(1)使服從對數正態分布的數據正態祥飢化。如環境中某些污染物的分布,人體中某些微量元素的分布等,可用對數正態分布改善其正態性。(2)使數據達到方差齊性,特別是各樣本的標准差與均數成比例或變異系數CV接近於一個常數時。
2、平方根變換 即將原始數據X的平方根作為新的分布數據。
X』=sqrt(X)
平方根變換常用於:1)使服從Poission分布的計數資料或輕度偏態資料正態化,可用平方根變換使其正態化。2)當各樣本的方差與均數呈正相關時,可使資料達到方差齊性。
3、倒數變換 即將原始數據X的倒數作為新的分析數據。
X』=1/X
常用於資料兩端波動較大的資料,可使極端值的影響減小。
4、平方根反正旋變換 即將原始數據X的平方根反正玄值做為新的分析數據。
X』=sin-1sqrt(X)
常用於服從二項分布的率或百分比的資料。一般認為等總體率較小如<30%時或較大(如>70%時),偏離正態較為明顯,通過樣本率的平方根反正玄變換,可使資料接近正態分布,達到方差齊性的要求。
5. 計量經濟學中常用的BOX-COX變換

6.在SPSS中:
在轉換-計算變數裡面點進去,就可以把一個變數進行各種變換,就和計算器類似
不過最好的方法是把數據標准化,
分析——描述統計——描述,有個選項是將標准化得分另存為變數
這樣你的變數都符合正態性了

或者在SPSS上的操作方法:工具欄transform-Rank cases,將左邊你要進行正態化的變數拖入右邊「變數」框中;點選rank types對話窗,選中normal scores選項(共四種計算方法,系統默認的是bloom計算方法,可根據你的需要進行改進),點擊continue,ok。
spss會在數據觀察表中生成兩列新變數,其中N總分變數就是你想要的正態化結果。歡迎來參加《小白愛上SPSS》課程

小白愛上SPSS
這是加餐課程:如何將非正態分布數據轉換為正態分布。手把手教你SPSS操作

在前面我們學過的參數檢驗中,比如兩獨立樣本T檢驗和單因素方差分析中,有一個重要前提條件是連續型變數要滿足正態分布。

如果遇到非正態分布數據怎麼辦?一種建議是選用合適的非參數檢驗方法,比如兩樣本秩和檢驗;另一種是對原始進行轉換使得其滿足正態分布特性。

這一講,我們來講解下如何轉換?

一、正負偏態的轉換方法

正態分布轉換方法慶枝有很多,比如:對數變換、平方根變換、平方根反正弦變換、平方變換、倒數變換、Box-Cox變換、正態得分法。

這里選擇幾種常用方法講解,起示範作用。數據轉換分成兩種情況,一種是正偏態數據,另一種是負偏態數據,每種又分成輕度、中度和嚴重三種情況。

(一)正偏態數據轉換方法

1、輕度正偏態分布

當偏度值>0,偏度值為其標准誤差的2-3倍,即Z-score=2~3,此時認譽宴敏為資料分布呈現輕度的正偏態分布,故考慮對變數x取根號開平方的方法來進行轉換。

SPSS語句如下:

COMPUTE x_new = SQRT(x)

(SQRT為開平方根Square Root縮寫)

2、中度正偏態分布

當偏度值>0,偏度值為其標准誤差的3倍以上時,即Z-score>3,此時認為資料分布呈現中度的正偏態分布,可以考慮對變數x取對數來進行轉換。可以取自然對數(ln)或以10為底的對數(log10)。

SPSS語句如下:

COMPUTE x_new = LN(x)

COMPUTE x_new = LG10(x)

注意:LG10的糾正力度較強,有時甚至會矯枉過正,將正偏態轉換為負偏態,因此在進行正態轉換後一定要對該變數再次進行正態性檢驗。

3、重度正偏態分布

對於兩端波動比較大的數據資料,極端值可能產生較大的影響,此時可以考慮取倒數的方法來進行轉換。

SPSS語句如下:

COMPUTE x_new = 1/x

若你不太熟悉SPSS語法編輯窗口,則可通過SPSS中「轉換」—「計算變數」實現,找到sqrt, ln, lg10等函數。

注意:根號下要求數據均為非負數(即≥0),對數要求數據均為正數(即>0);取倒數要求分母不為0, 如果變數x中出現上述情況,則需要先將其進行一定的轉換,如x+K或K-x,再對其取根號、對數或倒數。其中K為一個常數,可以根據需要進行賦值,例如賦值為1,或取數據的最小值、最大值等。

(二)負偏態數據轉換方法

對於負偏態分布的數據資料,首先需要將負偏態資料進行反轉,轉換為正偏態,然後再參考正偏態分布資料的轉換方法進行轉換。

反轉的方法:首先找出該數據系列的最大值max,用最大值+1,再減去每個數值。

1、輕度負偏態分布

SPSS語句如下:

COMPUTE x_new = SQRT(max+1-x)

2、中度負偏態分布

SPSS語句如下:

COMPUTE x_new = LN(max+1-x)

COMPUTE x_new = LG10(max+1-x)

3、重度負偏態分布

SPSS語句如下:

COMPUTE x_new = 1/(max+1-x)

二、實戰案例

下面是42名員工的月收入,試檢驗其正態性。若不服從正態性,請將其轉化為正態分布(關注本公眾號,回復【小白數據】即可下載原始數據 )。

三、正態性檢驗

這里主要通過SPSS的探索性描述統計方法來考察收入的分布情況。

(一)操作如下
點擊分析——描述統計——探索

將「收入」選入因變數列表,點擊 圖 --勾選直方圖--勾選含檢驗的正態圖--繼續--確定。

(二)結果解讀

1.描述看峰度偏度

2.計算偏度系數

3.計算峰度系數

由以上結果可知,偏度系數的絕對值均大於1.96,可以認為該組樣本數據不服從符合正態分布。

4.看正態性檢驗結果

5.結果解讀:

當數據量≤50時,傾向於以夏皮洛-威爾克(S-W)檢驗結果為准;

當數據量>50時,傾向以柯爾莫戈洛夫-斯米諾夫(K-S)檢驗結果為准;當數據量>5000時,SPSS只會顯示K-S檢驗結果。

本例中,我們檢驗40名員工收入的正態分布情況,由上表顯示,樣本量(可參考自由度那一列數值)小於50,故以夏皮洛-威爾克(S-W)檢驗結果為准。檢驗的p值(即顯著性那一列)為0.000,小於0.05,說明40名員工收入不符合正態分布,故認為收入不滿足正態性。

四、SPSS:對數轉換法

(一)選擇檢驗方法和操作步驟

由上可知,因本案例中偏度值<0,為負偏態,偏度值為其標准誤差的3倍以上,故考慮對變數x取對數來進行轉換。對於負偏態分布的數據資料,首先需要將負偏態資料進行反轉,轉換為正偏態,然後再參考正偏態分布資料的轉換方法進行轉換。

㈦ 如何用SPSS做數據正態化轉換

將非正碧悄態分布的數據轉化為正態可以通過以下方式處理:
spss工具欄:transform-Rank cases,將左邊你要進行正態化的變數拖入右邊「變數」框中;點選rank types對話窗,選中normal scores選項(共四種計算方法,系統默認的是bloom計算方法,可根據你的需要進行改進),點擊continue,ok,此時spss頁面上會生成兩列新變數,第一個變數,N打頭的那個就是正態化後的新變數
要注意的一點是不是任何非正態數據都可以進行正態轉換,只有我們有把握認為數據的總體分布是正態的時候才可以去做正態轉換,否則強梁岩行進行z或悔渣渣者t檢驗得到的結果未必是正確的。

㈧ 正態分布怎麼轉化為標准正態分布

正態分布的標准化需要禮儀相反側面積相等若分別都服從正態分布,那麼,aX+bY也服從正態分布、怎麼樣把普通正態分布轉化為標准正態分布。服從正態分布,則先計算該組數據的期望μ及標准差σ,則新構成的這一組數據Y-σ服從標准正態分布,即可以得出P[- Y-]。不同參數的正態分布之間需要相互比較時,就需要按照上述方式轉換為標准正態分布、實際應用,某金融機構的的風險水平下資產損失為億,即有的可能性會虧損億元,就是即為風險值。金融機構的風險控制,一般管理左尾概率,右尾概率一般不去管它,因為右尾都是指碧孝高興的事情、作業:上證指數月報慧賀酬率的分布,計算平均數、標准差。若為標准正態分布,將其平方2的分布就是卡方分布。因為x+∞,但平方之後,x+∞,卡方分布只有一個參數,即自由度,所以卡方分布是正態分布的親戚、若X/Y獨立,且分別都是標准正態分布,+Y2也是卡方分布,自由度為。以此類推自由度為的卡方分布,就是個標唯稿准正態分布的平方之總和。

㈨ 如何將非正態數據轉換成正態分布數據

做SPSS分析,數據不符合正態分布,如何將非正並衫態數據轉為正態分布數據,可以採用以滑絕下步驟來轉換:

先將原始分數的頻數轉化為相對累積頻數(百分等級),將它視為正態分布的概率,然後通過查正態分布表中概率值相對應的Z值,將其轉化為Z分數,達到正態化的目的。

在SPSS上的操作方法:工具欄transform-Rank cases,將左邊你要進行正態化的變數拖入右邊「變數」框中;點選rank types對話窗,選中normal scores選項(共四種計算方法,系統默認的是bloom計算方法,可根據你的需要進行改進),點擊continue,ok。

spss會在數據觀察表中生成兩列新變數信蔽姿,其中N總分變數就是你想要的正態化結果。

註:尊重知識,請提問者盡快採納答案。

閱讀全文

與數據如何正態轉換相關的資料

熱點內容
醫院糾紛法律程序走了怎麼辦 瀏覽:22
微信有未讀信息怎麼生成 瀏覽:144
神魔大陸手游怎麼交易 瀏覽:792
產品不被客戶認可怎麼辦 瀏覽:517
代理商如何銷售活動 瀏覽:636
佛山光伏批發市場在哪裡 瀏覽:698
產品質量不承認怎麼辦 瀏覽:302
哪些旅行軟體不泄露個人信息 瀏覽:446
電商產品如何做規劃 瀏覽:935
如何做好提問交易計劃 瀏覽:878
4月份最後一個交易日是多少號 瀏覽:47
游資有哪些交易情緒 瀏覽:591
菜市場不讓商戶的貨車進來怎麼辦 瀏覽:184
拼多多的產品如何投訴 瀏覽:152
外匯期貨交易一手可以賺多少 瀏覽:470
茶葉應用於哪些產品 瀏覽:643
期貨產品什麼時間開始的 瀏覽:212
和平精英如何提倡計量技術 瀏覽:434
麥吉麗代理費什麼時候能退 瀏覽:726
如何把自啟動程序變為服務 瀏覽:31