導航:首頁 > 數據處理 > 數據標准化哪個是歸一化

數據標准化哪個是歸一化

發布時間:2023-02-09 19:51:10

『壹』 數據標准化和數據歸一化有什麼區別嗎

歸一化,就是為了限定你的輸入向量的最大值跟最小值不超過你的隱層跟輸出層函數的限定范圍。比如,你的隱層的傳遞函數為logsig,那麼你的輸出就在0~1范圍內,如果你的傳遞函數為tansig,你的隱層的輸出在-1~·范圍內,用歸一化,這也是為了你的隱層傳遞函數的輸出著想。
標准化,只是對數據進行了統一的標准,其大小可能已經超出了隱層傳遞函數的界定范圍,在後續的運行時,容易出錯。

『貳』 [轉載]中心化(又叫零均值化)和標准化(又叫歸一化)

https://blog.csdn.net/GoodShot/article/details/80373372

一、中心化(又叫零均值化)和標准化(又叫歸一化)概念及目的?

1、在回歸問題和一些機器學習演算法中,以及訓練神經網路的過程中,通常需要對原始數據進行中心化(Zero-centered或者Mean-subtraction(subtraction表示減去))處理和標准化(Standardization或Normalization)處理

數據標准化(歸一化)處理是數據挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指標之間的量綱影響,需要進行數據標准化處理,以解決數據指標之間的可比性。原始數據經過數據標准化處理後,各指標處於同一數量級,適合進行綜合對比評價。

意義:數據中心化和標准化在回歸分析中是取消由於量綱不同、自身變異或者數值相差較大所引起的誤差。原理:數據標准化:是指數值減去均值,再除以標准差;

數據中心化:是指變數減去它的均值。

目的:通過中心化和標准化處理,得到均值為0,標准差為1的服從標准正態分布的數據。

2、(1)中心化(零均值化)後的數據均值為零

(2)z-score 標准化後的數據均值為0,標准差為1(方差也為1)

三、下面解釋一下為什麼需要使用這些數據預處理步驟。

在一些實際問題中,我們得到的樣本數據都是多個維度的,即一個樣本是用多個特徵來表徵的。比如在預測房價的問題中,影響房價的因素有房子面積、卧室數量等,我們得到的樣本數據就是這樣一些樣本點,這里的、又被稱為特徵。很顯然,這些特徵的量綱和數值得量級都是不一樣的,在預測房價時,如果直接使用原始的數據值,那麼他們對房價的影響程度將是不一樣的,而通過標准化處理,可以使得不同的特徵具有相同的尺度(Scale)。簡言之,當原始數據不同維度上的特徵的尺度(單位)不一致時,需要標准化步驟對數據進行預處理。

下圖中以二維數據為例:左圖表示的是原始數據;中間的是中心化後的數據,數據被移動大原點周圍;右圖將中心化後的數據除以標准差,得到為標准化的數據,可以看出每個維度上的尺度是一致的(紅色線段的長度表示尺度)。

其實,在不同的問題中,中心化和標准化有著不同的意義,

比如在訓練神經網路的過程中,通過將數據標准化,能夠加速權重參數的收斂。

·       對數據進行中心化預處理,這樣做的目的是要增加基向量的正交性。

四、歸一化

兩個優點:

1)歸一化後加快了梯度下降求最優解的速度;

2)歸一化有可能提高精度。

1、 歸一化為什麼能提高梯度下降法求解最優解的速度?

如下圖所示,藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵X1和X2的區間相差非常大,X1區間是[0,2000],X2區間是 [1,5],其所形成的等高線非常尖。當使用梯度下降法尋求最優解時,很有可能走「之字型」路線(垂直等高線走),從而導致需要迭代很多次才能收斂;而右圖對兩個原始特徵進行了歸一化,其對應的等高線顯得很圓,在梯度下降進行求解時能較快的收斂。因此如果機器學習模型使用梯度下降法求最優解時,歸一化往往非常有必要,否則很難收斂甚至不能收斂。

2、歸一化有可能提高精度

一些分類器需要計算樣本之間的距離(如歐氏距離),例如KNN。如果一個特徵值域范圍非常大,那麼距離計算就主要取決於這個特徵,從而與實際情況相悖(比如這時實際情況是值域范圍小的特徵更重要)。

3、以下是兩種常用的歸一化方法:

1)min-max標准化(Min-MaxNormalization)

也稱為離差標准化,是對原始數據的線性變換,使結果值映射到[0 - 1]之間。轉換函數如下:

其中max為樣本數據的最大值,min為樣本數據的最小值。這種方法有個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。

2)Z-score標准化(0-1標准化)方法

這種方法給予原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。經過處理的數據符合標准正態分布,即均值為0,標准差為1。

轉化函數為:

其中 為所有樣本數據的均值, 為所有樣本數據的標准差。

五、中心化(以PCA為例)

下面兩幅圖是數據做中心化(centering)前後的對比,可以看到其實就是一個平移的過程,平移後所有數據的中心是(0,0).

在做PCA的時候,我們需要找出矩陣的特徵向量,也就是主成分(PC)。比如說找到的第一個特徵向量是a = [1, 2],a在坐標平面上就是從原點出發到點 (1,2)的一個向量。

如果沒有對數據做中心化,那算出來的第一主成分的方向可能就不是一個可以「描述」(或者說「概括」)數據的方向了。還是看圖比較清楚。

黑色線就是第一主成分的方向。只有中心化數據之後,計算得到的方向才2能比較好的「概括」原來的數據。

參考:

1.https://blog.csdn.net/goodshot/article/details/79488629

2.https://blog.csdn.net/GoodShot/article/details/78241862

閱讀全文

與數據標准化哪個是歸一化相關的資料

熱點內容
赤峰調料批發市場在哪裡 瀏覽:20
復制的程序為什麼運行錯誤 瀏覽:570
大數據下載在哪裡 瀏覽:918
選款標准數據是什麼意思 瀏覽:665
行駛證能查詢車輛什麼信息 瀏覽:798
客戶問如何知道你的產品是正品 瀏覽:501
什麼是重命名數據類型 瀏覽:765
作為產品經理如何寫app的邏輯 瀏覽:123
小米換機怎麼選擇第三方應用程序 瀏覽:248
酒店代理怎麼推廣 瀏覽:855
如何跟蹤小程序交互代碼 瀏覽:240
我想買個小程序在哪裡找 瀏覽:612
日照運營商大數據多少錢一條 瀏覽:80
電子表格如何設置數據下拉排序 瀏覽:610
春雪食品有什麼產品 瀏覽:229
車險怎麼代理保險 瀏覽:623
怎麼看狗幣交易了多少 瀏覽:246
微信上小程序怎麼綁定手機號 瀏覽:193
為什麼數據網路延遲一直100 瀏覽:990
喜雲怎麼添加自己的產品 瀏覽:370