導航:首頁 > 數據處理 > 數據進行中心化會怎麼樣

數據進行中心化會怎麼樣

發布時間:2023-07-03 22:34:23

A. 何為數據中心化和標准化其目的是什麼

數據標准化是指:數值減去均值,再除以標准差,而所謂數據中心化, 是指變數減去它的均值。在對一些數據進行聚類分析,或者畫出相關聚類圖時,就需要對一些數據進行中心化和標准化處理!

B. spss實現中心化處理、標准化處理和歸一化處理

轉自https://blog.csdn.net/shouji111111/article/details/88675289

一、中心化、標准化、歸一化簡單描述

意義:數據中心化和標准化在回歸分析中是取消由於量綱不同、自身變異或者數值相差較大所引起的誤差。

原理:

數據標准化:是指數值減去均值,再除以標准差;

數據中心化:是指變數減去它的均值;

歸一化:把數變為(0,1)之間的小數。

二、中心化處理

        數據的中心化是指原數據減去該組數據的平均值,經過中心化處理後,原數據的坐標平移至中心點(0,0),該組數據的均值變為0,以此也被稱為零均值化。

三、標准化處理

        大型數據分析項目中,數據來源不同,量綱及量綱單位不同,為了讓它們具備可比性,需要採用標准化方法消除由此帶來的偏差。 原始數據經過數據標准化處理後,各指標處於同一數量級,適合進行綜合對比評價。這就是數據標准化。

        基本原理:數值減去平均值,再除以其標准差,得到均值為0,標准差為1的服從標准正態分布的數據。

        在SPSS中,使用最多的就是Z-score標准化(0-1標准化)方法,這種方法給予原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。經過處理的數據符合標准正態分布,即均值為0,標准差為1。

四、歸一化處理

歸一化方法:

把數變為(0,1)之間的小數

主要是為了數據處理方便提出來的,把數據映射到0~1范圍之內處理,更加便捷快速

把有量綱表達式變為無量綱表達式,成為純量。歸一化,也算是數據標准化方法之一。常見的計算公式如下,得到新數據范圍在[0,1]之間,歸一化由此得名。

C. 數據中心化和標准化在回歸分析中的意義是什麼

數據中心化和標准化在回歸分析中的意義是取消由於量綱不同、自身變異或者數值相差較大所引起的誤差。
數據標准化是指:數值減去均值,再除以標准差;所謂中心化,是指變數減去它的均值。

D. [轉載]中心化(又叫零均值化)和標准化(又叫歸一化)

https://blog.csdn.net/GoodShot/article/details/80373372

一、中心化(又叫零均值化)和標准化(又叫歸一化)概念及目的?

1、在回歸問題和一些機器學習演算法中,以及訓練神經網路的過程中,通常需要對原始數據進行中心化(Zero-centered或者Mean-subtraction(subtraction表示減去))處理和標准化(Standardization或Normalization)處理

數據標准化(歸一化)處理是數據挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指標之間的量綱影響,需要進行數據標准化處理,以解決數據指標之間的可比性。原始數據經過數據標准化處理後,各指標處於同一數量級,適合進行綜合對比評價。

意義:數據中心化和標准化在回歸分析中是取消由於量綱不同、自身變異或者數值相差較大所引起的誤差。原理:數據標准化:是指數值減去均值,再除以標准差;

數據中心化:是指變數減去它的均值。

目的:通過中心化和標准化處理,得到均值為0,標准差為1的服從標准正態分布的數據。

2、(1)中心化(零均值化)後的數據均值為零

(2)z-score 標准化後的數據均值為0,標准差為1(方差也為1)

三、下面解釋一下為什麼需要使用這些數據預處理步驟。

在一些實際問題中,我們得到的樣本數據都是多個維度的,即一個樣本是用多個特徵來表徵的。比如在預測房價的問題中,影響房價的因素有房子面積、卧室數量等,我們得到的樣本數據就是這樣一些樣本點,這里的、又被稱為特徵。很顯然,這些特徵的量綱和數值得量級都是不一樣的,在預測房價時,如果直接使用原始的數據值,那麼他們對房價的影響程度將是不一樣的,而通過標准化處理,可以使得不同的特徵具有相同的尺度(Scale)。簡言之,當原始數據不同維度上的特徵的尺度(單位)不一致時,需要標准化步驟對數據進行預處理。

下圖中以二維數據為例:左圖表示的是原始數據;中間的是中心化後的數據,數據被移動大原點周圍;右圖將中心化後的數據除以標准差,得到為標准化的數據,可以看出每個維度上的尺度是一致的(紅色線段的長度表示尺度)。

其實,在不同的問題中,中心化和標准化有著不同的意義,

比如在訓練神經網路的過程中,通過將數據標准化,能夠加速權重參數的收斂。

·       對數據進行中心化預處理,這樣做的目的是要增加基向量的正交性。

四、歸一化

兩個優點:

1)歸一化後加快了梯度下降求最優解的速度;

2)歸一化有可能提高精度。

1、 歸一化為什麼能提高梯度下降法求解最優解的速度?

如下圖所示,藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵X1和X2的區間相差非常大,X1區間是[0,2000],X2區間是 [1,5],其所形成的等高線非常尖。當使用梯度下降法尋求最優解時,很有可能走「之字型」路線(垂直等高線走),從而導致需要迭代很多次才能收斂;而右圖對兩個原始特徵進行了歸一化,其對應的等高線顯得很圓,在梯度下降進行求解時能較快的收斂。因此如果機器學習模型使用梯度下降法求最優解時,歸一化往往非常有必要,否則很難收斂甚至不能收斂。

2、歸一化有可能提高精度

一些分類器需要計算樣本之間的距離(如歐氏距離),例如KNN。如果一個特徵值域范圍非常大,那麼距離計算就主要取決於這個特徵,從而與實際情況相悖(比如這時實際情況是值域范圍小的特徵更重要)。

3、以下是兩種常用的歸一化方法:

1)min-max標准化(Min-MaxNormalization)

也稱為離差標准化,是對原始數據的線性變換,使結果值映射到[0 - 1]之間。轉換函數如下:

其中max為樣本數據的最大值,min為樣本數據的最小值。這種方法有個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。

2)Z-score標准化(0-1標准化)方法

這種方法給予原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。經過處理的數據符合標准正態分布,即均值為0,標准差為1。

轉化函數為:

其中 為所有樣本數據的均值, 為所有樣本數據的標准差。

五、中心化(以PCA為例)

下面兩幅圖是數據做中心化(centering)前後的對比,可以看到其實就是一個平移的過程,平移後所有數據的中心是(0,0).

在做PCA的時候,我們需要找出矩陣的特徵向量,也就是主成分(PC)。比如說找到的第一個特徵向量是a = [1, 2],a在坐標平面上就是從原點出發到點 (1,2)的一個向量。

如果沒有對數據做中心化,那算出來的第一主成分的方向可能就不是一個可以「描述」(或者說「概括」)數據的方向了。還是看圖比較清楚。

黑色線就是第一主成分的方向。只有中心化數據之後,計算得到的方向才2能比較好的「概括」原來的數據。

參考:

1.https://blog.csdn.net/goodshot/article/details/79488629

2.https://blog.csdn.net/GoodShot/article/details/78241862

E. 統計學裡面的中心化是什麼意思知乎

所謂數據的中心化是指數據集中的各項數據減去數據集的均值。
例如有數據集1, 2, 3, 6, 3,其均值為3,那麼中心化之後的數據集為1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0。數據中心化是為了消除量綱對數據結構的影響,因為不同變數之間單位不一樣,會造成各種統計量的偏誤。

F. 數據中心化和標准化在回歸分析中的意義是什麼

為了能正確地真正反映實際情況,必須對原始數據進行加工處理,使之規范化。數據規格化對相似系數有較大的影響。數據經過規格化後其計算結果與未經規格化的計算結果差別較大。這是由於相似系數取決於坐標原點的位置。在規格化後,坐標原點移動,使樣品之間的夾角改變很大。

數據標准化

設有n個樣品,每個樣品測量了m項指標(變數),得到如下原始數據矩陣:



(6)數據進行中心化會怎麼樣擴展閱讀

數據分析之前,通常將數據標准化(normalization),利用標准化後的數據進行數據分析。數據標准化指統計數據的指數化。數據標准化處理主要包括數據同趨化處理和無量綱化處理兩個方面。

數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。數據無量綱化處理主要解決數據的可比性。

數據標准化的方法有很多種,常用的有「最小—最大標准化」、「Z-score標准化」和「按小數定標標准化」等。經過上述標准化處理,原始數據均轉換為無量綱化指標測評值,即各指標值都處於同一個數量級別上,可以進行綜合測評分析。

閱讀全文

與數據進行中心化會怎麼樣相關的資料

熱點內容
咸魚買電子產品要問什麼 瀏覽:587
付款碼怎麼做小程序 瀏覽:18
設備技術崗位怎麼分級 瀏覽:567
什麼是冷燙金技術 瀏覽:20
泰州信息平面設計費用是多少 瀏覽:945
plc接頭數據線哪裡有 瀏覽:347
秦皇島什麼裏海鮮市場 瀏覽:380
招商證券可轉債怎麼交易 瀏覽:63
公安內保信息為什麼會在醫院登錄 瀏覽:126
珠海哪個市場多澳門人 瀏覽:126
不同類型女友信息你想要哪個 瀏覽:21
因回信息慢男生生氣怎麼哄 瀏覽:118
文具交易合同怎麼寫 瀏覽:235
民族飾品市場有哪些 瀏覽:657
c數據類型可以修飾哪些內容 瀏覽:905
如何算線圈的數據 瀏覽:959
程序員阿姨是什麼 瀏覽:901
什麼網路平台能夠發布產品 瀏覽:77
重慶鳥市場哪個最大 瀏覽:314
每日交作業小程序如何評分 瀏覽:154