導航:首頁 > 數據處理 > 為什麼對數據進行中心化標准

為什麼對數據進行中心化標准

發布時間:2022-12-26 00:48:42

⑴ 數據標准化的意義和作用

數據標准化的意義:

1、數據的量綱不同;數量級差別很大。

經過標准化處理後,原始數據轉化為無量綱化指標測評值,各指標值處於同一數量級別,可進行綜合測評分析。

一些分類器需要計算樣本之間的距離(如歐氏距離),例如KNN。

如果一個特徵值域范圍非常大,那麼距離計算就主要取決於這個特徵,從而與實際情況相悖(比如這時實際情況是值域范圍小的特徵更重要)。

4、一些模型求解的需要:加快了梯度下降求最優解的速度。

數據標准化的方法:

1、Min-Max標准化。

2、標准差標准化,也叫z-score標准化。

3、非線性歸一化。

⑵ [轉載]中心化(又叫零均值化)和標准化(又叫歸一化)

https://blog.csdn.net/GoodShot/article/details/80373372

一、中心化(又叫零均值化)和標准化(又叫歸一化)概念及目的?

1、在回歸問題和一些機器學習演算法中,以及訓練神經網路的過程中,通常需要對原始數據進行中心化(Zero-centered或者Mean-subtraction(subtraction表示減去))處理和標准化(Standardization或Normalization)處理

數據標准化(歸一化)處理是數據挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指標之間的量綱影響,需要進行數據標准化處理,以解決數據指標之間的可比性。原始數據經過數據標准化處理後,各指標處於同一數量級,適合進行綜合對比評價。

意義:數據中心化和標准化在回歸分析中是取消由於量綱不同、自身變異或者數值相差較大所引起的誤差。原理:數據標准化:是指數值減去均值,再除以標准差;

數據中心化:是指變數減去它的均值。

目的:通過中心化和標准化處理,得到均值為0,標准差為1的服從標准正態分布的數據。

2、(1)中心化(零均值化)後的數據均值為零

(2)z-score 標准化後的數據均值為0,標准差為1(方差也為1)

三、下面解釋一下為什麼需要使用這些數據預處理步驟。

在一些實際問題中,我們得到的樣本數據都是多個維度的,即一個樣本是用多個特徵來表徵的。比如在預測房價的問題中,影響房價的因素有房子面積、卧室數量等,我們得到的樣本數據就是這樣一些樣本點,這里的、又被稱為特徵。很顯然,這些特徵的量綱和數值得量級都是不一樣的,在預測房價時,如果直接使用原始的數據值,那麼他們對房價的影響程度將是不一樣的,而通過標准化處理,可以使得不同的特徵具有相同的尺度(Scale)。簡言之,當原始數據不同維度上的特徵的尺度(單位)不一致時,需要標准化步驟對數據進行預處理。

下圖中以二維數據為例:左圖表示的是原始數據;中間的是中心化後的數據,數據被移動大原點周圍;右圖將中心化後的數據除以標准差,得到為標准化的數據,可以看出每個維度上的尺度是一致的(紅色線段的長度表示尺度)。

其實,在不同的問題中,中心化和標准化有著不同的意義,

比如在訓練神經網路的過程中,通過將數據標准化,能夠加速權重參數的收斂。

·       對數據進行中心化預處理,這樣做的目的是要增加基向量的正交性。

四、歸一化

兩個優點:

1)歸一化後加快了梯度下降求最優解的速度;

2)歸一化有可能提高精度。

1、 歸一化為什麼能提高梯度下降法求解最優解的速度?

如下圖所示,藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵X1和X2的區間相差非常大,X1區間是[0,2000],X2區間是 [1,5],其所形成的等高線非常尖。當使用梯度下降法尋求最優解時,很有可能走「之字型」路線(垂直等高線走),從而導致需要迭代很多次才能收斂;而右圖對兩個原始特徵進行了歸一化,其對應的等高線顯得很圓,在梯度下降進行求解時能較快的收斂。因此如果機器學習模型使用梯度下降法求最優解時,歸一化往往非常有必要,否則很難收斂甚至不能收斂。

2、歸一化有可能提高精度

一些分類器需要計算樣本之間的距離(如歐氏距離),例如KNN。如果一個特徵值域范圍非常大,那麼距離計算就主要取決於這個特徵,從而與實際情況相悖(比如這時實際情況是值域范圍小的特徵更重要)。

3、以下是兩種常用的歸一化方法:

1)min-max標准化(Min-MaxNormalization)

也稱為離差標准化,是對原始數據的線性變換,使結果值映射到[0 - 1]之間。轉換函數如下:

其中max為樣本數據的最大值,min為樣本數據的最小值。這種方法有個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。

2)Z-score標准化(0-1標准化)方法

這種方法給予原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。經過處理的數據符合標准正態分布,即均值為0,標准差為1。

轉化函數為:

其中 為所有樣本數據的均值, 為所有樣本數據的標准差。

五、中心化(以PCA為例)

下面兩幅圖是數據做中心化(centering)前後的對比,可以看到其實就是一個平移的過程,平移後所有數據的中心是(0,0).

在做PCA的時候,我們需要找出矩陣的特徵向量,也就是主成分(PC)。比如說找到的第一個特徵向量是a = [1, 2],a在坐標平面上就是從原點出發到點 (1,2)的一個向量。

如果沒有對數據做中心化,那算出來的第一主成分的方向可能就不是一個可以「描述」(或者說「概括」)數據的方向了。還是看圖比較清楚。

黑色線就是第一主成分的方向。只有中心化數據之後,計算得到的方向才2能比較好的「概括」原來的數據。

參考:

1.https://blog.csdn.net/goodshot/article/details/79488629

2.https://blog.csdn.net/GoodShot/article/details/78241862

⑶ 數據中心化和標准化在回歸分析中的意義是什麼

為了能正確地真正反映實際情況,必須對原始數據進行加工處理,使之規范化。數據規格化對相似系數有較大的影響。數據經過規格化後其計算結果與未經規格化的計算結果差別較大。這是由於相似系數取決於坐標原點的位置。在規格化後,坐標原點移動,使樣品之間的夾角改變很大。

數據標准化

設有n個樣品,每個樣品測量了m項指標(變數),得到如下原始數據矩陣:



(3)為什麼對數據進行中心化標准擴展閱讀

數據分析之前,通常將數據標准化(normalization),利用標准化後的數據進行數據分析。數據標准化指統計數據的指數化。數據標准化處理主要包括數據同趨化處理和無量綱化處理兩個方面。

數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。數據無量綱化處理主要解決數據的可比性。

數據標准化的方法有很多種,常用的有「最小—最大標准化」、「Z-score標准化」和「按小數定標標准化」等。經過上述標准化處理,原始數據均轉換為無量綱化指標測評值,即各指標值都處於同一個數量級別上,可以進行綜合測評分析。

⑷ 在數學中,什麼是中心化 標准化 歸一化

中心化:一組數據的每個值減去它們的均值
標准化:一組數據的每個值減去它們的均值再除以它們的標准差
歸一化:一組數據的每個值除以它們的標准差

不同類型的數據均值不同,方差也不同。
比如100米成績和馬拉松成績,沒法相互比較。
進行這種變換後便於比較,也方便製作指標。

⑸ 為什麼要對數據進行標准化處理

數據標准化主要功能是消除變數間的量綱關系,從而使數據具有可比性,一個百分制的變數與一個5分值的變數在一起比較是通過數據標准化,把它們標准到同一個標准時才具有可比性,標准化採用的是Z標准化,即均值為0,方差為1,0至1標准化等,也可根據自己的研究目的進行選擇。

⑹ 數據中心化和標准化在回歸分析中的意義是什麼

數據中心化和標准化的意義是一樣的,為了消除量綱對數據結構的影響。因為在回歸分析中,多個自變數量綱一般情況下是不相同的,如果不消除量綱,數據之間不具有可比性,不如,1000kg和200立方米,不一定數值大的自變數對因變數的影響就大,消除量綱後,就具有可比性了。

⑺ 何為數據要中心化和標准化其目的是什麼

1.我不知道你指的是EDI 是船公司的EDI系統 還是海關的EDI 其實歸根到底就是發送貨物信息的系統
2.集裝箱碼頭公司網站可以查到很信息啊~比如進口的話 你可以查到船幾時能靠 等船靠港後 你還能查詢貨物滯留港區的時間之類 出口的話也可以查船幾時開~~

⑻ 多元統計學分析:在數據處理時,為什麼通常要進行標准化處理

數據標准化是統計學中對數據進行分析前處理的一種方法,目的在於消除數據計量單位及變異程度。
例如:第1個變數的單位是kg,第2個變數的單位是cm,那麼在計算絕對距離時將出現將兩個事例中第1個變數觀察值之差的絕對值(單位是kg)與第2個變數觀察值之差的絕對值(單位是cm
)相加的情況。使用者會說5kg的差異怎麼可以與3cm的差異相加?不同變數自身具有相差較大的變異時,會使在計算出的關系系數中,不同變數所佔的比重大不相同。例如如果第1個變數(兩水稻品種米粒中的脂肪含量)的數值在2%到4%之間,而第2個變數(兩水稻品種的畝產量)的數值范圍都在1000與5000之間。為了消除量綱影響和變數自身變異大小和數值大小的影響,故將數據標准化。

⑼ spss實現中心化處理、標准化處理和歸一化處理

轉自https://blog.csdn.net/shouji111111/article/details/88675289

一、中心化、標准化、歸一化簡單描述

意義:數據中心化和標准化在回歸分析中是取消由於量綱不同、自身變異或者數值相差較大所引起的誤差。

原理:

數據標准化:是指數值減去均值,再除以標准差;

數據中心化:是指變數減去它的均值;

歸一化:把數變為(0,1)之間的小數。

二、中心化處理

        數據的中心化是指原數據減去該組數據的平均值,經過中心化處理後,原數據的坐標平移至中心點(0,0),該組數據的均值變為0,以此也被稱為零均值化。

三、標准化處理

        大型數據分析項目中,數據來源不同,量綱及量綱單位不同,為了讓它們具備可比性,需要採用標准化方法消除由此帶來的偏差。 原始數據經過數據標准化處理後,各指標處於同一數量級,適合進行綜合對比評價。這就是數據標准化。

        基本原理:數值減去平均值,再除以其標准差,得到均值為0,標准差為1的服從標准正態分布的數據。

        在SPSS中,使用最多的就是Z-score標准化(0-1標准化)方法,這種方法給予原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。經過處理的數據符合標准正態分布,即均值為0,標准差為1。

四、歸一化處理

歸一化方法:

把數變為(0,1)之間的小數

主要是為了數據處理方便提出來的,把數據映射到0~1范圍之內處理,更加便捷快速

把有量綱表達式變為無量綱表達式,成為純量。歸一化,也算是數據標准化方法之一。常見的計算公式如下,得到新數據范圍在[0,1]之間,歸一化由此得名。

⑽ 統計學裡面的中心化是什麼意思知乎

所謂數據的中心化是指數據集中的各項數據減去數據集的均值。
例如有數據集1, 2, 3, 6, 3,其均值為3,那麼中心化之後的數據集為1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0。數據中心化是為了消除量綱對數據結構的影響,因為不同變數之間單位不一樣,會造成各種統計量的偏誤。

閱讀全文

與為什麼對數據進行中心化標准相關的資料

熱點內容
文昌海鮮市場有什麼 瀏覽:48
哪些人不能進行證券交易 瀏覽:191
機頂盒怎麼加程序 瀏覽:181
市場調研分哪些 瀏覽:622
房產中介收房子應該走什麼程序 瀏覽:208
c程序循環語句是什麼 瀏覽:177
海信電視哪個市場好 瀏覽:442
成熟的男人和程序員應該選哪個 瀏覽:587
信息量是怎麼算 瀏覽:778
大數據什麼是績效考核 瀏覽:622
旅遊優惠信息哪裡看 瀏覽:600
高速倒車多久會收到信息 瀏覽:401
杭州聯通信息中心電話是多少 瀏覽:356
電力系統單機信息上傳是怎麼工作 瀏覽:68
東鳳最大的市場是哪個 瀏覽:97
杭州地鐵技術管理人員待遇怎麼樣 瀏覽:176
工廠合資技術分多少 瀏覽:986
羅馬交易所的幣是哪裡來的 瀏覽:343
為什麼交易貓發貨了沒反應 瀏覽:768
哪些渠道可以獲取到新店信息 瀏覽:280