A. 何为数据中心化和标准化其目的是什么
数据标准化是指:数值减去均值,再除以标准差,而所谓数据中心化, 是指变量减去它的均值。在对一些数据进行聚类分析,或者画出相关聚类图时,就需要对一些数据进行中心化和标准化处理!
B. spss实现中心化处理、标准化处理和归一化处理
转自https://blog.csdn.net/shouji111111/article/details/88675289
一、中心化、标准化、归一化简单描述
意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。
原理:
数据标准化:是指数值减去均值,再除以标准差;
数据中心化:是指变量减去它的均值;
归一化:把数变为(0,1)之间的小数。
二、中心化处理
数据的中心化是指原数据减去该组数据的平均值,经过中心化处理后,原数据的坐标平移至中心点(0,0),该组数据的均值变为0,以此也被称为零均值化。
三、标准化处理
大型数据分析项目中,数据来源不同,量纲及量纲单位不同,为了让它们具备可比性,需要采用标准化方法消除由此带来的偏差。 原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。这就是数据标准化。
基本原理:数值减去平均值,再除以其标准差,得到均值为0,标准差为1的服从标准正态分布的数据。
在SPSS中,使用最多的就是Z-score标准化(0-1标准化)方法,这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。
四、归一化处理
归一化方法:
把数变为(0,1)之间的小数
主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速
把有量纲表达式变为无量纲表达式,成为纯量。归一化,也算是数据标准化方法之一。常见的计算公式如下,得到新数据范围在[0,1]之间,归一化由此得名。
C. 数据中心化和标准化在回归分析中的意义是什么
数据中心化和标准化在回归分析中的意义是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。
数据标准化是指:数值减去均值,再除以标准差;所谓中心化,是指变量减去它的均值。
D. [转载]中心化(又叫零均值化)和标准化(又叫归一化)
https://blog.csdn.net/GoodShot/article/details/80373372
一、中心化(又叫零均值化)和标准化(又叫归一化)概念及目的?
1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction表示减去))处理和标准化(Standardization或Normalization)处理
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。原理:数据标准化:是指数值减去均值,再除以标准差;
数据中心化:是指变量减去它的均值。
目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。
2、(1)中心化(零均值化)后的数据均值为零
(2)z-score 标准化后的数据均值为0,标准差为1(方差也为1)
三、下面解释一下为什么需要使用这些数据预处理步骤。
在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得到的样本数据就是这样一些样本点,这里的、又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。
下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。
其实,在不同的问题中,中心化和标准化有着不同的意义,
比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。
· 对数据进行中心化预处理,这样做的目的是要增加基向量的正交性。
四、归一化
两个优点:
1)归一化后加快了梯度下降求最优解的速度;
2)归一化有可能提高精度。
1、 归一化为什么能提高梯度下降法求解最优解的速度?
如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,X1区间是[0,2000],X2区间是 [1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;而右图对两个原始特征进行了归一化,其对应的等高线显得很圆,在梯度下降进行求解时能较快的收敛。因此如果机器学习模型使用梯度下降法求最优解时,归一化往往非常有必要,否则很难收敛甚至不能收敛。
2、归一化有可能提高精度
一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。
3、以下是两种常用的归一化方法:
1)min-max标准化(Min-MaxNormalization)
也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
2)Z-score标准化(0-1标准化)方法
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。
转化函数为:
其中 为所有样本数据的均值, 为所有样本数据的标准差。
五、中心化(以PCA为例)
下面两幅图是数据做中心化(centering)前后的对比,可以看到其实就是一个平移的过程,平移后所有数据的中心是(0,0).
在做PCA的时候,我们需要找出矩阵的特征向量,也就是主成分(PC)。比如说找到的第一个特征向量是a = [1, 2],a在坐标平面上就是从原点出发到点 (1,2)的一个向量。
如果没有对数据做中心化,那算出来的第一主成分的方向可能就不是一个可以“描述”(或者说“概括”)数据的方向了。还是看图比较清楚。
黑色线就是第一主成分的方向。只有中心化数据之后,计算得到的方向才2能比较好的“概括”原来的数据。
参考:
1.https://blog.csdn.net/goodshot/article/details/79488629
2.https://blog.csdn.net/GoodShot/article/details/78241862
E. 统计学里面的中心化是什么意思知乎
所谓数据的中心化是指数据集中的各项数据减去数据集的均值。
例如有数据集1, 2, 3, 6, 3,其均值为3,那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0。数据中心化是为了消除量纲对数据结构的影响,因为不同变量之间单位不一样,会造成各种统计量的偏误。
F. 数据中心化和标准化在回归分析中的意义是什么
为了能正确地真正反映实际情况,必须对原始数据进行加工处理,使之规范化。数据规格化对相似系数有较大的影响。数据经过规格化后其计算结果与未经规格化的计算结果差别较大。这是由于相似系数取决于坐标原点的位置。在规格化后,坐标原点移动,使样品之间的夹角改变很大。
数据标准化
设有n个样品,每个样品测量了m项指标(变量),得到如下原始数据矩阵:
(6)数据进行中心化会怎么样扩展阅读
数据分析之前,通常将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化指统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。
数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。
数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。