导航:首页 > 数据处理 > 为什么对数据进行中心化标准

为什么对数据进行中心化标准

发布时间：2022-12-26 00:48:42

⑴ 数据标准化的意义和作用

数据标准化的意义：

1、数据的量纲不同；数量级差别很大。

经过标准化处理后，原始数据转化为无量纲化指标测评值，各指标值处于同一数量级别，可进行综合测评分析。

一些分类器需要计算样本之间的距离（如欧氏距离），例如KNN。

如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。

4、一些模型求解的需要：加快了梯度下降求最优解的速度。

数据标准化的方法：

1、Min-Max标准化。

2、标准差标准化，也叫z-score标准化。

3、非线性归一化。

⑵ [转载]中心化（又叫零均值化）和标准化（又叫归一化）

https://blog.csdn.net/GoodShot/article/details/80373372

一、中心化（又叫零均值化）和标准化（又叫归一化）概念及目的？

1、在回归问题和一些机器学习算法中，以及训练神经网络的过程中，通常需要对原始数据进行中心化（Zero-centered或者Mean-subtraction（subtraction表示减去））处理和标准化（Standardization或Normalization）处理

数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。

意义：数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。原理：数据标准化：是指数值减去均值，再除以标准差；

数据中心化：是指变量减去它的均值。

目的：通过中心化和标准化处理，得到均值为0，标准差为1的服从标准正态分布的数据。

2、（1）中心化（零均值化）后的数据均值为零

（2）z-score 标准化后的数据均值为0，标准差为1（方差也为1）

三、下面解释一下为什么需要使用这些数据预处理步骤。

在一些实际问题中，我们得到的样本数据都是多个维度的，即一个样本是用多个特征来表征的。比如在预测房价的问题中，影响房价的因素有房子面积、卧室数量等，我们得到的样本数据就是这样一些样本点，这里的、又被称为特征。很显然，这些特征的量纲和数值得量级都是不一样的，在预测房价时，如果直接使用原始的数据值，那么他们对房价的影响程度将是不一样的，而通过标准化处理，可以使得不同的特征具有相同的尺度（Scale）。简言之，当原始数据不同维度上的特征的尺度（单位）不一致时，需要标准化步骤对数据进行预处理。

下图中以二维数据为例：左图表示的是原始数据；中间的是中心化后的数据，数据被移动大原点周围；右图将中心化后的数据除以标准差，得到为标准化的数据，可以看出每个维度上的尺度是一致的（红色线段的长度表示尺度）。

其实，在不同的问题中，中心化和标准化有着不同的意义，

比如在训练神经网络的过程中，通过将数据标准化，能够加速权重参数的收敛。

· 对数据进行中心化预处理，这样做的目的是要增加基向量的正交性。

四、归一化

两个优点：

1）归一化后加快了梯度下降求最优解的速度；

2）归一化有可能提高精度。

1、归一化为什么能提高梯度下降法求解最优解的速度？

如下图所示，蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大，X1区间是[0,2000]，X2区间是 [1,5]，其所形成的等高线非常尖。当使用梯度下降法寻求最优解时，很有可能走“之字型”路线（垂直等高线走），从而导致需要迭代很多次才能收敛；而右图对两个原始特征进行了归一化，其对应的等高线显得很圆，在梯度下降进行求解时能较快的收敛。因此如果机器学习模型使用梯度下降法求最优解时，归一化往往非常有必要，否则很难收敛甚至不能收敛。

2、归一化有可能提高精度

一些分类器需要计算样本之间的距离（如欧氏距离），例如KNN。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。

3、以下是两种常用的归一化方法：

1）min-max标准化（Min-MaxNormalization）

也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0 - 1]之间。转换函数如下：

其中max为样本数据的最大值，min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

2）Z-score标准化（0-1标准化）方法

这种方法给予原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1。

转化函数为：

其中为所有样本数据的均值，为所有样本数据的标准差。

五、中心化（以PCA为例）

下面两幅图是数据做中心化（centering）前后的对比，可以看到其实就是一个平移的过程，平移后所有数据的中心是（0，0）.

在做PCA的时候，我们需要找出矩阵的特征向量，也就是主成分（PC）。比如说找到的第一个特征向量是a = [1, 2]，a在坐标平面上就是从原点出发到点（1，2）的一个向量。

如果没有对数据做中心化，那算出来的第一主成分的方向可能就不是一个可以“描述”（或者说“概括”）数据的方向了。还是看图比较清楚。

黑色线就是第一主成分的方向。只有中心化数据之后，计算得到的方向才2能比较好的“概括”原来的数据。

参考：

1.https://blog.csdn.net/goodshot/article/details/79488629

2.https://blog.csdn.net/GoodShot/article/details/78241862

⑶ 数据中心化和标准化在回归分析中的意义是什么

为了能正确地真正反映实际情况，必须对原始数据进行加工处理，使之规范化。数据规格化对相似系数有较大的影响。数据经过规格化后其计算结果与未经规格化的计算结果差别较大。这是由于相似系数取决于坐标原点的位置。在规格化后，坐标原点移动，使样品之间的夹角改变很大。

数据标准化

设有n个样品，每个样品测量了m项指标(变量)，得到如下原始数据矩阵:

(3)为什么对数据进行中心化标准扩展阅读

数据分析之前，通常将数据标准化（normalization），利用标准化后的数据进行数据分析。数据标准化指统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。

数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。

数据标准化的方法有很多种，常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理，原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，可以进行综合测评分析。

⑷ 在数学中，什么是中心化标准化归一化

中心化：一组数据的每个值减去它们的均值
标准化：一组数据的每个值减去它们的均值再除以它们的标准差
归一化：一组数据的每个值除以它们的标准差

不同类型的数据均值不同，方差也不同。
比如100米成绩和马拉松成绩，没法相互比较。
进行这种变换后便于比较，也方便制作指标。

⑸ 为什么要对数据进行标准化处理

数据标准化主要功能是消除变量间的量纲关系，从而使数据具有可比性，一个百分制的变量与一个5分值的变量在一起比较是通过数据标准化，把它们标准到同一个标准时才具有可比性，标准化采用的是Z标准化，即均值为0，方差为1，0至1标准化等，也可根据自己的研究目的进行选择。

⑹ 数据中心化和标准化在回归分析中的意义是什么

数据中心化和标准化的意义是一样的，为了消除量纲对数据结构的影响。因为在回归分析中，多个自变量量纲一般情况下是不相同的，如果不消除量纲，数据之间不具有可比性，不如，1000kg和200立方米，不一定数值大的自变量对因变量的影响就大，消除量纲后，就具有可比性了。

⑺ 何为数据要中心化和标准化其目的是什么

1.我不知道你指的是EDI 是船公司的EDI系统还是海关的EDI 其实归根到底就是发送货物信息的系统
2.集装箱码头公司网站可以查到很信息啊~比如进口的话你可以查到船几时能靠等船靠港后你还能查询货物滞留港区的时间之类出口的话也可以查船几时开~~

⑻ 多元统计学分析：在数据处理时，为什么通常要进行标准化处理

数据标准化是统计学中对数据进行分析前处理的一种方法，目的在于消除数据计量单位及变异程度。
例如：第1个变量的单位是kg，第2个变量的单位是cm，那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值（单位是kg）与第2个变量观察值之差的绝对值（单位是cm
）相加的情况。使用者会说5kg的差异怎么可以与3cm的差异相加？不同变量自身具有相差较大的变异时，会使在计算出的关系系数中，不同变量所占的比重大不相同。例如如果第1个变量（两水稻品种米粒中的脂肪含量）的数值在2%到4%之间，而第2个变量（两水稻品种的亩产量）的数值范围都在1000与5000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响，故将数据标准化。

⑼ spss实现中心化处理、标准化处理和归一化处理

转自https://blog.csdn.net/shouji111111/article/details/88675289

一、中心化、标准化、归一化简单描述

意义：数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。

原理：

数据标准化：是指数值减去均值，再除以标准差；

数据中心化：是指变量减去它的均值；

归一化：把数变为（0，1）之间的小数。

二、中心化处理

数据的中心化是指原数据减去该组数据的平均值，经过中心化处理后，原数据的坐标平移至中心点（0,0），该组数据的均值变为0，以此也被称为零均值化。

三、标准化处理

        大型数据分析项目中，数据来源不同，量纲及量纲单位不同，为了让它们具备可比性，需要采用标准化方法消除由此带来的偏差。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。这就是数据标准化。

        基本原理：数值减去平均值，再除以其标准差，得到均值为0，标准差为1的服从标准正态分布的数据。

        在SPSS中，使用最多的就是Z-score标准化（0-1标准化）方法，这种方法给予原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1。

四、归一化处理

归一化方法：

把数变为（0，1）之间的小数

主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速

把有量纲表达式变为无量纲表达式，成为纯量。归一化，也算是数据标准化方法之一。常见的计算公式如下，得到新数据范围在[0,1]之间，归一化由此得名。

⑽ 统计学里面的中心化是什么意思知乎

所谓数据的中心化是指数据集中的各项数据减去数据集的均值。
例如有数据集1, 2, 3, 6, 3，其均值为3,那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即：-2,-1,0,3,0。数据中心化是为了消除量纲对数据结构的影响，因为不同变量之间单位不一样，会造成各种统计量的偏误。

阅读全文

与为什么对数据进行中心化标准相关的资料

热点内容

甲乙丙医疗器械产品如何分类发布：2025-02-10 23:53:49 浏览：766

蚕丽人产品质量怎么样发布：2025-02-10 23:53:14 浏览：473

龙岩商标交易有哪些发布：2025-02-10 23:45:52 浏览：846

国内旅游可以划分为哪些市场发布：2025-02-10 23:37:42 浏览：680

发展高新技术产业需要什么发布：2025-02-10 23:26:54 浏览：23

深技术是什么学校发布：2025-02-10 23:26:07 浏览：278

电厂烟气有哪些脱氧技术发布：2025-02-10 23:14:03 浏览：129

mac系统如何强行关闭运行的程序发布：2025-02-10 23:07:11 浏览：758

代理文员工作有哪些发布：2025-02-10 23:06:26 浏览：711

微信小程序字转语音怎么操作发布：2025-02-10 22:55:18 浏览：882

从池州站怎么去池州职业技术学院发布：2025-02-10 22:55:17 浏览：890

文昌海鲜市场有什么发布：2025-02-10 22:28:12 浏览：48

哪些人不能进行证券交易发布：2025-02-10 22:28:10 浏览：191

机顶盒怎么加程序发布：2025-02-10 22:26:37 浏览：181

市场调研分哪些发布：2025-02-10 22:25:49 浏览：622

房产中介收房子应该走什么程序发布：2025-02-10 22:24:22 浏览：208

c程序循环语句是什么发布：2025-02-10 22:17:14 浏览：177

海信电视哪个市场好发布：2025-02-10 22:15:28 浏览：442

成熟的男人和程序员应该选哪个发布：2025-02-10 22:11:50 浏览：587

信息量是怎么算发布：2025-02-10 22:04:30 浏览：778