导航:首页 > 数据处理 > 为什么对数据进行中心化标准

为什么对数据进行中心化标准

发布时间:2022-12-26 00:48:42

⑴ 数据标准化的意义和作用

数据标准化的意义:

1、数据的量纲不同;数量级差别很大。

经过标准化处理后,原始数据转化为无量纲化指标测评值,各指标值处于同一数量级别,可进行综合测评分析。

一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。

如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。

4、一些模型求解的需要:加快了梯度下降求最优解的速度。

数据标准化的方法:

1、Min-Max标准化。

2、标准差标准化,也叫z-score标准化。

3、非线性归一化。

⑵ [转载]中心化(又叫零均值化)和标准化(又叫归一化)

https://blog.csdn.net/GoodShot/article/details/80373372

一、中心化(又叫零均值化)和标准化(又叫归一化)概念及目的?

1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction表示减去))处理和标准化(Standardization或Normalization)处理

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。原理:数据标准化:是指数值减去均值,再除以标准差;

数据中心化:是指变量减去它的均值。

目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。

2、(1)中心化(零均值化)后的数据均值为零

(2)z-score 标准化后的数据均值为0,标准差为1(方差也为1)

三、下面解释一下为什么需要使用这些数据预处理步骤。

在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得到的样本数据就是这样一些样本点,这里的、又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。

下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。

其实,在不同的问题中,中心化和标准化有着不同的意义,

比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。

·       对数据进行中心化预处理,这样做的目的是要增加基向量的正交性。

四、归一化

两个优点:

1)归一化后加快了梯度下降求最优解的速度;

2)归一化有可能提高精度。

1、 归一化为什么能提高梯度下降法求解最优解的速度?

如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,X1区间是[0,2000],X2区间是 [1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;而右图对两个原始特征进行了归一化,其对应的等高线显得很圆,在梯度下降进行求解时能较快的收敛。因此如果机器学习模型使用梯度下降法求最优解时,归一化往往非常有必要,否则很难收敛甚至不能收敛。

2、归一化有可能提高精度

一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。

3、以下是两种常用的归一化方法:

1)min-max标准化(Min-MaxNormalization)

也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:

其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

2)Z-score标准化(0-1标准化)方法

这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。

转化函数为:

其中 为所有样本数据的均值, 为所有样本数据的标准差。

五、中心化(以PCA为例)

下面两幅图是数据做中心化(centering)前后的对比,可以看到其实就是一个平移的过程,平移后所有数据的中心是(0,0).

在做PCA的时候,我们需要找出矩阵的特征向量,也就是主成分(PC)。比如说找到的第一个特征向量是a = [1, 2],a在坐标平面上就是从原点出发到点 (1,2)的一个向量。

如果没有对数据做中心化,那算出来的第一主成分的方向可能就不是一个可以“描述”(或者说“概括”)数据的方向了。还是看图比较清楚。

黑色线就是第一主成分的方向。只有中心化数据之后,计算得到的方向才2能比较好的“概括”原来的数据。

参考:

1.https://blog.csdn.net/goodshot/article/details/79488629

2.https://blog.csdn.net/GoodShot/article/details/78241862

⑶ 数据中心化和标准化在回归分析中的意义是什么

为了能正确地真正反映实际情况,必须对原始数据进行加工处理,使之规范化。数据规格化对相似系数有较大的影响。数据经过规格化后其计算结果与未经规格化的计算结果差别较大。这是由于相似系数取决于坐标原点的位置。在规格化后,坐标原点移动,使样品之间的夹角改变很大。

数据标准化

设有n个样品,每个样品测量了m项指标(变量),得到如下原始数据矩阵:



(3)为什么对数据进行中心化标准扩展阅读

数据分析之前,通常将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化指统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。

数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。

数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。

⑷ 在数学中,什么是中心化 标准化 归一化

中心化:一组数据的每个值减去它们的均值
标准化:一组数据的每个值减去它们的均值再除以它们的标准差
归一化:一组数据的每个值除以它们的标准差

不同类型的数据均值不同,方差也不同。
比如100米成绩和马拉松成绩,没法相互比较。
进行这种变换后便于比较,也方便制作指标。

⑸ 为什么要对数据进行标准化处理

数据标准化主要功能是消除变量间的量纲关系,从而使数据具有可比性,一个百分制的变量与一个5分值的变量在一起比较是通过数据标准化,把它们标准到同一个标准时才具有可比性,标准化采用的是Z标准化,即均值为0,方差为1,0至1标准化等,也可根据自己的研究目的进行选择。

⑹ 数据中心化和标准化在回归分析中的意义是什么

数据中心化和标准化的意义是一样的,为了消除量纲对数据结构的影响。因为在回归分析中,多个自变量量纲一般情况下是不相同的,如果不消除量纲,数据之间不具有可比性,不如,1000kg和200立方米,不一定数值大的自变量对因变量的影响就大,消除量纲后,就具有可比性了。

⑺ 何为数据要中心化和标准化其目的是什么

1.我不知道你指的是EDI 是船公司的EDI系统 还是海关的EDI 其实归根到底就是发送货物信息的系统
2.集装箱码头公司网站可以查到很信息啊~比如进口的话 你可以查到船几时能靠 等船靠港后 你还能查询货物滞留港区的时间之类 出口的话也可以查船几时开~~

⑻ 多元统计学分析:在数据处理时,为什么通常要进行标准化处理

数据标准化是统计学中对数据进行分析前处理的一种方法,目的在于消除数据计量单位及变异程度。
例如:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值(单位是kg)与第2个变量观察值之差的绝对值(单位是cm
)相加的情况。使用者会说5kg的差异怎么可以与3cm的差异相加?不同变量自身具有相差较大的变异时,会使在计算出的关系系数中,不同变量所占的比重大不相同。例如如果第1个变量(两水稻品种米粒中的脂肪含量)的数值在2%到4%之间,而第2个变量(两水稻品种的亩产量)的数值范围都在1000与5000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。

⑼ spss实现中心化处理、标准化处理和归一化处理

转自https://blog.csdn.net/shouji111111/article/details/88675289

一、中心化、标准化、归一化简单描述

意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。

原理:

数据标准化:是指数值减去均值,再除以标准差;

数据中心化:是指变量减去它的均值;

归一化:把数变为(0,1)之间的小数。

二、中心化处理

        数据的中心化是指原数据减去该组数据的平均值,经过中心化处理后,原数据的坐标平移至中心点(0,0),该组数据的均值变为0,以此也被称为零均值化。

三、标准化处理

        大型数据分析项目中,数据来源不同,量纲及量纲单位不同,为了让它们具备可比性,需要采用标准化方法消除由此带来的偏差。 原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。这就是数据标准化。

        基本原理:数值减去平均值,再除以其标准差,得到均值为0,标准差为1的服从标准正态分布的数据。

        在SPSS中,使用最多的就是Z-score标准化(0-1标准化)方法,这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。

四、归一化处理

归一化方法:

把数变为(0,1)之间的小数

主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速

把有量纲表达式变为无量纲表达式,成为纯量。归一化,也算是数据标准化方法之一。常见的计算公式如下,得到新数据范围在[0,1]之间,归一化由此得名。

⑽ 统计学里面的中心化是什么意思知乎

所谓数据的中心化是指数据集中的各项数据减去数据集的均值。
例如有数据集1, 2, 3, 6, 3,其均值为3,那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0。数据中心化是为了消除量纲对数据结构的影响,因为不同变量之间单位不一样,会造成各种统计量的偏误。

阅读全文

与为什么对数据进行中心化标准相关的资料

热点内容
甲乙丙医疗器械产品如何分类 浏览:766
蚕丽人产品质量怎么样 浏览:473
龙岩商标交易有哪些 浏览:846
国内旅游可以划分为哪些市场 浏览:680
发展高新技术产业需要什么 浏览:23
深技术是什么学校 浏览:278
电厂烟气有哪些脱氧技术 浏览:129
mac系统如何强行关闭运行的程序 浏览:758
代理文员工作有哪些 浏览:711
微信小程序字转语音怎么操作 浏览:882
从池州站怎么去池州职业技术学院 浏览:890
文昌海鲜市场有什么 浏览:48
哪些人不能进行证券交易 浏览:191
机顶盒怎么加程序 浏览:181
市场调研分哪些 浏览:622
房产中介收房子应该走什么程序 浏览:208
c程序循环语句是什么 浏览:177
海信电视哪个市场好 浏览:442
成熟的男人和程序员应该选哪个 浏览:587
信息量是怎么算 浏览:778