导航:首页 > 数据处理 > 年度数据如何无量纲化

年度数据如何无量纲化

发布时间:2024-07-11 08:28:13

Ⅰ 数据预处理的无量纲化

1.1数据无量纲化

    将不同规格的数据转化到同一规格或是将不同分布的数据转换到某个特定分布的需求,这种需求统称将数据“无量纲化”。在梯度和矩阵为核心的算法中,无量纲化可以加快求解速度,而在距离类模型中,无量纲化可以帮助我们提升模型精度,避免某一个取值范围特别大的特征对距离计算造成影响。决策树和树的集成模型是一个特例,它们不需要无量纲化,它们可以把任何数据处理的很好。

    数据的无量纲化可以是线性的也可以是非线性的,线性的无量纲化包括中心化处理和缩放处理。中心化的本质是将所有记录减去一个固定值,就是使数据样本平移到某个位置,缩放的本质就是通过除以一个固定值,将数据固定到某个范围之中,取对数也算一种缩放。

1.2 preprocession.MinMaxScaler

    当数据按照最小值中心化后,再按极差(最大值-最小值)缩放,数据移动到了最小值个单位,并且会收敛到[0,1]之间,这个过程称为数据的归一化(Normalization,又称Min-Max-Scaler),Normalization是归一化的意思不是正则化,正则化是regularization,不是数据预处理的手段。归一化后数据服从正态分布。

    sklearn中,使用preprocess.MinMaxScaler来实现数据归一化,MinMaxScaler重要参数:feature_range,控制数据压缩到的范围,默认是[0,1]

1.3 preprocession.StandardScaler

    当数据按均值中心化后,再按标准差缩放,数据会浮动均值为0,方差为1的正态分布(标准的正态分布),而这个过程称为数据标准化(StandardScaler,又称Z-score normalization)

    对于StandardScaler和MinMaxScaler来说,空值NaN会被当成缺失值,在fit的时候忽视,在transform的时候保存缺失NaN的状态显示,无量纲化的过程不是具体的算法,但是在fit接口中,依然只允许导入至少二维数组,如果导入一维的数组会报错。

    1.4 StandardScaler和MinMaxScaler选哪个?

    大多数机器学习算法中,都是用StandardScaler来进行特征的缩放,因为MinMaxScaler对异常值非常敏感,在PCA,聚类,逻辑回归,SVM,神经网络这些算法中,StandardScaler会是比较好的选择。

    MinMaxScaler用在不涉及度量距离、梯度、协方差计算以及数据需要被压缩到特定区间时使用,比如数字图像处理中量化像素强度时,都会使用MinMaxScaler将数据压缩到[0,1]区间之间。

    可以先尝试一下StandardScaler,效果不好再换MinMaxScaler。

    Sklearn中其他缩放处理:

阅读全文

与年度数据如何无量纲化相关的资料

热点内容
江中眼罩怎么代理 浏览:219
哪里可以看程序员那么可爱第19集 浏览:307
深圳安保市场怎么样 浏览:234
回收小程序如何开发 浏览:629
组装机程序乱了怎么解决 浏览:523
西北哪个批发市场好 浏览:251
代理加盟干果店需要什么 浏览:658
苏州塑料市场有哪些 浏览:439
如何看待招标代理服务零元中标 浏览:691
信息管理系统有哪些公司 浏览:832
农行付款信息填错了如何撤销 浏览:62
台达plc如何写程序控制步进电机 浏览:973
饥荒用什么和隐士交易 浏览:472
讯问笔录上的讯问程序填什么 浏览:75
为什么各种商家都来中国开拓市场 浏览:851
广统表里面的技术交底在哪里 浏览:204
苹果怎么能不共享手机号信息 浏览:648
程序员不想学什么技术 浏览:249
妹子说不要发信息了什么意思 浏览:154
数据库项目上一般有多少个表 浏览:350