导航:首页 > 数据处理 > 如何用标准化数据筛选

如何用标准化数据筛选

发布时间:2024-03-04 00:59:09

Ⅰ 几种常用数据标准化方法

评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据。随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题,多指标综合评价方法应运而生。所谓多指标综合评价方法,就是把描述评价对象不同方面的多个指标的信息综合起来,并得到一个综合指标,由此对评价对象做一个整体上的评判,并进行横向或纵向比较。

而在 多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。 因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。

目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法,对系统的评价结果会产生不同的影响,然而不幸的是, 在数据标准化方法的选择上,还没有通用的法则可以遵循。

数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有:min-max标准化(Min-max normalization),log函数转换,atan函数转换,z-score标准化(zero-mena normalization,此方法最为常用),模糊量化法。本文只介绍min-max法(规范化方法),z-score法(正规化方法),比例法(名字叫啥不太清楚,归一化方法)。

也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:

通过以10为底的log函数转换的方法同样可以实现归一下,具体方法看了下网上很多介绍都是 x =log10(x) ,其实是有问题的,这个结果并非一定落到[0,1]区间上, 应该还要除以log10(max) *,max为样本数据最大值,并且所有的数据都要大于等于1。

用反正切函数也可以实现数据的归一化,使用这个方法需要注意的是如果想映射的区间为[0,1],则 数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。

而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化;也是SPSS中最为常用的标准化方法,也叫 标准差标准化

Ⅱ 如何在excel中数据标准化处理

在EXCEL中没有现成的函数,需要自己分步计算。
步骤如下:
1.:求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
2:进行标准化处理:
zij=(xij-xi)/si
其中:zij为标准化后的变量值;xij为实际变量值。
3.:将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
另外这个标准化在SPSS中很容易实现

Ⅲ Excel中的筛选,如何把一个月的数据一起筛选出来

1、打开excel表格,该表格一共有300多行,手动一个个去筛出想要的数据效率很低。使用excel自带的筛选功能才是正确的方法。用鼠标选中第一行中的标题,点击工具栏中的【数据】-【筛选】。

Ⅳ 数据标准化方法:该如何选择

原文链接:

数据标准化方法:该如何选择?

什么是数据标准化?

在微生物组学数据分析之前,我们常常需要根据数据量纲的不同以及分析方法的需要对数据进行各种预处理,也即数据标准化。 数据标准化的目的是使数据的总体符合某种要求,例如使数据总体符合正态分布以方便参数检验、使数据范围相同以方便比较分析、使数据分布均匀以方便作图展示等 。我们必须知道不同标准化方法的内涵,从而在实际研究中可以选择正确的数据标准化方法。

首先我们介绍一下数据转换。简单数据转换也即对整体数据进行简单运算,数据转换的目的主要有三个,一是改变数据结构,例如 非线性通过平方根、对数转换为线性 ;二是改变数据范围,便于比较和作图分析,例如数据变化特别大的可以进行对数转换来缩小属性范围;三是改变数据分布,使得样本偏离标准分布太远的更加接近标准分布(例如正态分布)。常见的数据转换有以下几种:

对数转换 :将数据(样本观察值)取自然对数(或者其他数为底的对数),可以使用log()函数来实现(log1p()可以将数据加1后取自然对数)。若是数据中有0或负值,可以全部数据加上一个数转换为正数。一般来说自然对数转换可以使0~1范围内的数据范围变大,可以使>1范围内数据范围变紧凑。

平方根转换 :将数据全部取平方根,可以使用sqrt(x)或者x^0.5来实现。类似的还有立方根转换、四次方根转换,偶数次方根要求数据非负。如果数据结构为二次关系,平方根转换后平方根转换可以使数据范围变小。

倒数转换 :将数据全部取倒数,也即1/x,倒数转换使0~1范围内的数据范围变大,使>1范围内数据范围变紧凑,而且转换后数据为倒序。

数据转换仅仅是对数据中每个观察值的独立处理,而标准化则涉及到数值之间的处理。下面我们以生态学常用的vegan包中的decostand()函数为例,分析不同标准化方法的差别,此函数使用方法如下:

decostand(x, method, MARGIN, range.global, logbase = 2, na.rm=FALSE, ...)

其中x为向量或矩阵,method为标准化方法,MARGIN=1按行处理,MARGIN=2按列处理,不同标准化方法介绍如下:

①method="pa",将数据转换为有-无(1-0)类型,若分析不加权的情况群结构下可以使用;

②method="max",最大值标准化,将数据除以该行或者列的最大值(defaultMARGIN=2)。若数据非负,最大值标准化后数据全部位于0到1之间。

③method="total",总和标准化,将数据除以该行或者列的总和,也即求相对丰度(default MARGIN=1),总和标准化后数据全部位于0到1之间。

④method="range",Min-max标准化,将数据减去该行或者列的最小值,并比上最大值与最小值之差(defaultMARGIN=2),Min-max标准化后的数据全部位于0到1之间。

⑤method="normalize",模标准化,将数据除以每行或者每列的平方和的平方根(default MARGIN=1),模标准化后每行、列的平方和为1(向量的模为1),也即在笛卡尔坐标系中到原点的欧氏距离为1,样品分布在一个圆弧上,彼此之间的距离为弦长,因此也称为弦转化。 在基于欧氏距离的 PCA 、 RDA 中分析群落数据可以将每个样方弦转化可以弥补欧氏距离的缺陷 。弦转化后的数据使用欧氏距离函数计算将得到 弦距离矩阵 。

⑥method="hellinger",hellinger转化,就是总和标准化数据的平方根(default MARGIN=1),hellinger转化后的数据使用欧氏距离函数计算将得到 hellinger 距离矩阵 。

⑦method="chi.square",卡方转化,在默认(defaultMARGIN=1)的情况下是数据除以行的和再除以列的和的平方根,卡方转化后的数据使用欧氏距离函数计算将得到 卡方距离矩阵 。

⑧Wisconsin转化,这个是使用伴随的函数wisconsin(),将数据除以该列最大值再除以该行总和,是最大值标准化和总和标准化的结合。

⑨method="standardize",z-score标准化,最常用的标准化方法之一,将数据减去均值比上标准差(default MARGIN=2),z-score标准化后数据均值为0,方差为1,服从正态总体的数据标准化后服从标准正态分布。z-score标准化可以去除不同环境因子量纲的影响。

一般情况下,上面方法中默认MARGIN=1是默认对样品进行处理,默认MARGIN=2是默认对物种或者环境变量进行处理。

为了比较不同标准化方法对群落数据的影响,我们使用只有两个物种的虚拟群落进行处理,然后在笛卡尔坐标系进行展示(彼此之间是欧氏距离):

#假设虚拟数据:2个物种在5个样方的分布

spe1=c(0.1,0.2,0.3,0.4,0.5)

spe2=c(0.6,0.7,0.8,0.9,1)

ab=cbind(spe1,spe2)

rownames(ab)=LETTERS[1:5]

#各种标准化

ab1=decostand(ab, MARGIN=1, "total")

ab2=decostand(ab, MARGIN=1, "normalize")

ab3=decostand(ab, MARGIN=1, "hellinger")

ab4=decostand(ab, MARGIN=1, "chi.square")

ab5=wisconsin(ab)

#作图观察不同标准化方法距离差异

par(mfrow=c(2,3))

plot(ab[,1], ab[,2], xlim=0:1, ylim=0:1, main="Rawdata")

text(ab[,1], ab[,2]-0.05, labels=rownames(ab), cex=1.2)

plot(ab1[,1], ab1[,2], xlim=0:1, ylim=0:1, main="Total")

text(ab1[,1], ab1[,2]-0.05, labels=rownames(ab), cex=1.2)

plot(ab2[,1], ab2[,2], xlim=0:1, ylim=0:1,main="Normalize")

text(ab2[,1], ab2[,2]-0.05, labels=rownames(ab), cex=1.2)

plot(ab3[,1], ab3[,2], xlim=0:1, ylim=0:1,main="Hellinger")

text(ab3[,1], ab3[,2]-0.05, labels=rownames(ab), cex=1.2)

plot(ab4[,1], ab4[,2], xlim=0:1, ylim=0:1,main="Chi.square")

text(ab4[,1], ab4[,2]-0.05, labels=rownames(ab), cex=1.2)

plot(ab5[,1], ab5[,2], xlim=0:1, ylim=0:1,main="Wisconsin")

text(ab5[,1], ab5[,2]-0.05, labels=rownames(ab), cex=1.2)

结果如下所示:

在没有处理的情况下,群落之间的欧氏距离相等,然而在生态学方面我们不这么看,因为B中物种1的数量是A的两倍,其群落差异显然比D、E更大,五种处理方法标准化数据后的结果都比较好的证实了上面的猜想,尤其是最后两种。 然而在微生物生态中,我们倾向于认为微生物群落是一个整体,不同样品之间物种的相对丰度是有可比较的实际意义的,因此最常用的就是总和标准化 (当然在不涉及丰度比较的聚类和排序分析中各种标准化方法都可以尝试,在传统群落研究里,虽然经常使用中心化等方法,但是需要使用盖度等对不同物种进行加权,因此直接进行总和标准化从某种意义上是使用相对丰度进行加权)。

对于物理、化学变量而言,则完全不同,因为环境变量的值具有绝对性,例如温度1-2℃和21-22℃其差异是一样的。环境变量由于量纲不同, 在计算距离矩阵(欧氏距离)、根据特征根提取的主成分分析、比较系数的回归分析之前,均需要进行 z-score标准化。

Ⅳ 在EXCEL里怎么将数据标准化

在EXCEL中消除量纲,没有现成的函数,要组合作用。



1、求出各变量(指标)的算术平均值(数学期望)xi和标准差si 。




(5)如何用标准化数据筛选扩展阅读




1、从输入调整字体开始,在工具栏“开始”菜单模块,可以发现调整字体的工具框,在此我们可以快速更改字体类型、大小、颜色等等。


2、在打好字或者打字之前,需要按照一定格式来调整字体的对齐方式,在对齐方式工具栏中,可以快速更改字体对齐方式。


3、如果想要输入一些数据制作消费情况统计表的话,那么就要输入“¥”这个符号了,一次次输入太麻烦了,直接在数字框那里。


4、插入和删除单元格,在单元格工具框中,我们可以快速一键插入或删除单元格。


5、常用函数一键搞定,直接在工具里寻找。


6、想要直接知道某几个数的和或者平均值,那么直接选中那几个数就可以知道了。


7、格式刷的使用很简单,只要点击一下格式刷,然后在选择要复制的格式,最后就是选择要修改的个单元格了,可以批量修改 。


8、Excel表格中,只要一键就能制表。选中一些数据,然后在上方工具栏中选择“插入”,再打开“图表”。


资料来源:网络-excel

阅读全文

与如何用标准化数据筛选相关的资料

热点内容
一个产品不好的熟食店如何逆转 浏览:666
赶出市场的公司有哪些 浏览:764
如何将文档转换成执行程序 浏览:254
期权一般多久能交易 浏览:775
张店大型菜市场有哪些 浏览:511
如何找到拐点的数据 浏览:268
家电安装工程信息费多少 浏览:902
交易所哪个牌子最好 浏览:31
信息服务如何提高收入 浏览:696
邢台代理什么最有前景 浏览:695
如何查询代驾车辆信息 浏览:158
陕西职业技术学院地址学费多少 浏览:206
防城港经营教练茶品牌怎么代理 浏览:82
太原剪草坪批发市场有什么东西 浏览:96
excel的数据如何导入CAD 浏览:744
地区品牌代理怎么做 浏览:937
军事智慧工地建设到什么程序 浏览:528
江苏农商银行怎么完善个人信息 浏览:662
代理运营一个月能赚多少钱 浏览:163
阜新房产交易中心在哪里 浏览:256