导航:首页 > 数据处理 > 标准差太大如何修正数据

标准差太大如何修正数据

发布时间:2023-03-30 09:54:40

Ⅰ 如何将大批量数据进行标准差标准化

现在因参加夏令营数学建模,我用主成分分析法,在Mathematica
7.0很轻松地将大量数据标准化,数据进行标准差标准化的公式你应该知道吧,可以在网上查到,自己在Mathematica
7.0编制简单的代码就好了
数据分析之前,我们通常需要先将数据键银标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆返档指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测稿世宴评分析。

Ⅱ 当你测量产品时发现测量数据偏差太大时,你会怎样处理

不好用,几张图片只是相似,却认为是相同而分到一个组里。偏差有点太大了,根本不能用。

或许是版本问题,在网上找的 Vistanita Duplicate Finder3.9.6 汉化版 做的试验。

2.Duplicate Cleaner

好用到飞起,查找侍兆速度比上一个快太多,中文版的界面也非常友好。

在网上找的猛虚 Duplicate Cleaner Pro 4.0.5中文破解版 做的试验。

先写到这儿吧,因为心中已经有了答案了。以后有需求再更新。老知租

Ⅲ 平均值一定,想将标准差降小,如何调整数值

所有数据都靠近平均值就好,越接近方差越小。

Ⅳ 怎样用电脑调整一组数据的标准差

stdevp函数是对一组或多组数
你不会只针对一个单元格计算标准差吧?
比如stdevp(A1:A10)
就可以计算标准差了,不会提示输入参数太少
stdevp与stdev的区别,请参考函数帮助:
STDEV
估算样本的标准偏差。标准偏差反映相对于平均值
(mean)
的离散程度。
语法
STDEV(number1,number2,...)
Number1,number2,...
为对应于总体样本的
1

30
个参数。也可以不使用这种用逗号分隔参数的形式伍悉,而用单个数组或对数组的引用。
说明
函数
STDEV
假设其参数是总体中的样本。如果数据代表全部样本总体,则应该使用函数
STDEVP
来计算标准偏差。
此处标准偏差的计算使用“无偏差”或“n-1”方法。
STDEVP
返回以参数形式给出的整个样本总体的标准偏差。标准偏差反映相对于平均值
(mean)
的离散程度。
语法
STDEVP(number1,number2,...)
Number1,number2,...
为对应于样本总体的
1

30
个参数。也可以不使用这种用逗号分隔参数的形式,而用单个数组或对数组的引用。
文本和逻辑值(TRUE

FALSE)将被忽略。如果不能忽略逻辑值和文本,则请使用
STDEVPA
工作表函数。
说明
函数
STDEVP
假设其参数为整个样本总体。如果数据代表样本总体中的样本,应使用函数
STDEV
来计算标准偏差。
对于大样本容量,函数
STDEV

STDEVP
计算结果大致相等。
此处标准偏差的纳橘李计算使用“有偏差”和洞迟“n”方法。

Ⅳ 如何操作才能降低实验结果的标准差

降低实验的标虚塌准差主要是把握好实验的目的和精度。要求合理的选择实验仪器郑誉腔和实验材料,比如需要测定物质含量属于超微量的,自然要选择含待测物越低喊衫的化学试剂为好,选择优级的甚至是基准级的化学试剂,分析仪器也需要更高端,量器也需要更准确。实验特别需要注意的是尽量减少偶然误差,特别是人为误差,比如读数错误,数据录入错误,人为误差可以说是最有可能发生,也是对实验结果影响最大的。所以,实验一定要确认流程,识别可能造成人为误差的危险因素,生物实验特别要注意因人误操作或疏忽造成污染。总之,要对整个实验中可能会有误差的地方做到心中有数,及时规避风险,也要建立风险应对机制,有条件的要随时准备。标准差在概率统计中最常使用作为统计分布程度,还能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

Ⅵ 标准差比均数大怎么回事

标准差比平均数大说明什么?
标准差比平均数大,说明这数据离散性很大.肯定说明这数据变化范围太大了.
这标准差比平均数还大,要算这变异系虚没数都大于100%了.
一般看数据变化大小是看这变异系数.变异系数越大,说明差腊纳这数据很离散.
能不能说明数据不好?
这数据是否为好?要看这数据一般正常情况下是多少.如果局团这数据本身就是具有很大离散性的,并且也在正常范围内,则不能说其不好.如果超出了正常范围,则说明其不好.

Ⅶ 如果变量中有许多零,回归后标准差很大,如何处理好

首先r的范围是(-1,1),应该是绝对值越接近1越线性相关,接近-1是负线性相关,接近1是线性相关

Ⅷ 标准差太大,需要处理数据吗

方法一:规范化方法


也叫离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间。


方法二:正规化方法


这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。

z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。

spss默认的标准化方法就是z-score标准化。

用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。


步骤如下:

  1. 求出各敏罩变键拿运量(指标)的算稿梁术平均值(数学期望)xi和标准差si ;

  2. 2.进行标准化处理:

  3. zij=(xij-xi)/si

  4. 其中:zij为标准化后的变量值;xij为实际变量值。

  5. 3.将逆指标前的正负号对调。

  6. 标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。

Ⅸ 请教:参数估计标准差太大,估计值不理想,如何处理

在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城态悄市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际雹闭高上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。 1.简单随机抽样确定样本量主要有两种类型: (1)对于平均数类型的变量 对于已知数据为绝对数,我们一般根据下列步骤来计算所需要的样本量。已知期望调查结果的精度(E), 期望调查结果的置信度(L),以及总体的标准差估计值σ的具体数据,总体单位数N。 计算公式为:n=σ2/(e2/Z2+σ2/N) 特殊情况下,如果是很大总体,计算公式变为:n= Z2σ2/e2 例如希望平均收入的误差在正负人民币30元之间,调查结果在95%的置信范围以内,其源尺95%的置信度要求Z的统计量为1.96。根据估计总体的标准差为150元,总体单位数为1000。 样本量:n=150*150/(30*30/(1.96*1.96))+150*150/1000)=88 (2)于百分比类型的变量 对于已知数据为百分比,一般根据下列步骤计算样本量。已知调查结果的精度值百分比(E),以及置信度(L),比例估计(P)的精度,即样本变异程度,总体数为N。 则计算公式为:n=P(1-P)/(e2/Z2+ P(1-P)/N) 同样,特殊情况下如果不考虑总体,公式为:n= Z2P(1-P)/e2 一般情况下,我们不知道P的取值,取其样本变异程度最大时的值为0.5。 例如:希望平均收入的误差在正负0.05之间,调查结果在95%的置信范围以内,其95%的置信度要求Z的统计量为1.96,估计P为0.5,总体单位数为1000。样本量为:n=0.5*0.5/(0.05*0.05/(1.96*1.96)+0.5*0.5/1000)=278 2.样本量分配方法 以上分析我们获得了采用简单随机抽样公式计算得到的样本量,总的样本量需要在此基础上乘以设计效应的值得到。由于样本总量已经确定,我们采用总样本量固定方法分配样本,这种方法包括按照比例分配和不按照比例分配两类。实际工作中首先计算取得区县总的样本量,然后逐级将其分配到各阶分层中,如果不清楚各阶分层的规模和方差等,一般采取比例分配或者比例平方根分配法。如果有一定辅助变量可以使用,可以采用按照规模分配法分配样本量。 3.样本量和总体大小的关系: 在其它条件一定的情况下,即误差、置信度、抽样比率一定,样本量随总体的大小而变化。但是,总体越大,其变化越不明显;总体较小时,变化明显。其变化趋势如下: 二者之间的变化并非是线性关系。所以,样本量并不是越大越好,应该综合考虑,实际工作中只要达到要求就可以了。 三、贸易抽样调查方案样本量的确定 根据以上的分析,我们可以确定具体的样本量。当前使用的贸易抽样新方案采用多阶分层区域二相抽样方法、以零售额为核心指标抽取样本。方案规定,县区以下阶分为乡、镇、街道层,乡镇街道一般根据繁华、非繁华分层,层内采用PPS抽样完成对乡镇街道的抽取;乡镇街道以下阶分为居委会、村委会、市场内层,居委会、村委会根据繁华、非繁华分层,层内采用简单随机抽样完成对居委会村委会的抽取,市场内层抽样根据方案完成;最后一阶首先根据规模、类别分层,层内采用简单随机抽样完成对居委会具体样本的抽取。其中,确定居委会具体样本的方法和数量比较模糊,需要基层做很多工作,给基层造成了一定的混乱,增加了很大的负担。 我们决定首先采取简单随机抽样的方法计算区县的样本量,之所以首先对区县计算样本量,主要是考虑,虽然我们方案中没有要求对区县的估计量,但是区县一级是我们做计划和决策的基础,具有承上启下的作用,如果区县级获得的估计量精度比较高,就可以保证上一级的估计量具有更高的精度,而且各个区县的样本量可以认为是相同的,这主要是因为各个区县的总体数都比较多,而且我们也不清楚;同时也不可能事先进行区县方差估计。没有首先计算区县以下各阶分层的样本量,主要是考虑: (1)如果计算区县以下某阶分层的样本量,然后再将计算的样本量合并,将显着增加样本量,增加基层的负担。 (2)事实上,对于计算阶可以比较好的得到它的估计量,但我们现在不需要得到区县以下各阶分层的估计量,我们仅仅需要区县的估计量,没有必要计算区县以下阶样本量。 (3)我们直接对整个区县以简单随机抽样进行抽取,然后将其样本量合理分配到各阶分层中,这样可以使用较少样本量得到区县较好的估计量。 以下我们以试点地区批零业为对象进行研究。由于没有误差限以及置信度和抽样比率的值。我们可以采用常用参数:设定区县总体为很大,置信度是95%,抽样比率保守估计是0.5,抽样误差不能大于15%,根据公式计算得到样本量为43个。由于采取多阶分层抽样,我们如何设定抽样设计效应呢?区县及以下是三阶分层抽样,只要在各阶进行合适的分层,其设计效应应该在2-3之间,我们在这里取保守值3,那么得到本区县样本量是129个,这个样本量就可以根据新方案得到区县要求误差内的估计值。 1.确定办事处、居委会、村委会样本量 根据方案,每个居委会抽取样本5-10个,那么这个样本量是否可行呢?这里涉及如何将区县样本分配到街道和居委会中去,根据方案要求,街道抽取采取先分层,后对层内进行PPS抽样;那么分配样本是否也采取同样方法呢?主要看辅助变量与样本量之间的关联程度,方案中提供了两个辅助变量:人口数和个体数,对于辅助变量是个体数的完全可以使用规模分配方法分配样本量,个体数多的分配较多的样本量;对于辅助变量是人口数的如果采取规模分配方法,由于人口数与一个地区的个体单位数没有必然的联系,可能导致某些居委会的个体数比较多,却分配了较少的样本量,使得居委会分层变的困难,同时使居委会方差显着增大。而获得较多样本量的居委会,分层的效果和方差提高幅度有限,故采用比例分配的方法可能更加合适一些。对于居委会村委会的抽取,由于本阶可能存在市场内的抽样,分配复杂一些;如果本阶有市场内抽样,可以适当减少居委会村委会的样本量,但应该大于本阶样本量的80%,由于市场内抽样的特殊性,建议将本阶样本量全部分配给居委会村委会,我们所进行的试点就是将样本全部分配给居委会;至于市场内抽样的具体实施,可以根据方案操作完成。对居委会村委会层内,由于使用简单随机抽样完成,采用比例分配平均分配就可。 在实际工作时,由于一个区县包括全部乡镇街道或其中的一个;根据方案,区县抽取办事处的数量应该介于12-4个之间,对应于抽中乡、镇、街道的全部或其中一个,那么其每一个乡镇街道采取比例分配平均分配的样本量应该是11-32个之间;所抽中的居委会、村委会数量应该介于16-48个之间,如果个别乡镇街道抽中的居委会是2个,则其居委会总数相应减少一些;最后,每个居委会、村委会的样本量应该介于3-16个之间,大部分介于5-10之间。以上的讨论没有考虑总体的大小,如果考虑到居委会、村委会的总体有限,则每个居委会村委会的样本量可以减少一些,具体可以采用以下公式得到具体样本量的调整数: 样本量n=n1*N/(N+n1)。N是本地区总体,n1 是给本地区分配样本量 居委会样本量的调整数,应该作为本居委会样本量的底限。 确定办事处、居委会村委会的样本量,与以下几点有关: a)估计量的误差、置信度,可以决定简单随机抽样的样本量 b)与采用的抽样方法有关系,它决定了设计效应的大小。例如:分层抽样的设计效应值小于1,多阶抽样的设计效应值大于1。可以决定整个抽样的样本量。 c)与每一阶的分层的数目有关系,所以,应该重点考虑分层的问题,分层太多,没有必要;分层太少,导致层内的方差增大,可能影响估计值的精度以及设计效应的值,所以,在每阶分层时,应该合理考虑,使得样本的变异程度在层内达到一个合理水平。 根据以上原则,我们在包头的抽样试点共抽取4个办事处,包括14个居委会;一个乡,包括4个村委会,经过清查共有批零业1042个,单位70个;餐饮业250个,单位3个。由于我们使用人口数作为辅助变量,应该采用比例分配方法平均分配样本量,这样每个街道办事处得到26个样本, 对于抽取4个居委会的办事处,每个居委会分配得到7个样本;对于抽取2个居委会的办事处,每个居委会分配到13个样本。然后根据居委会总体对样本量做出调整,得到居委会实际样本量。 2.确定居委会村委会内分层样本量 以上我们讨论如何分配给乡镇居委会村委会样本量,现在分析给居委会村委会以下各层分配样本量,这一步,清查的工作就显得非常重要了,重点应该清查规模、类别,首先是规模,规模的大小不应该根据工商注册为单位或个体决定,应该根据实际情况,即使是个体,如果规模较大,也应该归入大规模分层中,这样就可以使得每层的样本变异程度显着降低,从而提高精确度。根据实际情况可以包括两种: (1)如果全部是规模比较小的单位个体户,我们可以根据类别进行适当的分组,将某一类单位比较多的单独分层;将另外类别比较少的,可以几类合并进行抽取具体样本,分层不要多于4层,并保证每层的样本量不小于2个。由于居委会样本量数目已经确定,我们可以直接采取比例分配方法,确定各层样本量。 (2)如果规模比较大的和规模小的并存,可以将规模比较大的单独分层,不用考虑其中的类别;将规模较小的主要是个体户可以根据类别进行分层;其中的难题是如何将样本量在规模大的和规模小的之间分配,因为大规模层内样本变异程度有可能很大,应该抽取较多的样本量,经过测试,如果大规模层总体小于等于5,应该对其进行全面调查;如果大于5个,可以采用以下的公式计算得到: n=0.25/(e2/t2+ 0.25/N),其中:e=30%,t=2.1,N为规模较大的数目。 其他规模较小的,使用比例分配法分配其他的样本,实际分层时,最好不要超过4层,保证每层不少于2个,由于大规模层的存在,可能占去了较多的样本量,导致其它层不够分配,这种情况下,可考虑增加层内一定样本量。 经过以上的分析、计算可以得到居委会村委会的样本数量。 总结: 由于情况的多样性,各地在具体实施方案时可能有所不同,有的分层少一些,有的多一些,但是计算的方法和原则是相同的,各地应该在保证抽样精度的前提下,得到合适的样本量,同时加大对于样本点的管理。下表是我们试点地区抽中居委会的清查数目,以及实际抽中的样本量,与调整数比较,在18个居委会中,16个居委会认为适合要求,2个居委会样本量数目有一些偏少,主要是由于对居委会规模较大的层,没有达到抽取要求;表五、六、七列是大规模层的总体数和应该分配的样本量,在试点中个别地区没有达到要求。这提示我们,应该非常重视各阶的清查工作,提前计算得到得到合适的样本量。在认真清查以后,根据清查结果,对办事处、居委会进行合理的分层,以规定的方法抽取适当的办事处和居委会;同时应该将重点放在对居委会内单位的清查上,将规模大的单位放在一层,其他个体可以根据类别进行合适分层抽样,及时计算得到各层的样本量。 我们以上的分析计算,均取比较保守的参数,实际上,样本的变异程度即P的值没有达到0.5;同时由于我们在各阶采取了合理的分层,保证了设计效应的值应该小于3,所以对于县区的估计值完全可以达到误差要求。

Ⅹ 请教统计问题:如果一组数据标准差很大,我想去掉偏离度大的数据,应该依据什么原则

统计学软件很多,简单的用excel就好了,稍微专业一点就用spss吧。
你的问题很模糊,标准差很大原因可能很多,比如整体的分布先看看是不是正态的,如果是其他分布,如平均,离散,或者其他乱七八糟的分布,标准差大不是一个两个值影响拿厅的,而是整体本来就是这样的,标准链并差本来就大,所以无法剔消唤隐除偏离度大的数据,如果你的数据是正态的,可以使用一种估计取值区间的方法把偏离度大的数据找出来。

阅读全文

与标准差太大如何修正数据相关的资料

热点内容
如何提取子表格固定数据 浏览:727
哪个农业养殖最有市场 浏览:263
我有技术如何获得投资 浏览:433
中国哪些技术全国第一 浏览:56
三十万做什么代理 浏览:258
祛斑的合格产品有什么标志 浏览:158
信息技术模拟考试怎么登陆 浏览:399
海外点餐的微信小程序是什么 浏览:965
微信小程序里面的游戏在哪里 浏览:762
小程序轻应用是什么意思 浏览:652
代理商的钱怎么处理 浏览:874
双方不信任怎么交易 浏览:320
欧美发达国家市场对什么比较看重 浏览:979
番禺东江市场卖什么 浏览:223
发现买卖粉丝可以投诉到什么信息 浏览:794
到室外推销产品怎么做 浏览:602
什么是单位信息采集表 浏览:171
苹果手机怎么设置数据和wifi使用 浏览:63
cf皮肤卡怎么交易 浏览:13
审计项目如何履行程序 浏览:602