导航:首页 > 数据处理 > 统计数据缺失控制在多少内

统计数据缺失控制在多少内

发布时间:2023-02-08 03:15:05

❶ 探索性数据分析之缺失值检测与处理

查看一下数据(数据集已处理为pandas.dataframe)

如果发现有缺失值要对缺失值进行分析,输出每个列丢失值也即值为NaN的数据和,并从多到少排序

统计缺失值的比例

处理缺失值时根据缺失值的具体情况有两种策略

可以选择忽略有缺失特征的列。

在缺失的行数比较少的情况下应仅仅忽略出现缺失的那几行

使用特殊值来填补缺失值,特殊值的选取需要根据情况来判断。

sklearn的Imputer类提供了补全缺失值的基本策略:

❷ 数据分析中的缺失值处理

数据分析中的缺失值处理
没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。
造成数据缺失的原因
现实世界中的数据异常杂乱,属性值缺失的情况经常发全甚至是不可避免的。造成数据缺失的原因是多方面的:
信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。
信息被遗漏。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失。
有些对象的某个或某些属性是不可用的。如一个未婚者的配偶姓名、一个儿童的固定收入状况等。
有些信息(被认为)是不重要的。如一个属性的取值与给定语境是无关。
获取这些信息的代价太大。
系统实时性能要求较高。即要求得到这些信息前迅速做出判断或决策。
对缺失值的处理要具体问题具体分析,为什么要具体问题具体分析呢?因为属性缺失有时并不意味着数据缺失,缺失本身是包含信息的,所以需要根据不同应用场景下缺失值可能包含的信息进行合理填充。下面通过一些例子来说明如何具体问题具体分析,仁者见仁智者见智,仅供参考:
“年收入”:商品推荐场景下填充平均值,借贷额度场景下填充最小值;
“行为时间点”:填充众数;
“价格”:商品推荐场景下填充最小值,商品匹配场景下填充平均值;
“人体寿命”:保险费用估计场景下填充最大值,人口估计场景下填充平均值;
“驾龄”:没有填写这一项的用户可能是没有车,为它填充为0较为合理;
”本科毕业时间”:没有填写这一项的用户可能是没有上大学,为它填充正无穷比较合理;
“婚姻状态”:没有填写这一项的用户可能对自己的隐私比较敏感,应单独设为一个分类,如已婚1、未婚0、未填-1。
缺失的类型
在对缺失数据进行处理前,了解数据缺失的机制和形式是十分必要的。将数据集中不含缺失值的变量称为完全变量,数据集中含有缺失值的变量称为不完全变量。从缺失的分布来将缺失可以分为完全随机缺失,随机缺失和完全非随机缺失。
完全随机缺失(missing completely at random,MCAR):指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性。如家庭地址缺失。
随机缺失(missing at random,MAR):指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。例如财务数据缺失情况与企业的大小有关。
非随机缺失(missing not at random,MNAR):指的是数据的缺失与不完全变量自身的取值有关。如高收入人群的不原意提供家庭收入。
对于随机缺失和非随机缺失,删除记录是不合适的,随机缺失可以通过已知变量对缺失值进行估计;而非随机缺失还没有很好的解决办法。
说明:对于分类问题,可以分析缺失的样本中,类别之间的比例和整体数据集中,类别的比例
缺失值处理的必要性
数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘来说,缺省值的存在,造成了以下影响:
系统丢失了大量的有用信息;
系统中所表现出的不确定性更加显着,系统中蕴涵的确定性成分更难把握;
包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。
数据挖掘算法本身更致力于避免数据过分拟合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此,缺省值需要通过专门的方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。
缺失值处理方法的分析与比较
处理不完整数据集的方法主要有三大类:删除元组、数据补齐、不处理。
删除元组
也就是将存在遗漏信息属性值的对象(元组,记录)删除,从而得到一个完备的信息表。这种方法简单易行,在对象有多个属性缺失值、被删除的含缺失值的对象与初始数据集的数据量相比非常小的情况下非常有效,类标号缺失时通常使用该方法。
然而,这种方法却有很大的局限性。它以减少历史数据来换取信息的完备,会丢弃大量隐藏在这些对象中的信息。在初始数据集包含的对象很少的情况下,删除少量对象足以严重影响信息的客观性和结果的正确性;因此,当缺失数据所占比例较大,特别当遗漏数据非随机分布时,这种方法可能导致数据发生偏离,从而引出错误的结论。
说明:删除元组,或者直接删除该列特征,有时候会导致性能下降。
数据补齐
这类方法是用一定的值去填充空值,从而使信息表完备化。通常基于统计学原理,根据初始数据集中其余对象取值的分布情况来对一个缺失值进行填充。数据挖掘中常用的有以下几种补齐方法:
人工填写(filling manually)
由于最了解数据的还是用户自己,因此这个方法产生数据偏离最小,可能是填充效果最好的一种。然而一般来说,该方法很费时,当数据规模很大、空值很多的时候,该方法是不可行的。
特殊值填充(Treating Missing Attribute values as Special values)
将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如所有的空值都用“unknown”填充。这样将形成另一个有趣的概念,可能导致严重的数据偏离,一般不推荐使用。
平均值填充(Mean/Mode Completer)
将初始数据集中的属性分为数值属性和非数值属性来分别进行处理。
如果空值是数值型的,就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值;
如果空值是非数值型的,就根据统计学中的众数原理,用该属性在其他所有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。与其相似的另一种方法叫条件平均值填充法(Conditional Mean Completer)。在该方法中,用于求平均的值并不是从数据集的所有对象中取,而是从与该对象具有相同决策属性值的对象中取得。
这两种数据的补齐方法,其基本的出发点都是一样的,以最大概率可能的取值来补充缺失的属性值,只是在具体方法上有一点不同。与其他方法相比,它是用现存数据的多数信息来推测缺失值。
热卡填充(Hot deck imputation,或就近补齐)
对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。该方法概念上很简单,且利用了数据间的关系来进行空值估计。这个方法的缺点在于难以定义相似标准,主观因素较多。
K最近距离邻法(K-means clustering)
先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
使用所有可能的值填充(Assigning All Possible values of the Attribute)
用空缺属性值的所有可能的属性取值来填充,能够得到较好的补齐效果。但是,当数据量很大或者遗漏的属性值较多时,其计算的代价很大,可能的测试方案很多。
组合完整化方法(Combinatorial Completer)
用空缺属性值的所有可能的属性取值来试,并从最终属性的约简结果中选择最好的一个作为填补的属性值。这是以约简为目的的数据补齐方法,能够得到好的约简结果;但是,当数据量很大或者遗漏的属性值较多时,其计算的代价很大。
回归(Regression)
基于完整的数据集,建立回归方程。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计。
期望值最大化方法(Expectation maximization,EM)
EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法。在每一迭代循环过程中交替执行两个步骤:E步(Excepctaion step,期望步),在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望;M步(Maximzation step,极大化步),用极大化对数似然函数以确定参数的值,并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛,即两次迭代之间的参数变化小于一个预先给定的阈值时结束。该方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。
多重填补(Multiple Imputation,MI)
多重填补方法分为三个步骤:
为每个空值产生一套可能的填补值,这些值反映了无响应模型的不确定性;每个值都被用来填补数据集中的缺失值,产生若干个完整数据集合。
每个填补数据集合都用针对完整数据集的统计方法进行统计分析。
对来自各个填补数据集的结果进行综合,产生最终的统计推断,这一推断考虑到了由于数据填补而产生的不确定性。该方法将空缺值视为随机样本,这样计算出来的统计推断可能受到空缺值的不确定性的影响。该方法的计算也很复杂。
C4.5方法
通过寻找属性间的关系来对遗失值填充。它寻找之间具有最大相关性的两个属性,其中没有遗失值的一个称为代理属性,另一个称为原始属性,用代理属性决定原始属性中的遗失值。这种基于规则归纳的方法只能处理基数较小的名词型属性。
就几种基于统计的方法而言,删除元组法和平均值法差于热卡填充法、期望值最大化方法和多重填充法;回归是比较好的一种方法,但仍比不上hot deck和EM;EM缺少MI包含的不确定成分。值得注意的是,这些方法直接处理的是模型参数的估计而不是空缺值预测本身。它们合适于处理无监督学习的问题,而对有监督学习来说,情况就不尽相同了。譬如,你可以删除包含空值的对象用完整的数据集来进行训练,但预测时你却不能忽略包含空值的对象。另外,C4.5和使用所有可能的值填充方法也有较好的补齐效果,人工填写和特殊值填充则是一般不推荐使用的。
不处理
补齐处理只是将未知值补以我们的主观估计值,不一定完全符合客观事实,在对不完备信息进行补齐处理的同时,我们或多或少地改变了原始的信息系统。而且,对空值不正确的填充往往将新的噪声引入数据中,使挖掘任务产生错误的结果。因此,在许多情况下,我们还是希望在保持原始信息不发生变化的前提下对信息系统进行处理。
不处理缺失值,直接在包含空值的数据上进行数据挖掘的方法包括贝叶斯网络和人工神经网络等。
贝叶斯网络提供了一种自然的表示变量间因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。贝叶斯网络仅适合于对领域知识具有一定了解的情况,至少对变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网的结构不但复杂性较高(随着变量的增加,指数级增加),网络维护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响了它的预测精度。
人工神经网络可以有效的对付缺失值,但人工神经网络在这方面的研究还有待进一步深入展开。
知乎上的一种方案:
4.把变量映射到高维空间。比如性别,有男、女、缺失三种情况,则映射成3个变量:是否男、是否女、是否缺失。连续型变量也可以这样处理。比如Google、网络的CTR预估模型,预处理时会把所有变量都这样处理,达到几亿维。这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值、不用考虑线性不可分之类的问题。缺点是计算量大大提升。
而且只有在样本量非常大的时候效果才好,否则会因为过于稀疏,效果很差。
总结
大多数数据挖掘系统都是在数据挖掘之前的数据预处理阶段采用第一、第二类方法来对空缺数据进行处理。并不存在一种处理空值的方法可以适合于任何问题。无论哪种方式填充,都无法避免主观因素对原系统的影响,并且在空值过多的情形下将系统完备化是不可行的。从理论上来说,贝叶斯考虑了一切,但是只有当数据集较小或满足某些条件(如多元正态分布)时完全贝叶斯分析才是可行的。而现阶段人工神经网络方法在数据挖掘中的应用仍很有限。值得一提的是,采用不精确信息处理数据的不完备性已得到了广泛的研究。不完备数据的表达方法所依据的理论主要有可信度理论、概率论、模糊集合论、可能性理论,D-S的证据理论等。

❸ 数据缺失值不能超过多少

超过百分之一就很多了,如果缺失很严重可以尝试使用我们免费开源的的缺失值补值软件MetImp,包括了根据缺失值所占比例对变量进行筛选,以及随机缺失(RF, SVD, kNN, Mean, Median)和非随机缺失(GSimp, QRILC, HM, Zero, Binary)的各种补值方法。我觉得,如果变量与变量之间有关联、可以相互预测(比如说家庭年收入和教育程度),或者缺失的原因是低于最低检测限,等等原因,那么还是可以找方法去补值的,关键是弄清楚缺失的原因,找到得当的方法。

❹ spss分析方法-缺失值分析

 

spss 分析方法 - 缺失值分析

缺失值可能会导致严重的问题。如果带有缺失值的个案与不带缺失值的个案有着根本的不同,则结果将被误导。此外,缺失的数据还可能降低所计算的统计量的精度,因为计算时的信息比原计划的信息要少。

另一个问题是, 很多统计过程背后的假设都基于完整的个案,而缺失值可能使所需的理论复杂化。

下面我们主要从下面四个方面来解说:

[if !supportLineBreakNewLine]

[endif]

实际应用

理论思想

建立模型

[if !supportLineBreakNewLine]

[endif]

分析结果

[if !supportLineBreakNewLine]

[endif]

一、实际应用

[if !supportLineBreakNewLine]

[endif]

众所周知,在诸如收入、交通事故等问题的研究中,因为被调查者拒绝回答或者由于调查研究中的损耗,会存在一些未回答的问题。

例如在一次人口调查中,15%的人没有回答收入情况,高收入者的回答率比中等收入者要低,或者在严重交通事故报告中,诸如是否使用安全带和酒精浓度等关键问题在很多个案中都没有记录,这些缺失的个案值便是缺失值。缺失值主要表现为以下3种: (1)完全随机缺失(Missing Completely At Random,MCAR),表示缺失和变量的取值无关。 例如,假设在研究年龄和收入的关系,如果缺失的数据和年龄或收入数值无关,则缺失值方式为MCAR。要评估MCAR是否为站得住脚的假设,可以通过比较回答者和未回答者的分布来评估观察数据。也可以使用单变量t-检验或Little's MCAR多变量检验来进行更正规的评估。如果MCAR假设为真,可以使用列表删除(listwise deletion)(完整个案分析),无须担心估计偏差,尽管可能会丧失一些有效性。如果MCAR不成立,列表删除、均值置换等逼近方法就可能不是好的选择。 (2)随机缺失(Missing At Random,MAR) , 缺失分布中调查变量只依赖于数据组中有记录的变量。 继续上面的例子,考虑年龄全部被观察,而收入有时有缺失,如果收入缺失值仅依赖于年龄,缺失值就为MAR。 (3)非随机缺失。 这是研究者最不愿意看到的情形,数据的缺失不仅和其他变量的取值有关,也和自身有关。如果收入缺失值依赖于收入值,则既不是MCAR,也不是MAR。

[if !supportLineBreakNewLine]

[endif]

二、理论思想

SPSS主要对MCAR和MAR两种缺失值情况进行分析。

区别MCAR和MAR的含义在于:由于MCAR实际上很难遇到,应该在进行调查之前就考虑哪些重要变量可能会有非无效的未回答,还要尽量在调查中包括共变量,以便用这些变量来估算缺失值。

[if !supportLineBreakNewLine]

[endif]

针对不同情况的缺失值,SPSS操作给出了以下3种处理方法:

( 1 )删除缺失值, 这种方法适用于缺失值非常少的时候,它不需要专门的步骤,通常在相应的分析对话框的“选项”子对话框中进行设置。

( 2 )替换缺失值 ,利用“转换”菜单中的“替换缺失值”命令将所有的记录看成一个序列,然后采用某种指标对缺失值进行填充。

( 3 )缺失值分析过程 ,缺失值分析过程是SPSS专门针对缺失值分析而提供的模块。

缺失值分析过程有以下3个主要功能: ( 1 )描述缺失值的模式。 通过缺失值分析的诊断报告,用户可以明确地知道缺失值所在位置及其出现的比例是多少,还可以推断缺失值是否为随机缺失等。 ( 2 )利用列表法、成对法、回归法或 EM (期望最大化)法等为含缺失值的数据估算平均值、标准误差、协方差和相关性,成对法还可显示成对完整个案的计数。( 3 )使用回归法或 EM 法用估算值填充(插补)缺失值,以此提高统计结果的可信度。 缺失数据可以是分类数据或定量数据(刻度或连续),尽管如此,SPSS只能为定量变量估计统计数据并插补缺失数据。对于每个变量,必须将未编码为系统缺失值的缺失值定义为用户缺失值。舍尔判别法利用投影的方法使多维问题简化为一维问题来处理。其通过建立线性判别函数计算出各个观测量在各典型变量维度上的坐标并得出样本距离各个类中心的距离,以此作为分类依据。

[if !supportLineBreakNewLine]

[endif]

[if !supportLineBreakNewLine]

[endif]

三、建立模型

缺失值分析案例:

[if !supportLineBreakNewLine]

[endif]

题目:下表的某些人口统计数据值已被缺失值替换。该假设数据文件涉及某电信公司在减少客户群中的客户流失方面的举措,每个个案对应一个单独的客户,并记录各类人口统计和服务用途信息。下面将结合本数据文件详细说明如何得到数据文件的缺失值,从而认识SPSS的缺失值分析过程。

一、数据输入

二、操作步骤 1、进入SPSS,打开相关数据文件,“分析”|“缺失值分析”命令2、选择“婚姻状况[marital]”“受教育水平[ed]”“退休[retire]”及“性别[gender]”4个变量进入“分类变量”列表框;选择“服务月数[tenure]”“年龄[age]”“在现住址居住年数[address]”“家庭收入(千)[income]”“现职位工作年数[employ]”及“家庭人数[reside]”6个变量进入“定量变量”列表框。

3、在“缺失值分析”对话框中单击“模式”按钮,弹出“缺失值分析:模式”对话框,选中“显示”选项组中的“个案表(按缺失值模式分组)”复选框,从“以下对象的缺失模式”列表框中选中income、ed、retire和gender 4个变量进入“以下对象的附加信息”列表框中。

其他采用默认设置。设置完毕后,单击“继续”按钮,回到“缺失值分析”对话框。

4、单击“描述”按钮,弹出“缺失值分析:描述”对话框。选中“单变量统计”复选框及“指示符变量统计”选项组中的“使用由指示符变量构成的组执行t检验”和“生成分类变量和指示符变量的交叉表”复选框,其他采用默认设置。

5、勾选EM,其余设置采用系统默认值即可。单击“确定”按钮,等待输出结果。

[if !supportLineBreakNewLine]

[endif]

四、结果分析

1、单变量统计表下表给出了所有分析变量未缺失数据的频数、平均值和标准差,同时给出了缺失值的个数和百分比以及极值的统计信息。通过这些信息,我们可以初步了解数据的概貌特征,以employ一栏为例,employ变量的有效数据有904个,它们的平均值为11,标准差为10.113,缺失数据有96个,占数据总数的比例为9.6%,有15个极大值。

2、估算表下两个表使用EM法进行缺失值的估算后,总体数据的均值和标准差的变化情况,其中“所有值”为原始数据的统计特征,EM为使用EM法后总体数据的统计特征。

3

、独立方差t检验表独立方差t测试结果,用户可以从中找出影响其他定量变量的变量的缺失值模式, 即通过单个方差 t 统计量结果,检验缺失值是否为完全随机缺失。 可以看出,年龄大的人倾向于不报告收入水平,当收入值缺失时,age的均值是49.73,当收入值完整时,age的均值为40.01。通过income一栏的t统计量可以看出,income的缺失将明显影响其他定量变量,这就说明income的缺失不是完全随机缺失。

4、分类变量和定量变量交叉表以marital为例给出了分类变量与其他定量变量间的交叉表。该表给出了在不同婚姻情况下,各分类变量非缺失的个数和百分比,以及各种缺失值的个数和百分比,图中标识了系统缺失值的取值,以及各变量在不同婚姻情况中的分布情况。

5、表格模式输出结果下表给出了表格模式输出结果(缺失值样式表),它给出了缺失值分布的详细信息,X为使用该模式下缺失的变量。由图可以看出,所有显示的950个个案中,9个变量值都完整的个案数有475个,缺失income值的个案有109个,同时缺失address和income值的个案有16个,其他数据的解释类似。

6、EM估算统计表下面三个表给出了EM算法的相关统计量,包括EM平均值、协方差和相关性。从EM平均值输出结果中可知,age变量的平均值为41.91,从EM协方差输出结果中可知,age和tenture间的协方差值为135.326,从EM相关性输出结果中可知,age与tenture的相关系数为0.496。另外,从三个表格下方的 利特尔的MCAR检验可知,卡方检验的显着性值明显小于0.05,因此,我们拒绝了缺失值为完全随机缺失(MCAR)的假设 ,这也验证了3、独立方差t检验表所得到的结论。

[if !supportLineBreakNewLine]

[endif]

参考案例数据:

[if !supportLineBreakNewLine]

[endif]

[if !supportLists]【1】    [endif]spss统计分析从入门到精通 (第四版)  杨维忠,陈胜可,刘荣  清华大学出版社

(获取更多知识,前往gz号程式解说)

原文来自https://mp.weixin.qq.com/s/CsMIoA_vu8HJoPvW16oNFg

❺ 上市公司数据缺失值超过多少数据就不能用了

上市公司数据缺失值超过10%数据就不能用了。缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类,分组,删失或截断。指的是现有数据集中某个或某些属性的值是不完全的。

❻ spss 怎么设置缺失值

1、我们使用SPSS做数据分析的时候,有时会因为问卷的设置或者数据的保存等原因,造成用于分析的数据部分缺失。我们分析数据前,需要先解决缺失数据问题,在再做分析。

❼ 问卷缺填率达到多少是不能用于分析

SPSS分析调查问卷数据的方法

当我们的调查问卷在把调查数据拿回来后,我们该做的工作就是用相关的统计软件进行处理,在此,我们以spss为处理软件,来简要说明一下问卷的处理过程,它的过程大致可分为四个过程:定义变量﹑数据录入﹑统计分析和结果保存.下面将从这四个方面来对问卷的处理做详细的介绍.
Spss处理:
第一步:定义变量
大多数情况下我们需要从头定义变量,在打开SPSS后,我们可以看到和excel相似的界面,在界面的左下方可以看到Data View, Variable View两个标签,只需单击左下方的Variable View标签就可以切换到变量定义界面开始定义新变量。在表格上方可以看到一个变量要设置如下几项:name(变量名)、type(变量类型)、width(变量值的宽度)、decimals(小数位) 、label(变量标签) 、Values(定义具体变量值的标签)、Missing(定义变量缺失值)、Colomns(定义显示列宽)、Align(定义显示对齐方式)、Measure(定义变量类型是连续、有序分类还是无序分类).
我们知道在spss中,我们可以把一份问卷上面的每一个问题设为一个变量,这样一份问卷有多少个问题就要有多少个变量与之对应,每一个问题的答案即为变量的取值.现在我们以问卷第一个问题为例来说明变量的设置.为了便于说明,可假设此题为:
1.请问你的年龄属于下面哪一个年龄段( )?
A:20—29 B:30—39 C:40—49 D:50--59
那么我们的变量设置可如下: name即变量名为1,type即类型可根据答案的类型设置,答案我们可以用1、2、3、4来代替A、B、C、D,所以我们选择数字型的,即选择Numeric, width宽度为4,decimals即小数位数位为0(因为答案没有小数点),label即变量标签为“年龄段查询”。Values用于定义具体变量值的标签,单击Value框右半部的省略号,会弹出变量值标签对话框,在第一个文本框里输入1,第二个输入20—29,然后单击添加即可.同样道理我们可做如下设置,即1=20—29、2=30—39、3=40—49、4=50--59;Missing,用于定义变量缺失值, 单击missing框右侧的省略号,会弹出缺失值对话框, 界面上有一列三个单选钮,默认值为最上方的“无缺失值”;第二项为“不连续缺失值”,最多可以定义3个值;最后一项为“缺失值范围加可选的一个缺失值”,在此我们不设置缺省值,所以选中第一项如图;Colomns,定义显示列宽,可自己根据实际情况设置;Align,定义显示对齐方式,有居左、居右、居中三种方式;Measure,定义变量类型是连续、有序分类还是无序分类。
以上为问卷中常见的单项选择题型的变量设置,下面将对一些特殊情况的变量设置也作一下说明.
1.开放式题型的设置:诸如你所在的省份是_____这样的填空题即为开放题,设置这些变量的时候只需要将Value 、Missing两项不设置即可.
2.多选题的变量设置:这类题型的设置有两种方法即多重二分法和多重分类法,在这里我们只对多重二分法进行介绍.这种方法的基本思想是把该题每一个选项设置成一个变量,然后将每一个选项拆分为两个选项项,即选中该项和不选中该项.现在举例来说明在spss中的具体操作.比如如下一例:
请问您通常获取新闻的方式有哪些( )
1 报纸 2 杂志 3 电视 4 收音机 5 网络
在spss中设置变量时可为此题设置五个变量,假如此题为问卷第三题,那么变量名分别为3_1、3_2、3_3、3_4、3_5,然后每一个选项有两个选项选中和不选中,只需在Value一项中为每一个变量设置成1=选中此项、0=不选中此项即可.
使用该窗口,我们可以把一个问卷中的所有问题作为变量在这个窗口中一次定义。
到此,我们的定义变量的工作就基本上可以结束了.下面我们要作就是数据的录入了.首先,我们要回到数据录入窗口,这很简单,只要我们点击软件左下方的Data View标签就可以了.
第二步:数据录入
Spss数据录入有很多方式,大致有一下几种:
1.读取SPSS格式的数据
2.读取Excel等格式的数据
3.读取文本数据(Fixed和Delimiter)
4.读取数据库格式数据(分如下两步)
(1)配置ODBC (2)在SPSS中通过ODBC和数据库进行
但是对于问卷的数据录入其实很简单,只要在spss的数据录入窗口中直接输入就可以了,只是在这里有几点注意的事项需要说明一下.
1. 在数据录入窗口,我们可以看到有一个表格,这个表格中的每一行代表一份问卷,我们也称为一个个案.
2. 在数据录入窗口中,我们可以看到表格上方出现了1、2、3、4、5…….的标签名,这其实是我们在第一步定义变量中,我们为问卷的每一个问题取的变量名,即1代表第一题,2代表第二题.以次类推.我们只需要在变量名下面输入对应问题的答案即可完成问卷的数据录入.比如上述年龄段查询的例题,如果问卷上勾选了A答案,我们在1下面输入1就行了(不要忘记我们通常是用1、2、3、4来代替A、B、C、D的).
3.我们知道一行代表一份问卷,所以有几分问卷,就要有几行的数据.
在数据录入完成后,我们要做的就是我们的关键部分,即问卷的统计分析了,因为这时我们已经把问卷中的数据录入我们的软件中了.
第三步:统计分析
有了数据,可以利用SPSS的各种分析方法进行分析,但选择何种统计分析方法,即调用哪个统计分析过程,是得到正确分析结果的关键。这要根据我们的问卷调查的目的和我们想要什么样的结果来选择.SPSS有数值分析和作图分析两类方法.
1.作图分析:
在SPSS中,除了生存分析所用的生存曲线图被整合到Analyze菜单中外,其他的统计绘图功能均放置在graph菜单中。该菜单具体分为以下几部分::
(1)Gallery:相当于一个自学向导,将统计绘图功能做了简单的介绍,初学者可以通过它对SPSS的绘图能力有一个大致的了解。
(2)Interactive:交互式统计图。
(3)Map:统计地图。
(4)下方的其他菜单项是我们最为常用的普通统计图,具体来说有:
条图
散点图
线图
直方图
饼图
面积图
箱式图
正态Q-Q图
正态P-P图
质量控制图
Pareto图
自回归曲线图
高低图
交互相关图
序列图
频谱图
误差线图
作图分析简单易懂,一目了然,我们可根据需要来选择我们需要作的图形,一般来讲,我们较常用的有条图,直方图,正态图,散点图,饼图等等,具体操作很简单,大家可参阅相关书籍,作图分析更多情况下是和数值分析相结合来对试卷进行分析的,这样的效果更好.
2.数值分析:
SPSS 数值统计分析过程均在Analyze菜单中,包括:
(1)、Reports和Descriptive Statistics:又称为基本统计分析.基本统计分析是进行其他更深入的统计分析的前提,通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。Reports和Descriptive Statistics命令项中包括的功能是对单变量的描述统计分析。
Descriptive Statistics包括的统计功能有:
Frequencies(频数分析):作用:了解变量的取值分布情况
Descriptives(描述统计量分析):功能:了解数据的基本统计特征和对指定的变量值进行标准化处理
Explore(探索分析):功能:考察数据的奇异性和分布特征
Crosstabs(交叉分析):功能:分析事物(变量)之间的相互影响和关系
Reports包括的统计功能有:
OLAP Cubes(OLAP报告摘要表):功能: 以分组变量为基础,计算各组的总计、均值和其他统计量。而输出的报告摘要则是指每个组中所包含的各种变量的统计信息。
Case Summaries(观测量列表):察看或打印所需要的变量值
Report Summaries in Row:行形式输出报告
Report Summaries in Columns:列形式输出报告
(2)、Compare Means(均值比较与检验):能否用样本均值估计总体均值?两个变量均值接近的样本是否来自均值相同的总体?换句话说,两组样本某变量均值不同,其差异是否具有统计意义?能否说明总体差异?这是各种研究工作中经常提出的问题。这就要进行均值比较。
以下是进行均值比较及检验的过程:
MEANS过程:不同水平下(不同组)的描述统计量,如男女的平均工资,各工种的平均工资。目的在于比较。术语:水平数(指分类变量的值数,如sex变量有2个值,称为有两个水平)、单元Cell(指因变量按分类变量值所分的组)、水平组合
T test 过程:对样本进行T检验的过程
单一样本的T检验:检验单个变量的均值是否与给定的常数之间存在差异。
独立样本的T检验:检验两组不相关的样本是否来自具有相同均值的总体(均值是否相同,如男女的平均收入是否相同,是否有显着性差异)
配对T检验:检验两组相关的样本是否来自具有相同均值的总体(前后比较,如训练效果,治疗效果)
one-Way ANOVA:一元(单因素)方差分析,用于检验几个(三个或三个以上)独立的组,是否来自均值相同的总体。
(3)、ANOVA Models(方差分析):方差分析是检验多组样本均值间的差异是否具有统计意义的一种方法。例如:医学界研究几种药物对某种疾病的疗效;农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响;不同饲料对牲畜体重增长的效果等,都可以使用方差分析方法去解决
(4)、Correlate(相关分析):它是研究变量间密切程度的一种常用统计方法,常用的相关分析有以下几种:
1、线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。
2、偏相关分析:它描述的是当控制了一个或几个另外的变量的影响条件下两个变量间的相关性,如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系
3、相似性测度:两个或若干个变量、两个或两组观测量之间的关系有时也可以用相似性或不相似性来描述。相似性测度用大值表示很相似,而不相似性用距离或不相似性来描述,大值表示相差甚远
(5)、Regression(回归分析):功能:寻求有关联(相关)的变量之间的关系在回归过程中包括:Liner:线性回归;Curve Estimation:曲线估计;Binary Logistic:二分变量逻辑回归;Multinomial Logistic:多分变量逻辑回归;Ordinal 序回归;Probit:概率单位回归;Nonlinear:非线性回归;Weight Estimation:加权估计;2-Stage Least squares:二段最小平方法;Optimal Scaling最优编码回归;其中最常用的为前面三个.
(6)、Nonparametric Tests(非参数检验):是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数故得名。
非参数检验的过程有以下几个:
1.Chi-Square test 卡方检验
2.Binomial test 二项分布检验
3.Runs test 游程检验
4.1-Sample Kolmogorov-Smirnov test 一个样本柯尔莫哥洛夫-斯米诺夫检验
5.2 independent Samples Test 两个独立样本检验
6.K independent Samples Test K个独立样本检验
7.2 related Samples Test 两个相关样本检验
8.K related Samples Test 两个相关样本检验
(7)、Data Rection(因子分析)
(8)、Classify(聚类与判别)等等
以上就是数值统计分析Analyze菜单下几项用于分析的数值统计分析方法的简介,在我们的变量定义以及数据录入完成后,我们就可以根据我们的需要在以上几种分析方法中选择若干种对我们的问卷数据进行统计分析,来得到我们想要的结果.
第四步:结果保存
我们的spss软件会把我们统计分析的多有结果保存在一个窗口中即结果输出窗口(output),由于spss软件支持复制和粘贴功能,这样我们就可以把我们想要的结果复制﹑粘贴到我们的报告中,当然我们也可以在菜单中执行file->save来保存我们的结果,一般情况下,我们建议保存我们的数据,结果可不保存.因为只要有了数据,如果我们想要结果的,我们可以随时利用数据得到结果.
总结:
以上便是spss处理问卷的四个步骤,四个步骤结束后,我们需要spss软件做的工作基本上也就结束了,接下来的任务就是写我们的统计报告了.值得一提的是.spss是一款在社会统计学应用非常广泛的统计类软件,学好它将对我们以后的工作学习产生很大的意义和作用.
SPSS的问卷分析中一份问卷是一个案,首先要根据问卷问题的不同定义变量。定义变量值得注意的两点:一区分变量的度量,Measure的值,其中Scale是定量、Ordinal是定序、Nominal是指定类;二 注意定义不同的数据类型Type
各色各样的问卷题目的类型大致可以分为单选、多选、排序、开放题目四种类型,他们的变量的定义和处理的方法各有不同,我们详细举例介绍如下:
1 单选题:答案只能有一个选项
例一 当前贵组织机构是否设有面向组织的职业生涯规划系统?
A有 B 正在开创 C没有 D曾经有过但已中断
编码:只定义一个变量,Value值1、2、3、4分别代表A、B、C、D 四个选项。
录入:录入选项对应值,如选C则录入3
2 多选题:答案可以有多个选项,其中又有项数不定多选和项数定多选。
(1)方法一(二分法):
例二 贵处的职业生涯规划系统工作涵盖哪些组群?画钩时请把所有提示
考虑在内。
A月薪员工 B日薪员工 C钟点工
编码:把每一个相应选项定义为一个变量,每一个变量Value值均如下定义:“0” 未选,“1” 选。
录入:被调查者选了的选项录入1、没选录入0,如选择被调查者选AC,则三个变量分别录入为1、0、1。
(2)方法二:
例三 你认为开展保持党员先进性教育活动的最重要的目标是那三项:
1( ) 2 ( ) 3( )
A、提高党员素质 B、加强基层组织 C、坚持发扬民主
D、激发创业热情 E、服务人民群众 F、促进各项工作
编码:定义三个变量分别代表题目中的1、2、3三个括号,三个变量Value值均同样的以对应的选项定义,即:“1” A,“2”B,“3” C,“4” D,“5” E,“6” F
录入:录入的数值1、2、3、4、5、6分别代表选项ABCDEF,相应录入到每个括号对应的变量下。如被调查者三个括号分别选ACF,则在三个变量下分别录入1、3、6。
注:能用方法二编码的多选题也能用方法编码,但是项数不定的多选只能用二分法,即方法一是多选题一般处理方法。
3 排序题: 对选项重要性进行排序
例四 您购买商品时在 ①品牌 ②流行 ③质量 ④实用 ⑤价格 中对它们的关注程度先后顺序是(请填代号重新排列)
第一位 第二位 第三位 第四位 第五位
编码:定义五个变量,分别可以代表第一位 第五位,每个变量的Value都做如下定义:“1” 品牌,“2” 流行,“3” 质量,“4” 实用,“5” 价格
录入:录入的数字1、2、3、4、5分别代表五个选项,如被调查者把质量排在第一位则在代表第一位的变量下输入“3“。
4 选择排序题:
例五 把例三中的问题改为“你认为开展保持党员先进性教育活动的最重
的目标是那三项,并按重要性从高到低排序”,选项不变。
编码:以ABCDEF6个选项分别对应定义6个变量,每个变量的Value都做同样的如下定义:“1” 未选,“2” 排第一,“3” 排第二,“4” 排第三。
录入:以变量的Value值录入。比如三个括号里分别选的是 ECF,则该题的6个变量的值应该分别录入:1(代表A选项未选)、1、 3(代表C选项排在第二)、1、2、4。
注:该方法是对多选题和排序题的方法结合的一种方法,对一般排序题(例四)也同样适用,只是两者用的分析方法不同(例四用频数分析、例五用描述分析),输出结果从不同的侧面反映问题的重要性(前一种方法从位次从变量的频数看排序,后一种方法从变量出发看排序)。
5 开放性数值题和量表题:这类题目要求被调查者自己填入数值,或者打分
例六 你的年龄(实岁):______
编码:一个变量,不定义Value值
录入:即录入被调查者实际填入的数值。
6开放性文字题:
如果可能的话可以按照含义相似的答案进行编码,转换成为封闭式选项进行分析。如果答案内容较为丰富、不容易归类的,应对这类问题直接做定性分析。
三 问卷一般性分析
下面具体介绍SPSS中问卷的一般处理方法,操作以版本spss13.0为例,以下提到的菜单项均在Analyze主菜单下
1频数分析:Frequencies过程可以做单变量的频数分布表;显示数据文件中由用户指定的变量的特定值发生的频数;获得某些描述统计量和描述数值范围的统计量。
适用范围:单选题(例一),排序题(例四),多选题的方法二(例三)
频数分析也是问卷分析中最常用的方法。
实现: Descriptive statistics……Frequencies
2 描述分析:Descriptives:过程可以计算单变量的描述统计量。这些述统计量有平均值、算术和、标准差,最大值、最小值、方差、范围和平均数标准误等。
适用范围:选择并排序题(例五)、开放性数值题(例六)。
实现: Descriptive statistics……Descriptives,需要的统计量点击按钮Statistics…中选择
3 多重反应下的频次分析:
适用范围:多选题的二分法(例二)
实现:第一步在Multiple Response……Define Sets把一道多选问题中定义了的所有变量集合在一起,给新的集合变量取名,在Dichotomies Counted value中输入1。第二步在Multiple Response……Frequencies中做频数分析。
4 交叉频数分析:解决对多变量的各水平组合的频数分析的问题
适用范围:,适用于由两个或两个以上变量进行交叉分类形成的列联表,对变量之间的关联性进行分析。比如要知道不同工作性质的人上班使用交通工具的情况,可以通过交叉分析得到一个二维频数表则一目了然。
实现:第一步根据分析的目的来确定交叉分析的选项,确定控制变量和解释变量(如上例中不同工作性质的人是控制变量,使用交通工具是解释变量)。第二步选择Descriptive statistics……Crosstabs

四 简单图形描述介绍
在做上述频数分析、描述分析等分析时就可以直接做出图形,简单方便,同时也可以另外作图。SPSS的作图功能在菜单Graphs下,功能强大,图形清晰优美。现在把常用图简单介绍如下
1饼图:又称圆图,是以圆的面积代表被研究对象的总体,按各构成部分占总体比重的大小把圆面积分割成若干扇形,用以表示现象的部分对总体的比例关系的统计图。频数分析的结果宜用饼图表示。
2曲线图:是用线段的升降来说明数据变动情况的一种统计图。它主要表示现象在时间上的变化趋势、现象的分配情况和2个现象的依存关系等。
3面积图:用线段下的阴影面积来强调现象变化的统计图。
4条形图:利用相同宽度条形的长短或高低表现统计数据大小及变化的统计图。

五 问卷深入分析
除了以上简单的分析,spss强大的功能还可以对问卷进行深入分析,比如常用的有聚类分析、交叉分析、因子分析、均值比分析(参数检验)、相关分析、回归分析等。因为涉及到很专业的统计知识,下面只将个人觉得比较有用的方法的适用范围和分析目的简单做介绍:
1聚类分析
样本聚类,可以将被调查者分类,并按照这些属性计算各类的比例,以便明确研究所关心的群体。比如按消费特征对被调查者的进行聚类。
2 相关分析
相关分析是针对两变量或者多变量之间是否存在相关关系的分析方法,要根据变量不同特征选择不同的相关性的度量方式。问卷分析中的多数用的变量都属于分类变量,要采用斯皮尔曼相关系数。
其中可以用卡方检验,其是对两变量之间是否具有显着性影响的分析方法
3均值的比较与检验
(1)Means过程:对指定变量综合描述分析,分组计算计算均值再比较。比如可以按性别变量分为男和女来研究二者收入是否存在差距。
(2)T 检验:
独立样本t检验用于不相关的样本是否开来自具有相同均值的总体的检验。比如,研究购买该产品的顾客和不购买的顾客的收入是否有明显差异。
如果样本不独立则要用配对t检验。比如研究参加职业培训后 工作效率是否提高。
4 回归分析
问卷分析中的回归分析常采用的是用离散回归模型,一般是逻辑斯蒂模型,解释一个变量对另一变量的影响具体有多大。比如,研究对某商品的消费受收入的影响程度。

阅读全文

与统计数据缺失控制在多少内相关的资料

热点内容
线上怎么销售产品图片 浏览:14
电脑股票交易明细按哪个键 浏览:365
注塑产品如何开机 浏览:989
建设银行普通信息卡是哪个 浏览:368
电商黑马技术有多少 浏览:963
三圣花乡花市场搬到哪里去了 浏览:294
口腔医学技术多少人学 浏览:312
权健产品什么时候重新上市 浏览:637
做电商怎么跑市场 浏览:338
双子冠军有哪些产品 浏览:327
沈阳菜市场都在哪个地方 浏览:983
焊接技术员可以赚多少钱 浏览:233
c语言程序表示一年有多少秒 浏览:872
红字发票信息表附在哪里 浏览:664
交易猫腾讯号已发货多久交易成功 浏览:324
中国基因技术如何 浏览:877
化妆品批发代理商需要什么资质 浏览:25
p城的技术怎么样 浏览:109
技术类体操的基础技术是什么 浏览:18
网络登不上了如何查询以前信息 浏览:899