导航:首页 > 数据处理 > 统计学二手数据有哪些

统计学二手数据有哪些

发布时间:2024-10-20 20:24:35

㈠ 医学科研中常用的统计学方法有哪些

秋风送爽,也给我们送来了刘岭教授的统计说说第五期。这一期的统计学方法之选择大家一定要认真学起来,说不定马上你就会用到了。

编者语

针对常用的基本统计学方法,一般而言说的就是t检验、单因素方差分析和卡方检验,这也是大家在写论文、阅读论文时经常遇到的统计学方法(几乎每篇文章都会涉及这一种或几种方法),那到底该采用何种统计学方法呢?今天我们就此来聊聊。

一、拿到数据开始分析之前,一定要进行数据类型的划分(图1),因为不同数据类型资料,描述的方式不一样,统计学方法也不一样。

图1 统计资料的类型

举个例子(表1):

表1 某地2002年735例65岁以上老年人健康检查记录

二、各种类型资料的统计分析(描述与统计推断)

1.计量资料

特点:每个观察单位的观察值之间有量的区别,有单位;

描述形式:最常见采用“X±S”(一般文献中经常见到),用算数均数描述其平均水平,用标准差描述其离散程度。如果遇到数据“特别变态”(特别是标准差大于算数均数),就采用Md(P25,P75)(Md为中位数,P25和P75为四分位数)(表2)。正态分布检验请大家复习:医学科研课堂丨统计说说(三):你所应该了解的正态、方差齐性检验

表2 计量资料常用统计指标的特点及其应用场合

统计推断方法:一般分为单因素和多因素两种。

单因素分析方法分析要点:一是划清数据类型(计量资料);二是明确试验设计类型(完全随机设计?几组样本?);三是注意所用方法的应用条件;四是满足正态方差齐性时采用t检验(注意t检验有三种形式哦!)或单因素方差分析,不满足时采用秩和检验(图2)。

图2 计量资料统计方法的正确选择

提醒两点:

① 如果样本数据不服从正态分布的话,那就只能用非参数检验(秩和检验),但其检验效能低于参数检验(t检验或方差分析)。所谓检验效能低就是本身有差异,却没有能力发现其差异。

② 如果是两组以上样本的数据时,不能采用t检验(会导致假阳性错误概率增加),应该采用方差分析。若方差分析的P<0.05,需再进一步两两比较,常用的方法为LSD法或SNK法(注意依旧不能采用t检验)。

在上两讲内容中我们已经学过t检验(医学科研课堂丨统计说说(二):你的t检验做对了吗?)和方差分析(医学科研课堂丨统计说说(四):统计学方法之灵魂—方差分析)了,至于秩和检验,我们以后会逐步介绍滴。

多因素分析一般采用回归分析,主要是线性回归分析,以后会给大家介绍此方法。

2.计数资料

特点:无序分类,同类别中各观察单位之间没有量的差别,但各类别间有质的不同,各类别互不相容。其中二分类一定是计数资料(例如性别只有男/女之分,是否继发某种疾病只有继发/未继发之分),而多分类满足分类在性质上没有程度等级上的差别,即为计数资料(例如婚姻状况包括未婚、已婚、离异、丧偶,就属于多分类,但各分类没有程度等级差别,因此为计数资料,尿糖定性检测结果包括-、+、++、+++、++++,属于具有程度等级差别的多分类资料,就不属于计数资料,属于等级资料了)。

描述形式:最常见采用“例数(%)”(一般文献中经常见到),主要要分清构成比(结构相对数)和率(强度相对数)的差别(表3)。而且在应用时,分母(就是样本量啦)一般不宜过小,分母太小不足以反映数据的客观事实,也不稳定。

表3 计数资料常用统计指标的特点及其应用场合

比如说:

1.某地肺癌患者中男性A例,女性B例,则当地肺癌患者的性别比为A/B就是“比”。

2.某次研究共检出了致病菌3种,总株数为A+B+C,其中一种致病菌检出株数为A,那么A/(A+B+C)就是构成比,即该种致病菌占总致病菌的比重或分布。

3.某研究对患者(总例数为B)进行治疗,结果治愈的患者例数为A,则A/B即为率(可以理解为治愈率)。

统计推断方法:一般分为单因素和多因素两种。

单因素分析方法分析要点:一是划清数据类型(计数资料);二是明确试验设计类型(完全随机设计?几组样本?);三是注意所用方法的应用条件;四是多样本率比较,若卡方检验的P<0.05,需再进一步两两比较,并进行Bonferroni校正,以控制假阳性(图3)。

图3 计数资料统计方法的正确选择

提醒两点:

① 构成比是以100作为基数,各构成部分所占的比重之和必须为100%,故某组成部分所占比重的增减必影响其它组成部分的比重;

② 构成比和率在实际应用时容易混淆,主要区别在分母上,所以应正确选择分母。

多因素分析一般采用回归分析,主要是Logistic回归分析,以后会给大家介绍此方法。

3.等级资料

特点:属于多分类资料,满足多分类在性质上有程度等级上的差别,各分类属性按一定顺序排列(有序),即为等级资料。

描述形式:最常见采用“例数(%)”(一般文献中经常见到),这和计数资料的描述大体相同,主要区别在于多个分类排列时一定要按照顺序进行(从小到大或从弱到强)。

统计推断方法:等级资料的统计分析方法在单因素分析中采用非参数检验(秩和检验),当然对于双向有序R×C资料,也就说分组变量和结局变量都是有序(等级)的情况,构成比的比较采用卡方检验,程度的比较采用秩和检验,趋势关联性的比较用秩相关(也称等级相关)。多因素分析中采用有序Logistic回归。

注意:分类变量(计数资料和等级资料)在软件分析操作时,要适当数量化处理(赋值),赋值情况会直接影响统计分析结果的解释。

最后用下面这张图来总结基本统计学方法的选择(图4)。

图4 常用基本统计学方法的正确选择

今天的内容就到这里,同学们多多复习,有什么问题和不懂的可以在下面留言,我们会请刘岭教授一一解答。好了,让我们期待下一期吧!

撰稿:刘岭 约稿编辑:刘芹

排版:毕丽 审核:王东

专家简介

刘岭:陆军军医大学卫生统计学教研室副教授,主要从事卫生统计学教学、科研工作。担任中华卫生信息学会第八届统计理论与方法专业委员会委员,重庆市预防医学卫生统计专业委员会副主任委员,并担任《第三军医大学学报》等多家杂志的编委、统计审稿专家。

历史推荐

医学科研课堂丨统计说说(四):统计学方法之灵魂—方差分析
医学科研课堂丨统计说说(三):你所应该了解的正态、方差齐性检验
医学科研课堂丨统计说说(二):你的t检验做对了吗?
医学科研课堂丨统计说说(一):样本量估算是个什么东东?

㈡ 第三讲 原始数据收集(描述统计分析)

一,调查方式

A,随机抽样调查

概念:一种非全面调查。在全部被调查的总体中 随机地抽选 (样本单位的抽取不受主观因素及其他系统性因素的影响, 每个总体单位都有均等的被抽中的机会 )一部分单位进行观察,并根据样本数据来 推断总体 的数量特征。

注意:如果抽样调查不遵守随机原则选样,从样本推断总体特征的调查目的就不可能达到。因此,如何保证抽样的随机性是进行抽样调查的第一要务。

条件:以 概率理论 为基础的抽样推断,不仅可以估计出抽样推断误差的大小,而且可以通过一定方法控制这些误差。

随机抽样调查的适用范围:

1,无法进行全面调查的现象。例如:一些具有破坏性的产品质量检查。

2,由于工作量和工作难度太大,难于进行全面调查,而又必须取得总体数据的现象。例如:对我国每一户居民家庭收支情况的了解。

3,对普查资料做修正和补充。

优点:省时省力,降低成本,可靠有效(可以用科学方法控制误差)。

a,简单抽样(时点)

前提:事先就知道总体数量。

概念:最基本的抽样方式。按照总体原有的状况依次编号后,不加任何限制地抽取样本。如抽签、摸球、摇色子、excel的随机函数 =int(rand()*x+1) ,x表示总体个数。

抽样误差:样本单位差异越小,抽出的样本代表性就越高,抽样误差也就越低。

缺点:当总体很大或无限大时,编号工作量很大,甚至是不可能的。

b,等距抽样(时点、时段)

办法1前提:事先能把握总体数量。

办法2前提:事先就知道总体状况。

首先将总体单位进行排序。

办法1:按照与抽样调查内容无关的标志排序,如调查人口的收入时,按姓氏笔画排序。

办法2:按照与抽样调查内容有关的标志排序。如调查人口的收入时,按收入多少排序。

抽样误差:排序标志与调查内容的关系越密切,顺序越一致,抽样误差就越小。

忌用:当总体的排序呈现出某种周期性时,特别是周期性节奏与抽样间隔一致时,会引起系统性误差,从而影响样本的代表性。



依次编号后,抽取第一个样本单位。

办法1:在规定的间隔之内,用简单抽样的办法抽取第一个样本单位。(间隔内的样本单位差异越小,抽出的样本代表性就越高,抽样误差也就越低)

办法2:在规定的间隔之内,抽取处于正中间位置上的样本单位(代表第一段的中间水平,最具代表性,从而可以得到较有代表性的样本)。



再从第一个样本单位开始按规定的间隔抽取其他样本单位。

优点:比简单随机抽样更简便,更节省费用,选取的样本代表性也越高。

c,类型抽样(时点、时段)

办法1前提:事前能把握总体数量。

办法2前提:事先就知道各群组占总体的比例,以及各群组内的状况。

选择分组标志:

每一个分组标志都代表着调查目的在某一方面的反应情况,只有选择最恰当的分组标志才能使分组的结果正确反应现象的本质。

复合分组:按两个或两个以上的标志层叠分组。优点是有利于分析得全面深入具体,缺点是组数太多不仅增大工作量而且容易冲淡主要的调查目的,因此要先按主要标志分组,再辅以次要标志。



确定分组组别:

把总体在同一个标志下按特征的不同分为各个组( 前提:知道特征的范围,有的可以参考国家的统计分组体系 ),组之间要具有互斥性(任何一个总体单位都只能适合一个群组)、完备性(任何一个总体单位都在某一个组中)、相似性(组之间具有可比性)。如:农产品调查时,按地形分为山地、丘陵、平原,人口调查时,按年龄分为1~18(少年)、19~30(青年)、31~50(中年)、51~100(老年)。

抽样误差:抽样选择的分组标志与调查目的关系越密切,定性定量越细,每组内的差别就越小,从中选取样本单位就越具有代表性,抽样误差就越小。



确定各组中应抽取的样本数目:

方法1:根据各种组内部变异程度大小,变异程度越大,抽取样本单位数目越多,变异程度越小,抽取样本单位数目越少。(时段)

方法2:按该组单位数目占总体单位数目的比例大小抽取同样比例的样本单位数目,即类型比例抽样;(时点)



将组单位进行排序。

办法1:按照与抽样调查目的无关的标志排序,如调查人口的收入时,按姓氏笔画排序。

办法2:按照与抽样调查目的有关的标志排序。如调查人口的收入时,按收入多少排序。

抽样误差:排序标志与调查目的的关系越密切,顺序越一致,抽样误差就越小。



各组内依次编号后,抽取第一个样本单位。

办法1:在规定的间隔之内,用简单抽样的办法抽取第一个样本单位。(间隔内的样本单位差异越小,抽出的样本代表性就越高,抽样误差也就越低)

办法2:在规定的间隔之内,抽取处于正中间位置上的样本单位(代表第一段的中间水平,最具代表性,从而可以得到较有代表性的样本)。



再从第一个样本单位开始按规定的间隔抽取其他样本单位。

优点:由于从每一类中都要抽选样本单位,就又保证样本中各个类型都包括到了,因此类型抽样会使样本的代表性大大提高。

d,整群抽样(时点)

前提:事先就知道总体数量。

概念:先将总体分为许多属性特征相同的群组,依次编号后,从中随机的抽取若干群组作为样本。

抽样误差:群组之间属性的相似度越高,总体单位分布越均匀,样本的代表性就越高,抽样误差就越小。

优点:当总体数目很多,各单位在时空上分布又很分散时,用此方法可以节省人力物力,降低成本。

缺点:抽出的样本往往不够均匀,代表性比较低。慎用。

B,非随机抽样调查

概念:一种非全面调查。不按照概率均等的原则,而是根据人的主观判断或其他条件来抽取样本。

随机抽样调查的适用范围:

1,有些情况下,严格的随机抽样几乎无法进行,如调查对象的总体边界不清楚而无法制作抽样框。

2,有些研究为了符合研究的目的,不得不按照需要从总体中抽取少数有代表性的个体作为样本。

3,随机抽样的操作过程要求严格,实施起来比较麻烦,费时费力,因此如果调查的目的仅是对问题的初步探索,获得研究的线索和提出假设,而不是由样本推论总体,就不一定需要采用随机抽样。

优点:非随机抽样操作时省时省力,如果 研究者对调查总体和调查对象有较好的了解 ,也可获得较准确的结果。

缺点:因为是主观决策,所以不能保证样本是否重现了总体的分布结构,样本代表性较小,误差很大且无法估计,用这样的样本推论总体极不可靠。

ba,典型调查

在被调查的总体中,有意挑选出个别或少数 具有代表性 的单位进行调查。

挑选典型的方法:分类选点。

bb,重点调查

在被调查的总体中,选出一部分重点单位进行调查,重点单位虽然只是总体中的一小部分,但它们 在所调查的数量标志方面占有很大比重 。

优点:省时省力,降低成本,而且样本代表性高,从而推断总体比较可靠。

bc,就近抽样

以自己方便的形式在总体中抽取 偶然遇到 的单位作为样本。

bd,目标式和判断式抽样

根据主观判断选取代表性高的单位作为样本。

抽样误差:研究者对总体越了解,抽样误差越小。

be,滚雪球抽样

当我们无法了解总体情况时,可以先从总体中的少数单位开始收集样本,通过转介绍或其他方式找到越来越多的样本单位。

优点:研究少数群体时适用。

bf,配额抽样

前提:事先就知道总体数量,及各群组占总体的比例。

确定样本的数量,根据总体中各类别数量所占的比例确定样本中各类别数量所占的比例(用样本模拟出一个总体),最后按比例进行取样。

C,定期统计报表

概念:自上而下地布置统一的报表,然后自下而上的逐级上报汇总报表资料的调查方式。

优点:1资料的全面性和连续性;2资料的统一性和及时性;3资料的来源和准确性比较可靠。

缺点:1资料受利益影响会参杂虚假数据;2报表过多会增加基层的负担,甚至会引起混乱。

报告周期越短,内容越简明,报送时间越紧;

报告周期越长,内容越详尽,报送时间越宽松。

D,普查

概念:专门组织的一次性全面调查。

调查的内容可以是一定时点下的现象(如人口状况、固定资产的存量等),也可以是一定时期的过程性现象(如一年的生产量、销售量)。

调查的目的主要是 收集一些不能够或不适合定期统计报表的数据资料 ,以搞清重要的公司总体情况和某些重要的经济现象的全面情况。

优点:资料最全面、最系统、最详尽。

缺点:花费较多人力、物力、财力和时间(调查登记的时间虽不长,但复杂细微的准备工作和数量巨大的数据处理工作却需要很长时间),容易产生登记误差。

二,调查方案

调查目的:

搞清楚调查要解决什么问题,有了目的才知道应该收集什么样的资料。



调查对象:

被调查的或被推断的总体。总体中的个体叫调查单位(全部或部分)。



报告单位:

负责提交调查资料的单位。



调查内容:

1内容应当是满足调查目的所必需的,可有可无或者备而不用的内容不必列入。

2内容应当只包括能得到确切答案的标志。

3内容的提法要确切具体,不可模棱两可,使填报人能有一致的理解。

问卷调查法:(略)



调查表:

1,表头:包括调查表名称(中间),报告单位的名称、地址、隶属关系(左上角),表号、制表单位、批准备案文号(右上角)。

2,表体:调查表的主体,表现为表格形式,调查内容列于表格内。

3,表脚:包括调查人员或填报人员的姓名、签章,及单位负责人的姓名、签章。

调查表的形式包括一览表、单一表和特殊表。

1,在研究样本的时候用一览表。

2,在调查样本单位的时候用单一表。

3,对于不同的调查标志,就需要用到特殊表。



调查时间:

调查资料所属的时间,分为时段和时点。



调查方式



调查期限:

提交调查报告的时间,目的是为了及时取得资料。



调查地点:

如果样本单位处于流动状态或分布在不同位置,就应该明确地作出规定和注明。



调查的组织实施计划:

包括确定调查活动的组织机构、人员培训安排、文件准备、经费预算、调查方式方法、资料报送方法、是否要进行试差等问题。



调查数据的录入:

任何捏造、改动数据的做法都是有悖于统计学精神和思想的严重错误行为,对于错误的信息在录入时要坚决舍弃。

三,原始数据(一手数据):

概念:通过直接来源得到的数据。如,观察、试验、问卷调查等。

四,次级数据(二手数据)的收集:

概念:通过间接来源得到的数据。

如:各类出版物,已发表的汇编资料, 网上资料 等。

引用时需要注明来源出处,一是尊重别人的劳动成果,二是证实其可靠性。

阅读全文

与统计学二手数据有哪些相关的资料

热点内容
腹腔镜微创技术大概多少钱 浏览:314
怎么删除应用程序的日程 浏览:224
燕塘乳业有什么新技术 浏览:15
长途汽车票有哪些数学信息 浏览:702
产品质量证明怎么办理 浏览:711
微信小程序源码版和代理版有什么区别 浏览:246
上小学需要哪些基本信息 浏览:948
程序员如何选择业务 浏览:742
电信代理商如何更改 浏览:436
csgo交易平台暂挂什么意思 浏览:314
艾弗森被交易到哪个球队最糟糕 浏览:111
无人深空技术栏位有什么用 浏览:743
股指期货交易平台上市公司有哪些 浏览:199
河南人才市场官网怎么查 浏览:43
什么叫产品标识 浏览:549
电气方面哪些产品利润还是比较高 浏览:383
为什么9点就可以委托交易股票 浏览:659
数据网速特别卡怎么解决 浏览:850
什么是护理程序化规范化制度化 浏览:377
梵婕缇怎么做代理 浏览:698