⑴ 统计数据的误差有哪些
众所周知,统计数据的准确性是统计工作的生命,提高统计数据质量是统计工作的重中之重.然而,对如何评价统计数据质量的统计误差指标,却是统计部门和统计工作者秘而不宣或者忌讳的问题,甚至在《统计学原理》中都很少讨论,广大群众对此颇有微词,笔者认为有必要进行探讨并澄清一些事实.
一、统计误差的分类
顾名思义,误差是指一个量的观测值或计算值与其真值之差;统计误差,即反映某客观现象的一个量在测量、计算或观察过程中由于某些错误或通常由于某些不可控制的因素的影响而造成的变化偏离标准值或规定值的数量.那么统计误差有哪几种呢?
1.按产生统计误差的性质来分有:空间误差、时间误差、方法误差和人为误差四种.
空间误差是指统计调查范围所产生的误差,包括重漏统计调查单位,跨区域统计等;
时间误差是指统计调查对象因时期或时点界定不准确所产生的误差.如企业核算时间不能满足统计部门的报表制度要求而估报所产生的误差;延长或缩短时期所产生的误差;时期错位产生的误差等.
方法误差是因使用特定的统计调查方法所产生的误差.如抽样调查中的代表性误差(抽样平均误差),它是指采用抽样调查方法中的随机样本(非全面单位)来推算总体所产生的误差的平均值,不是绝对的统计误差.对代表性误差可以根据组织方法和抽取本的容量,一般可以计算其平均误差,而且通过扩大样本量或优化调查的组织方法来缩小.又如统计部门因人力、物力和财力等资源不足,致使报送渠道不畅通,统计调查不到位,推算方法不科学、不规范所产生的误差.
人为误差是指在统计设计、调查、整理汇总和推算等过程中因人为过错产生的误差.人为误差是统计误差中产生因素最多的一类,它又分为度量性误差、知识性误差、态度性误差和干扰性误差.度量性误差是指统计指标因计量或者从生产量到价值量换算所产生的误差;知识性误差是指统计人员因统计知识不够,对统计指标的涵义不理解或错误理解所产生的误差;态度性误差是指统计人员因对统计工作不负责而随意填报统计数据而产生的误差,包括乱报、漏填或不按规定的计量单位填报等;干扰性误差是指统计对象或统计部门受某种利益驱动而虚报、漏报或者捏造统计数据所形成的误差.
2.统计误差按工作环节来分有:源头误差、中间环节误差和最终误差三种.源头误差是指起报单位或申报者所产生的误差;中间环节误差是指统计调查数据在逐级上报过程中所产生的误差,包括加工整理、汇总和推算等环节;最终误差是指下级各基层数据汇总数或规范的方法得到的推算数与最终使用数之间的差异值.按工作环节划分的统计误差类别是相对的,中间环节误差在不同的场合有可能是源头误差,也可能是最终误差.源头误差在有些场合也叫调查误差,或叫登记误差.
二、对统计误差的几点认识
1.宏观统计的误差是客观存在的,不以人们意志为转移的,统计部门的任务就是尽可能缩小统计误差.如计量误差,比方人的高度都有早晚不一致的现象存在,不同调查单位因量器质量不同、标准不同也必定产生误差.再如空间性误差,在实际统计过程由于社会经济现象的复杂性无法涵盖所有的调查单位所产生的误差.又举个最通俗的例子,菜贩买入100斤菜零售最后加总后可能是98斤,也可能不断往菜上泼水买出102斤,这就充分说明统计误差的客观存在性.
2.当前中国统计基础薄弱,统计数据质量不可高估,有些统计指标的误差还相当大.统计部门不要“黄婆买瓜,自买自夸”了,一定要有忧患意识.我记得一位香港统计专家曾指出:“中国统计好比建在沙漠的房子”,言外之意就是基础不牢.如GDP核算,全国数据与各省汇总数据有不少的差距,由地市汇总的数据与省一级的差距也很大,据说有些省差异率高达30%,如果以“各对50大板”计,其误差率也达到15%.又如1998年全国GDP的增长率为7.8%,而全国只有个别省低于7.8%,各省加权的平均增长速度近10%,全年新增GDP数值全国与各省的差异率高达25%以上.
3.计划和各类政绩考核对统计数据干扰不可低估.如果有兴趣的话,你可以统计一下各地GDP增幅比计划高或者持平的比率,可能是相当高的,这并不是说明计划部门的计划多么精确合理,而是说明统计数据确实受到干扰,当然干扰数据不一定是各级领导,而是统计部门或者方法不规范所致.再比如我市某乡镇若干年上造和下造的水稻播种面积一致,而且与考核指标有惊人的相似.又如有些乡镇不再需要村文书报数据,而是给乡镇反馈数据.
4.统计工作不是生长在“真空”中,统计数据也受到党风、社会风气、法律氛围和各种秩序的影响,因此统计部门无法完全控制统计误差.如统计源头数据或者原始凭证是财务核算或业务核算的数据,在这个环节出现误差,光靠统计部门是远远不够的.
5.统计误差与投入的人力、财力密切相关.现在上级统计部门动不动增加统计调查任务,根本不考虑基层的承受能力,导致数据质量严重下滑,统计职业道德有“沦丧”的危险,所谓“车到山前必有路”、“越难统计越好做”都说明了这些.
6.在统计工作中应有估计的合法地位.我们在推行抽样调查过程中,一般都采用点估计,实际是利用样本均值来推算,这本身就有代表性误差,应该在误差控制范围允许做适当的调整,以保证历史数据的平滑.在统计守法方面,往往政府统计部门及其统计人员可能是最大的违法者,在日常统计工作中有大量的估计成份,如基层报不齐需要估报,基层数据不符合逻辑需要调整等,这些都得不到统计法律、法规的保障,还好统计部门在守法和执法既是运动员又是裁判员.因此,统计工作中应在科学、规范的基础上允许进行必要的估计,并在《统计法》上明确给予综合统计部门这一权利.
7.统计部门要有科学的态度,不能做数字游戏,不要亵渎《统计法》赋予的“权威”.一是对每一项工作不能敷衍了事,要有求真务实的精神和精品意识,当前普查工作过多过滥的嫌疑,数据质量也不高,基层政府财政苦不堪言,而普查数据对当地经济建设或者决策的作用却不大;二是不能在人力、财力和物力不许可的情况下,不能层层布置落实新统计项目,如乡镇一级计算国内生产总值;三是要善用抽样调查,有些地方为考核乡镇政绩,每一个乡镇整群抽取10户农户登记(不超过总体1%)计算农民纯收入,显然代表性误差非常大,人为作假更为方便;四是基层政府统计部门的人员配置只能应付数据采集、处理任务,对社会经济运行的分析研究不是统计部门的优势,要扬长避短,不要顾此失彼,如果没有准确的统计数据,就不可能有高质量的统计分析,若只是数据文字化则本身就是徒劳.
8.要关注“富瞒穷虚”的统计现象.不少富裕地区没有完善全面反映社会经济的发展情况,反映总量指标时瞒的成分非常大,美言“留有余地”,而且在反映增长速度时大搞“橡皮筋”游戏,有很好的伸缩力,想缓速度少报几个单位,想加快速度多挖潜几个单位;而穷的、经济基础比较薄弱的地区,有强烈的“赶超”意识,千方百计地利用统计上的“盲点”,提高经济总量及其发展速度.如无法详尽搜集到统计资料的限额以上工业总产值、农业总产值等大做文章,来料加工产品按全值计算等.
三、统计部门在缩小统计误差中的应有作为
1.统计设计中必须对登记误差有要补救措施,建立所谓“测谎”系统.源头数据质量问题统计部门往往把责任推给受调查者,有无能为力之感.如农业普查采取逐户登记的办法进行,农户往不往不能或不敢如实申报,多数应该是少报,而我们在实际普查过程中,事后质量抽查实质是为了“测谎”,可惜很多普查机构对这一环节重视不够,面上调查完成后有大功告成的感觉,对这一阶段工作敷衍了事,不敢揭露问题,不深入开展工作,往往得到的误差几乎为零,使这一环节气扎扎实实走过场,得到结果可想而知,如农普的畜牧生产情况数据与原来的统计数据甚远,究竟哪个为准都没有说服力.在抽样调查方案设计中,也应建立“测谎”系统,否则调查误差始终是统计数据质量的“瓶颈”. “ 测谎”系统要建立必要指标体系和评价方法,要广泛使用数理统计中的假设检验方法.
2.必须有完善的指标体系及其计算方法.目前在总结国民经济核算体系中就速度问题的计算方法重视不够,五花八门,无所适从.而且到目前为止是继续采用过去一起沿用的不变价方法,还采用价格指数剔除法都不很明确,甚至专业统计和综合平衡统计计算方法截然不同,甚至省和市一级的计算方法也不同,公布的速度也不一样,造成不良的社会影响.
3.在抽样调查工作中,上下应该采取不同的样本,对总体单位较少的总体不宜采用抽样调查.上下采用同一样本最容易受到人为的干扰,特别是统计部门为了保持数据的延续性所作各种“技术性”调整.抽样调查在国家一级和省一级大面积推广积极作用不容质疑,但在地市一级、县级进行就不是“一抽就灵”, 如某县在商饮抽样调查中,抽3-5单位推算全县的饮食业零售额,其误差和人为因素就可想而知.因此,统计部门要在对总体分析的基础分析再选择调查方法.
4.在统计体制上必须进行彻底的变革.国家、省一级的正常统计任务今后应以三支调查作为其调查骨干,不应再采取逐级上报的方式.市、县及以上统计机构的统计任务以为当地党政领导决策服务为主,统计基本内容可统一,但要赋予更大的主动权.
5.加大统计执法力度,保证源头数据的准确性.基层统计部门今后应在加强统计信息工程建设的基础上从数据采集的圈圈中跳出来,重点加大统计执法检查,对弄虚作假的单位要坚决严肃查处,在立法上罚款数额应该大幅增加,以威慑统计违法者,逐步建立全社会的统计诚信体系
⑵ 两组数据样本量较少,计算出来的相关系数以及显着性系数有没有参考性
如果不显着的话,意义不大。
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母r表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
需要说明的是,皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数,以下解释都是针对皮尔逊相关系数。
依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。
⑶ 51.la后台统计数据和百度统计数据不一致,是什么原因
1. 在正常情况下,不同统计工具由于采用的算法不同,往往会出现一定的数据差异。
2. 网络统计在几个常见的免费统计工具中,其统计的数据量通常相对较少。
3. 如果您需要对站点的流量进行详细分析,可能需要安装多个统计工具。
4. 然而,这样做可能会导致页面打开速度变慢,需要您根据实际情况进行权衡。
⑷ 写论文如何应对样本数据太少的问题
在撰写论文时,如果遇到样本数据太少的情况,可以采取以下策略来妥善处理:
明确研究目的和范围:首先,需要清晰地界定研究的目的和范围。这有助于解释为什么有限的样本数量是合理的。例如,在某些定性研究或案例研究中,深入分析少数样本可能比大量样本的浅层分析更有价值。
使用适当的统计方法:在样本量较小的情况下,应选择适合小样本数据分析的统计方法。例如,可以使用精确概率测试、贝叶斯分析或者非参数统计方法等。
增加样本数据的多样性:尽量确保每个样本都能提供丰富的信息。通过选择具有代表性的案例,可以提高有限样本的有效性。
透明化样本选择过程:详细描述样本选择的标准和过程,以便读者理解样本的代表性和局限性。
讨论样本量的限制:在论文中明确讨论样本量小可能带来的限制和潜在的偏差风险,以及这些限制对研究结果的影响。
考虑合并数据:如果可能,可以考虑与其他研究者合作,合并相似研究的数据以增加样本量。
进行敏感性分析:通过敏感性分析来评估样本量变化对研究结果的影响,以验证结论的稳健性。
强调质量而非数量:在分析和讨论部分,强调每个样本提供的深度和质量,而不是数量。
提出未来研究方向:建议未来的研究可以如何扩大样本量,以提高研究的可靠性和普遍性。
使用专家意见和文献支持:在分析和讨论中,引用专家意见和相关文献来支持你的发现,即使样本量有限。
考虑使用替代数据源:如果可能,考虑使用其他数据源(如公共数据集、先前的研究数据等)来补充你的样本数据。
采用多方法论:结合定性和定量方法,使用多种数据源和技术来增强研究的深度和广度。
总之,处理论文中样本数据太少的情况需要谨慎和透明的方法论,以及对研究限制的坦诚讨论。通过上述策略,可以在有限的样本数据基础上,尽可能得出有效和可信的研究结论。