導航:首頁 > 數據處理 > 統計數據較少會有什麼問題

統計數據較少會有什麼問題

發布時間:2024-09-06 05:46:44

⑴ 統計數據的誤差有哪些

眾所周知,統計數據的准確性是統計工作的生命,提高統計數據質量是統計工作的重中之重.然而,對如何評價統計數據質量的統計誤差指標,卻是統計部門和統計工作者秘而不宣或者忌諱的問題,甚至在《統計學原理》中都很少討論,廣大群眾對此頗有微詞,筆者認為有必要進行探討並澄清一些事實.
一、統計誤差的分類
顧名思義,誤差是指一個量的觀測值或計算值與其真值之差;統計誤差,即反映某客觀現象的一個量在測量、計算或觀察過程中由於某些錯誤或通常由於某些不可控制的因素的影響而造成的變化偏離標准值或規定值的數量.那麼統計誤差有哪幾種呢?
1.按產生統計誤差的性質來分有:空間誤差、時間誤差、方法誤差和人為誤差四種.
空間誤差是指統計調查范圍所產生的誤差,包括重漏統計調查單位,跨區域統計等;
時間誤差是指統計調查對象因時期或時點界定不準確所產生的誤差.如企業核算時間不能滿足統計部門的報表制度要求而估報所產生的誤差;延長或縮短時期所產生的誤差;時期錯位產生的誤差等.
方法誤差是因使用特定的統計調查方法所產生的誤差.如抽樣調查中的代表性誤差(抽樣平均誤差),它是指採用抽樣調查方法中的隨機樣本(非全面單位)來推算總體所產生的誤差的平均值,不是絕對的統計誤差.對代表性誤差可以根據組織方法和抽取本的容量,一般可以計算其平均誤差,而且通過擴大樣本量或優化調查的組織方法來縮小.又如統計部門因人力、物力和財力等資源不足,致使報送渠道不暢通,統計調查不到位,推算方法不科學、不規范所產生的誤差.
人為誤差是指在統計設計、調查、整理匯總和推算等過程中因人為過錯產生的誤差.人為誤差是統計誤差中產生因素最多的一類,它又分為度量性誤差、知識性誤差、態度性誤差和干擾性誤差.度量性誤差是指統計指標因計量或者從生產量到價值量換算所產生的誤差;知識性誤差是指統計人員因統計知識不夠,對統計指標的涵義不理解或錯誤理解所產生的誤差;態度性誤差是指統計人員因對統計工作不負責而隨意填報統計數據而產生的誤差,包括亂報、漏填或不按規定的計量單位填報等;干擾性誤差是指統計對象或統計部門受某種利益驅動而虛報、漏報或者捏造統計數據所形成的誤差.
2.統計誤差按工作環節來分有:源頭誤差、中間環節誤差和最終誤差三種.源頭誤差是指起報單位或申報者所產生的誤差;中間環節誤差是指統計調查數據在逐級上報過程中所產生的誤差,包括加工整理、匯總和推算等環節;最終誤差是指下級各基層數據匯總數或規范的方法得到的推算數與最終使用數之間的差異值.按工作環節劃分的統計誤差類別是相對的,中間環節誤差在不同的場合有可能是源頭誤差,也可能是最終誤差.源頭誤差在有些場合也叫調查誤差,或叫登記誤差.
二、對統計誤差的幾點認識
1.宏觀統計的誤差是客觀存在的,不以人們意志為轉移的,統計部門的任務就是盡可能縮小統計誤差.如計量誤差,比方人的高度都有早晚不一致的現象存在,不同調查單位因量器質量不同、標准不同也必定產生誤差.再如空間性誤差,在實際統計過程由於社會經濟現象的復雜性無法涵蓋所有的調查單位所產生的誤差.又舉個最通俗的例子,菜販買入100斤菜零售最後加總後可能是98斤,也可能不斷往菜上潑水買出102斤,這就充分說明統計誤差的客觀存在性.
2.當前中國統計基礎薄弱,統計數據質量不可高估,有些統計指標的誤差還相當大.統計部門不要「黃婆買瓜,自買自誇」了,一定要有憂患意識.我記得一位香港統計專家曾指出:「中國統計好比建在沙漠的房子」,言外之意就是基礎不牢.如GDP核算,全國數據與各省匯總數據有不少的差距,由地市匯總的數據與省一級的差距也很大,據說有些省差異率高達30%,如果以「各對50大板」計,其誤差率也達到15%.又如1998年全國GDP的增長率為7.8%,而全國只有個別省低於7.8%,各省加權的平均增長速度近10%,全年新增GDP數值全國與各省的差異率高達25%以上.
3.計劃和各類政績考核對統計數據干擾不可低估.如果有興趣的話,你可以統計一下各地GDP增幅比計劃高或者持平的比率,可能是相當高的,這並不是說明計劃部門的計劃多麼精確合理,而是說明統計數據確實受到干擾,當然干擾數據不一定是各級領導,而是統計部門或者方法不規范所致.再比如我市某鄉鎮若干年上造和下造的水稻播種面積一致,而且與考核指標有驚人的相似.又如有些鄉鎮不再需要村文書報數據,而是給鄉鎮反饋數據.
4.統計工作不是生長在「真空」中,統計數據也受到黨風、社會風氣、法律氛圍和各種秩序的影響,因此統計部門無法完全控制統計誤差.如統計源頭數據或者原始憑證是財務核算或業務核算的數據,在這個環節出現誤差,光靠統計部門是遠遠不夠的.
5.統計誤差與投入的人力、財力密切相關.現在上級統計部門動不動增加統計調查任務,根本不考慮基層的承受能力,導致數據質量嚴重下滑,統計職業道德有「淪喪」的危險,所謂「車到山前必有路」、「越難統計越好做」都說明了這些.
6.在統計工作中應有估計的合法地位.我們在推行抽樣調查過程中,一般都採用點估計,實際是利用樣本均值來推算,這本身就有代表性誤差,應該在誤差控制范圍允許做適當的調整,以保證歷史數據的平滑.在統計守法方面,往往政府統計部門及其統計人員可能是最大的違法者,在日常統計工作中有大量的估計成份,如基層報不齊需要估報,基層數據不符合邏輯需要調整等,這些都得不到統計法律、法規的保障,還好統計部門在守法和執法既是運動員又是裁判員.因此,統計工作中應在科學、規范的基礎上允許進行必要的估計,並在《統計法》上明確給予綜合統計部門這一權利.
7.統計部門要有科學的態度,不能做數字游戲,不要褻瀆《統計法》賦予的「權威」.一是對每一項工作不能敷衍了事,要有求真務實的精神和精品意識,當前普查工作過多過濫的嫌疑,數據質量也不高,基層政府財政苦不堪言,而普查數據對當地經濟建設或者決策的作用卻不大;二是不能在人力、財力和物力不許可的情況下,不能層層布置落實新統計項目,如鄉鎮一級計算國內生產總值;三是要善用抽樣調查,有些地方為考核鄉鎮政績,每一個鄉鎮整群抽取10戶農戶登記(不超過總體1%)計算農民純收入,顯然代表性誤差非常大,人為作假更為方便;四是基層政府統計部門的人員配置只能應付數據採集、處理任務,對社會經濟運行的分析研究不是統計部門的優勢,要揚長避短,不要顧此失彼,如果沒有準確的統計數據,就不可能有高質量的統計分析,若只是數據文字化則本身就是徒勞.
8.要關注「富瞞窮虛」的統計現象.不少富裕地區沒有完善全面反映社會經濟的發展情況,反映總量指標時瞞的成分非常大,美言「留有餘地」,而且在反映增長速度時大搞「橡皮筋」游戲,有很好的伸縮力,想緩速度少報幾個單位,想加快速度多挖潛幾個單位;而窮的、經濟基礎比較薄弱的地區,有強烈的「趕超」意識,千方百計地利用統計上的「盲點」,提高經濟總量及其發展速度.如無法詳盡搜集到統計資料的限額以上工業總產值、農業總產值等大做文章,來料加工產品按全值計算等.
三、統計部門在縮小統計誤差中的應有作為
1.統計設計中必須對登記誤差有要補救措施,建立所謂「測謊」系統.源頭數據質量問題統計部門往往把責任推給受調查者,有無能為力之感.如農業普查採取逐戶登記的辦法進行,農戶往不往不能或不敢如實申報,多數應該是少報,而我們在實際普查過程中,事後質量抽查實質是為了「測謊」,可惜很多普查機構對這一環節重視不夠,面上調查完成後有大功告成的感覺,對這一階段工作敷衍了事,不敢揭露問題,不深入開展工作,往往得到的誤差幾乎為零,使這一環節氣扎扎實實走過場,得到結果可想而知,如農普的畜牧生產情況數據與原來的統計數據甚遠,究竟哪個為准都沒有說服力.在抽樣調查方案設計中,也應建立「測謊」系統,否則調查誤差始終是統計數據質量的「瓶頸」. 「 測謊」系統要建立必要指標體系和評價方法,要廣泛使用數理統計中的假設檢驗方法.
2.必須有完善的指標體系及其計算方法.目前在總結國民經濟核算體系中就速度問題的計算方法重視不夠,五花八門,無所適從.而且到目前為止是繼續採用過去一起沿用的不變價方法,還採用價格指數剔除法都不很明確,甚至專業統計和綜合平衡統計計算方法截然不同,甚至省和市一級的計算方法也不同,公布的速度也不一樣,造成不良的社會影響.
3.在抽樣調查工作中,上下應該採取不同的樣本,對總體單位較少的總體不宜採用抽樣調查.上下採用同一樣本最容易受到人為的干擾,特別是統計部門為了保持數據的延續性所作各種「技術性」調整.抽樣調查在國家一級和省一級大面積推廣積極作用不容質疑,但在地市一級、縣級進行就不是「一抽就靈」, 如某縣在商飲抽樣調查中,抽3-5單位推算全縣的飲食業零售額,其誤差和人為因素就可想而知.因此,統計部門要在對總體分析的基礎分析再選擇調查方法.
4.在統計體制上必須進行徹底的變革.國家、省一級的正常統計任務今後應以三支調查作為其調查骨幹,不應再採取逐級上報的方式.市、縣及以上統計機構的統計任務以為當地黨政領導決策服務為主,統計基本內容可統一,但要賦予更大的主動權.
5.加大統計執法力度,保證源頭數據的准確性.基層統計部門今後應在加強統計信息工程建設的基礎上從數據採集的圈圈中跳出來,重點加大統計執法檢查,對弄虛作假的單位要堅決嚴肅查處,在立法上罰款數額應該大幅增加,以威懾統計違法者,逐步建立全社會的統計誠信體系

⑵ 兩組數據樣本量較少,計算出來的相關系數以及顯著性系數有沒有參考性

如果不顯著的話,意義不大。

相關系數是最早由統計學家卡爾·皮爾遜設計的統計指標,是研究變數之間線性相關程度的量,一般用字母r表示。由於研究對象的不同,相關系數有多種定義方式,較為常用的是皮爾遜相關系數。

相關表和相關圖可反映兩個變數之間的相互關系及其相關方向,但無法確切地表明兩個變數之間相關的程度。相關系數是用以反映變數之間相關關系密切程度的統計指標。相關系數是按積差方法計算,同樣以兩變數與各自平均值的離差為基礎,通過兩個離差相乘來反映兩變數之間相關程度;著重研究線性的單相關系數。

需要說明的是,皮爾遜相關系數並不是唯一的相關系數,但是最常見的相關系數,以下解釋都是針對皮爾遜相關系數。

依據相關現象之間的不同特徵,其統計指標的名稱有所不同。如將反映兩變數間線性相關關系的統計指標稱為相關系數(相關系數的平方稱為判定系數);將反映兩變數間曲線相關關系的統計指標稱為非線性相關系數、非線性判定系數;將反映多元線性相關關系的統計指標稱為復相關系數、復判定系數等。

⑶ 51.la後台統計數據和百度統計數據不一致,是什麼原因

1. 在正常情況下,不同統計工具由於採用的演算法不同,往往會出現一定的數據差異。
2. 網路統計在幾個常見的免費統計工具中,其統計的數據量通常相對較少。
3. 如果您需要對站點的流量進行詳細分析,可能需要安裝多個統計工具。
4. 然而,這樣做可能會導致頁面打開速度變慢,需要您根據實際情況進行權衡。

⑷ 寫論文如何應對樣本數據太少的問題

在撰寫論文時,如果遇到樣本數據太少的情況,可以採取以下策略來妥善處理:
明確研究目的和范圍:首先,需要清晰地界定研究的目的和范圍。這有助於解釋為什麼有限的樣本數量是合理的。例如,在某些定性研究或案例研究中,深入分析少數樣本可能比大量樣本的淺層分析更有價值。
使用適當的統計方法:在樣本量較小的情況下,應選擇適合小樣本數據分析的統計方法。例如,可以使用精確概率測試、貝葉斯分析或者非參數統計方法等。
增加樣本數據的多樣性:盡量確保每個樣本都能提供豐富的信息。通過選擇具有代表性的案例,可以提高有限樣本的有效性。
透明化樣本選擇過程:詳細描述樣本選擇的標准和過程,以便讀者理解樣本的代表性和局限性。
討論樣本量的限制:在論文中明確討論樣本量小可能帶來的限制和潛在的偏差風險,以及這些限制對研究結果的影響。
考慮合並數據:如果可能,可以考慮與其他研究者合作,合並相似研究的數據以增加樣本量。
進行敏感性分析:通過敏感性分析來評估樣本量變化對研究結果的影響,以驗證結論的穩健性。
強調質量而非數量:在分析和討論部分,強調每個樣本提供的深度和質量,而不是數量。
提出未來研究方向:建議未來的研究可以如何擴大樣本量,以提高研究的可靠性和普遍性。
使用專家意見和文獻支持:在分析和討論中,引用專家意見和相關文獻來支持你的發現,即使樣本量有限。
考慮使用替代數據源:如果可能,考慮使用其他數據源(如公共數據集、先前的研究數據等)來補充你的樣本數據。
採用多方法論:結合定性和定量方法,使用多種數據源和技術來增強研究的深度和廣度。
總之,處理論文中樣本數據太少的情況需要謹慎和透明的方法論,以及對研究限制的坦誠討論。通過上述策略,可以在有限的樣本數據基礎上,盡可能得出有效和可信的研究結論。

閱讀全文

與統計數據較少會有什麼問題相關的資料

熱點內容
平頂山寵物市場在哪裡 瀏覽:623
食品代理商如何做好 瀏覽:285
外匯交易要學會哪些技術 瀏覽:658
什麼市場下載的游戲內存很小 瀏覽:486
手機技術含量最高的是什麼企業 瀏覽:321
直通車代理需要什麼 瀏覽:229
國家什麼時間放開信息壟斷 瀏覽:856
咔咔酸奶有哪些產品 瀏覽:190
微信群信息時間間隔多久顯示 瀏覽:408
如何使用stc下載程序 瀏覽:686
vivoxplay5用什麼數據線 瀏覽:17
德國先進技術有哪些 瀏覽:672
炒股三成技術是什麼意思 瀏覽:392
有數據如何做分析圖 瀏覽:519
雙方交易受益怎麼處理 瀏覽:790
如何運用已有數據進行創新 瀏覽:379
蘋果跟安卓怎麼互導數據 瀏覽:327
單位人事代理人員工資怎麼樣 瀏覽:164
數據准確性的可接受標準是什麼 瀏覽:445
家電智聯產品有哪些 瀏覽:11