㈠ 問卷調查所能用的統計方法有哪些
1. 調查的樣本量太小,計算出的結論可靠性不高。
例如看到一些研究生的論文,只發了幾十份問卷調查表,就根據統計到的百分比寫下十分肯定的結論。其實,是有問題的。
例如:調查「你對××活動喜歡的程度」,調查了45人。調查結果:非常喜歡2人,喜歡5人,一般10人,不太喜歡13人,不喜歡15人。作者統計出:喜歡和非常喜歡的共7人占調查人數45人的15.5%,不太喜歡和不喜歡的共28人,佔62.2%。並根據15.5%和62.2%來進一步寫結論。
但是,他忽略了調查的樣本計算出率以後,還應該計算率的標准誤和置信區間。如本例喜歡率為15.5%。還應該計算率的標准誤Sp。
_________ _________________
本例,喜歡率的標准誤 Sp =√P(1-P)/n = √15.5(100-15.5)/45 = 5.39 %
按樣本量n,查t值表上, n-1的t0.01和t0.05 的值,查得t0.05=2.02 , t0.01=2.69, 根據喜歡率15.5 %、標准誤5.39 % 和t0.05的值,可計算出:
95% 置信區間:15.5±2.02×5.39=4.6%~26.4%。(置信區間上下限的差值高達21.8%)。
95% 置信區間的含義是,如果用樣本的喜歡率15.5%來估計總體的喜歡率時,有95%的可能是在4.6%~26.4%的區間之間。這樣高達21.8%的區間意味著15.5%是不太可信的。
但是,如果擴大樣本量到450人,4500人,而統計出的喜歡率也是15.5%。由於調查的樣本量擴大了,標准誤 Sp會縮小,計算出的95% 置信區間也就縮小為12.2%~18.8%和14.4%~16.6%。這時用樣本率估計總體率時,上下限的差值很接近15.5%,才是可信的。
2. 調查數據的統計分析過於簡單。
目前看到的調查數據統計分析大都比較簡單。只是計算各個問卷指標的百分比,如上面舉例的喜歡率15.5%等等。
要避免統計分析過於簡單,首先,在做調查表設計時,就事先要考慮好調查數據的統計分析方法。例如同樣是調查「你對××活動喜歡的程度」,除了要擴大調查樣本量外,在調查表中增加調查性別和年齡。這樣就可以採用一種較為復雜的方法——交叉分析。交叉分析是分析「年齡」、 「性別」和「對××活動喜歡程度」三個變數之間的關系。假設不分類統計時,喜歡率是15.5%。交叉分析後就會發現由於性別的不同,年齡段的不同喜歡率是不同的。
例如:2005年國民體質監測問卷調查中,對「睡眠時間」的統計分析,如果只是簡單地計算某市成年男子2473人的問卷,只能統計出:睡眠6小時以下的人為13.4%,睡眠6~9小時的73.6%,睡眠9小時以上的13%。但是,如果增加年齡因素,分年齡段進行統計就可以看到,各年齡段的百分比是不同的(統計表略)。利用分年齡段的百分比還可以畫出折線圖(圖略)。從圖上更可以清楚的顯示出:隨著年齡增加,睡眠時間逐漸減少的趨勢。
上述統計分析方法比較簡單。但是,僅靠簡單的統計方法來處理問卷調查數據是十分可惜的,因為大量的數據信息還沒有充分利用。所以,設計問卷時,就應該注意到,讓收集到的調查數據能做多因素統計分析(如:回歸分析,因子分析等)。下面是我幫助或指導有關單位做過的統計分析實例:
例1:2005年國民體質監測的調查問卷內容中,包括了各人的文化程度,職業,工作、生活和體育鍛煉等方面的許多問題。為了分析這些調查內容和各人的體質有什麼關系,找出哪些因素對體質的好壞特別有關?在進行統計分析時,就需要把體質監測的指標和問卷調查的內容聯系起來進行統計。
在成年組調查問卷內容中可進行計算的12個問題是:受教育程度,職業,平均每周工作時間,平均每天睡眠時間,睡眠質量,平均每天步行時間,平均每天坐姿活動時間,吸煙狀況,運動感受,平均每周鍛煉次數,平均每次鍛煉時間,堅持鍛煉時間。把這些作為X1, X2, ……X12,再把每個人體質監測中的體質總分作為Y,就可以進行逐步回歸分析計算。
某省成年男甲組4242人的數據用逐步回歸分析計算結果是:從12個指標中依次選出了X 1 (受教育程度),X12 (堅持鍛煉時間), X10(平均每周鍛煉次數),X7(平均每天坐姿活動時間) 4個指標。得到回歸方程:
Y = 21.85+ 1.02 X 1 -0.20 X7+ 0.34 X10 + 0.28 X12 F=101.92 (P<0.01)
復相關系數 R= 0.296
根據回歸方程的系數就可以知道:受教育程度高,平均每周鍛煉次數多,堅持鍛煉時間長,平均每天坐姿活動時間少的人體質總分就高。反之就低。而這個結論只做一般的調查表百分比統計,是得不到的。
例2:某市開展《超重與肥胖人群運動與營養綜合干預實驗研究》12周後,對參加者進行了問卷調查,內容有:每天進餐情況(分為:五分飽,八分飽,十分飽),每周快走次數(分為:3次以下,3次,4次,5次及以上),每次快走時間(分為:30分鍾以內,30~60分鍾,60~90分鍾,90分鍾以上),每次快走距離(分為:3公里以下,3~4公里,5公里及以上)等。
如果僅統計各個問卷內容的百分比,只能計算出如:每次快走時間30分鍾以內的29人佔22.1%,30~60分鍾的47人佔35.9%,60~90分鍾的19人佔14.5%,90分鍾以上的36人佔27.5% 等等,這樣的統計結果並不能說明什麼問題。更無法分析出哪些是對減肥有效果的因素。
但是,把問卷調查的內容與參加12周實驗後各人體重下降值聯系起來統計,情況就不同了。如可以分別計算出:每周快走次數、每次快走時間等指標與體重下降值的相關系數。當計算出以上指標都和體重下降值呈中度或低度相關時,還可以進一步用回歸分析的方法計算出標准回歸系數或偏回歸平方和來分析各指標對體重下降的作用大小。
本例有131人參加實驗,為了用數學表達式來描述:飲食、運動量和降體重的關系。把調查表內容轉換成數字後,選擇了X1(每天進餐情況)、X2(每周快走次數)、X3(每次快走距離)與Y(體重下降值)計算出三元回歸方程:
Y= 1.26-1.30 X1 +0.59 X2 +1.70 X3 F =13.855 (P<0.01)
復相關系數 R = 0.4966
從回歸方程可以看到,在吃八分飽的情況下,增加每周快走次數和每次快走距離,降體重的效果更好。
可見,當採用了多元回歸分析方法後,可以充分利用調查表裡的信息從而獲得比簡單的統計百分比更多的研究結果。
例3:某市對學生體質下降原因進行調研時,設計的調查表內容包括:學生、家長、學校等方面30多項指標。為了分析調查的各指標對學生身體素質影響的主次關系,從調查表中選出可進行因子分析計算的26個指標進行了R型因子分析計算。
R型因子分析通過計算,可找出控制著所有指標的幾個主要因素。計算後,原來的許多指標重新組合成較少的幾個新的綜合指標──公因子。這些公因子相互獨立而且反映了原來指標的絕大部分信息。通過R型因子分析的結果,可以看出哪些指標是同一類的,每一個指標以哪一公因子為主,其他公因子所佔比例如何,從而分析該指標的特點。還可根據貢獻率較大的幾個公因子中所包括的指標,來分析出各指標的主次關系。
對3699名中學生的調查數據作R型因子分析計算後,從貢獻率最大的5個公因子所包括的調查指標看,歸入第1公因子的7個指標,都和參加體育活動有關,因此把第一公因子命名為體育活動因子,歸入第2公因子的2個指標,是反映學生家長文化水平的學歷,歸入第3公因子的2個指標,是反映學生是否關心自己體質、健康的指標,歸入第4公因子的2個指標,是反映學校是否關心和組織學生體育活動的指標,歸入第5公因子的2個指標,是反映學生家長對體育運動的態度的指標。
從而可以分析出,對學生體質影響最大的第一因素是學生參加體育活動的情況,第二因素是家長的文化水平高低,第三因素是學生自己是否關心自己的體質、健康情況。第四因素是學校是否關心和組織學生參加體育活動,第五因素是家長是否喜愛體育活動是否支持學生參加體育活動。
因子分析的優點在於用一個或少數幾個綜合指標概括原始數據中盡量多的信息,它能夠實現對問題的高度概括,並揭示出一般的特徵和規律。本例通過因子分析的統計方法,從學生填在26個調查問卷中的信息,分析出了對學生體質影響的幾個主要因素。