⑴ 數據分析之描述性分析
SPSS的模塊按功能可以分為三部分:描述性分析、推斷性分析、探索性分析。
1.描述性分析主要是對所收集的數據進行分析,得出反映客觀現象的各種數量特徵的一種分析方法,它包括數據的集中趨勢分析、數據離散程度分析、數據的頻數分布分析等,描述性分析是對數據進一步分析的基礎。
2.推斷性分析是研究如何根據樣本數據來推斷總體樣本數量特徵,它是在對樣本數據進行描述統計分析的基礎上,對研究總體的數量特徵做出推斷。常見的分析方法有假設檢驗、相關分析、回歸分析、時間序列分析等方法。
3.探索性分析主要是通過一些分析方法從大量的數據中發現未知且有價值信息的過程,它不受研究假設和分析模型的限制,盡可能地尋找變數之間的關聯性。常見的分析方法有聚類分析、因子分析、對應分析等方法。
頻率分析主要通過頻數分布表、條形圖和直方圖,以及集中趨勢和離散趨勢的各種統計量來描述數據的分布特徵,以便我們隊數據的分布特徵形成初步的認識,才能發現隱含在數據背後的信息,為後續數據分析提供方向和依據。
頻率分析包括分類變數的頻率分析和連續變數的頻率分析。在SPSS里都採用頻率表來做頻率分析。對於連續變數數據的分析,描述的統計量包括百分位值、集中趨勢、離散趨勢和數據分布特徵。
1.百分位值
百分位值主要用於對連續變數數據離散程度的測量,常用的百分位值是四分位數。它是將變數中的數據從小到大排序後,用三個數據點將數據分為四等份,與這三個點相對應的數值稱為四分位數。由於是等分整個數據,這三個數據點分別位於數據的25%(第一四分位數)、50%(第二四分位數,也就是常用的中位數)和75%(第三四分位數)的位置。
2.集中趨勢
集中趨勢反映了數據向其中心值聚集的程度,是對數據一般水平的概括性度量,主要通過平均值、中位數和眾數來表示。
3.離散趨勢
離散趨勢反映了數據遠離中心值的程度,是衡量集中趨勢值對整個數據的代表程度。數據的離散度越大,說明集中趨勢值的代表性越低;反之,數據的離散程度越接近於0,說明集中趨勢值的代表性越高。數據的離散程度主要通過范圍、標准差和方差來表示。
4.分布特徵
對於連續變數,在樣本量較大的情況下,研究若你有會提出假設,認為數據應當服從某種分布,每種分布都可以採用一系列的指標來描述數據離散分布的程度。在圖形的顯示上,對於分類數據,如果需要了解數據分布,則可以選擇條形圖;如果需要了解數據結構,則選擇餅圖;而對於連續數據,選擇直方圖。
條形圖和直方圖的區別:
(1)條形圖用於展示分類數據,直方圖用於展示連續數據;
(2)條形圖是用條形的長度表示各類別頻數的多少,直方圖是用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或頻率,寬度表示各組的組距;
(3)直方圖分組數據具有連續性,所以直方圖的各矩形通常是連續排列的,而條形圖表示分類數據,則是分開排列;
描述分析與頻率分析的不同之處在於:
(1)描述分析提供的統計量僅適用於連續變數,頻率分析既可用於分析連續變數,也可用於分析分類變數;
(2)描述分析無相應統計圖繪制輸出,並且提供計算的統計量也相對較少。
但在描述性分析里可以進行Z標准化。
交叉表示一種行列交叉的分類匯總表格,行和列上至少各有一個分類變數,行和列的交叉處可以對數據進行多種匯總計算,如求和、平均值、計數等。交叉表分析是用於分析兩個或兩個以上分類變數之間的關聯關系,以交叉表格的形式進行分類變數間關系的對比分析。它的原理是從數據的不同角度綜合進行分組細分,以進一步了解數據的構成、分布特徵,它是描述分析常用方法之一。類似於EXcel的數據透視表。
頻率分析、描述分析都是對單個變數進行分析,交叉表可以對多個變數在不同取值情況下的數據分布情況進行分析。從而進一步分析變數之間的相互影響和關系。
在SPSS里,多選題也稱為多重響應集,意為使用多個變數記錄答案,其中每個個案可以給出多個答案。
多選題數據錄入的方式有兩種:二分法和多重分類法。
(1)二分法:把每一個相應選項定義為一個變數,每一個變數值均做這樣的定義——「0」代表未選,「1」代表選中,即對於被調查者選中的選項錄入1,對未選的選項錄入0。
(2)多重分類法:事先定義錄入的數值,比如1,2,3,4,5分別代表選項A、B、C、D、E,並且根據多選題限選的項數確定應錄入的變數個數。例如限選3項,那麼需要設立3個變數,如果調查者在該題選ACD,則在3個變數下分別錄入1、3、4。
在通常情況下,如果多選題沒有限定選項個數,並且選項個數不多時,可以採用二分法錄入。如果對選項的個數加以限定,則改用多重分類法進行錄入。
常見的表格類型有疊加表、交叉表和嵌套表。
(1)疊加表
同一張表中有多個同類變數的描述分析結果,可以簡單地理解為對每個變數分別做同樣的分析,然後將結果拼接在一起。
(2)交叉表
它是一種行列交叉的分類匯總表格,行和列上至少各有一個分類變數,行和列的交叉處可以對數據進行多種匯總計算,如計數、百分比、求和、平均值等。
(3)嵌套表
它是指多個變數放置在同一個表格維度中,也就是說,分析維度是由兩個及以上變數的各種類別組合而成的。嵌套表主要應用在需要展現較多的統計指標時,能夠使結果更為美觀和緊湊。
我的博客即將搬運同步至騰訊雲+社區,邀請大家一同入駐:https://cloud.tencent.com/developer/support-plan?invite_code=16uhfxjtsalsw