1. 數據分析之描述性分析
SPSS的模塊按功能可以分為三部分:描述性分析、推斷性分析、探索性分析。
1.描述性分析主要是對所收集的數據進行分析,得出反映客觀現象的各種數量特徵的一種分析方法,它包括數據的集中趨勢分析、數據離散程度分析、數據的頻數分布分析等,描述性分析是對數據進一步分析的基礎。
2.推斷性分析是研究如何根據樣本數據來推斷總體樣本數量特徵,它是在對樣本數據進行描述統計分析的基礎上,對研究總體的數量特徵做出推斷。常見的分析方法有假設檢驗、相關分析、回歸分析、時間序列分析等方法。
3.探索性分析主要是通過一些分析方法從大量的數據中發現未知且有價值信息的過程,它不受研究假設和分析模型的限制,盡可能地尋找變數之間的關聯性。常見的分析方法有聚類分析、因子分析、對應分析等方法。
頻率分析主要通過頻數分布表、條形圖和直方圖,以及集中趨勢和離散趨勢的各種統計量來描述數據的分布特徵,以便我們隊數據的分布特徵形成初步的認識,才能發現隱含在數據背後的信息,為後續數據分析提供方向和依據。
頻率分析包括分類變數的頻率分析和連續變數的頻率分析。在SPSS里都採用頻率表來做頻率分析。對於連續變數數據的分析,描述的統計量包括百分位值、集中趨勢、離散趨勢和數據分布特徵。
1.百分位值
百分位值主要用於對連續變數數據離散程度的測量,常用的百分位值是四分位數。它是將變數中的數據從小到大排序後,用三個數據點將數據分為四等份,與這三個點相對應的數值稱為四分位數。由於是等分整個數據,這三個數據點分別位於數據的25%(第一四分位數)、50%(第二四分位數,也就是常用的中位數)和75%(第三四分位數)的位置。
2.集中趨勢
集中趨勢反映了數據向其中心值聚集的程度,是對數據一般水平的概括性度量,主要通過平均值、中位數和眾數來表示。
3.離散趨勢
離散趨勢反映了數據遠離中心值的程度,是衡量集中趨勢值對整個數據的代表程度。數據的離散度越大,說明集中趨勢值的代表性越低;反之,數據的離散程度越接近於0,說明集中趨勢值的代表性越高。數據的離散程度主要通過范圍、標准差和方差來表示。
4.分布特徵
對於連續變數,在樣本量較大的情況下,研究若你有會提出假設,認為數據應當服從某種分布,每種分布都可以採用一系列的指標來描述數據離散分布的程度。在圖形的顯示上,對於分類數據,如果需要了解數據分布,則可以選擇條形圖;如果需要了解數據結構,則選擇餅圖;而對於連續數據,選擇直方圖。
條形圖和直方圖的區別:
(1)條形圖用於展示分類數據,直方圖用於展示連續數據;
(2)條形圖是用條形的長度表示各類別頻數的多少,直方圖是用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或頻率,寬度表示各組的組距;
(3)直方圖分組數據具有連續性,所以直方圖的各矩形通常是連續排列的,而條形圖表示分類數據,則是分開排列;
描述分析與頻率分析的不同之處在於:
(1)描述分析提供的統計量僅適用於連續變數,頻率分析既可用於分析連續變數,也可用於分析分類變數;
(2)描述分析無相應統計圖繪制輸出,並且提供計算的統計量也相對較少。
但在描述性分析里可以進行Z標准化。
交叉表示一種行列交叉的分類匯總表格,行和列上至少各有一個分類變數,行和列的交叉處可以對數據進行多種匯總計算,如求和、平均值、計數等。交叉表分析是用於分析兩個或兩個以上分類變數之間的關聯關系,以交叉表格的形式進行分類變數間關系的對比分析。它的原理是從數據的不同角度綜合進行分組細分,以進一步了解數據的構成、分布特徵,它是描述分析常用方法之一。類似於EXcel的數據透視表。
頻率分析、描述分析都是對單個變數進行分析,交叉表可以對多個變數在不同取值情況下的數據分布情況進行分析。從而進一步分析變數之間的相互影響和關系。
在SPSS里,多選題也稱為多重響應集,意為使用多個變數記錄答案,其中每個個案可以給出多個答案。
多選題數據錄入的方式有兩種:二分法和多重分類法。
(1)二分法:把每一個相應選項定義為一個變數,每一個變數值均做這樣的定義——「0」代表未選,「1」代表選中,即對於被調查者選中的選項錄入1,對未選的選項錄入0。
(2)多重分類法:事先定義錄入的數值,比如1,2,3,4,5分別代表選項A、B、C、D、E,並且根據多選題限選的項數確定應錄入的變數個數。例如限選3項,那麼需要設立3個變數,如果調查者在該題選ACD,則在3個變數下分別錄入1、3、4。
在通常情況下,如果多選題沒有限定選項個數,並且選項個數不多時,可以採用二分法錄入。如果對選項的個數加以限定,則改用多重分類法進行錄入。
常見的表格類型有疊加表、交叉表和嵌套表。
(1)疊加表
同一張表中有多個同類變數的描述分析結果,可以簡單地理解為對每個變數分別做同樣的分析,然後將結果拼接在一起。
(2)交叉表
它是一種行列交叉的分類匯總表格,行和列上至少各有一個分類變數,行和列的交叉處可以對數據進行多種匯總計算,如計數、百分比、求和、平均值等。
(3)嵌套表
它是指多個變數放置在同一個表格維度中,也就是說,分析維度是由兩個及以上變數的各種類別組合而成的。嵌套表主要應用在需要展現較多的統計指標時,能夠使結果更為美觀和緊湊。
我的博客即將搬運同步至騰訊雲+社區,邀請大家一同入駐:https://cloud.tencent.com/developer/support-plan?invite_code=16uhfxjtsalsw
2. 什麼是描述性分析
描述性分析是社會調查統計分析的第一個步驟,對調查所得的大量數據資料進行初步的整理和歸納,以找出這些資料的內在規律——集中趨勢和分散趨勢。主要藉助各種數據所表示的統計量,如均數、百分比等,進行單因素分析。
事實證明,僅靠百分比或平均差是不能完全反映客觀事物的本質的,僅僅對一個樣本進行分析也是不夠的。這個樣本是否能夠反映其總體的特徵,還需要進行推斷性分析。
描述性分析的目的
1、描述某個有關群體的特徵;
2、估計某個群體中某種行為方式的發生比率;
3、測量有關產品的知識、偏好與滿意度;
4、確定不同營銷變數之間的關系;
5、進行預測。
3. 數據分析中描述性分析的數據都反應的是什麼內容
描述性分析主要作用是對數據有一個整體概覽,因此常用的指標是平均值、最大值、最小值、眾數、中位數、標准差;平均值可以體現整體的平均水平;最大值、最小值可以體現數據的范圍;眾數可以體現最經常出現的數值(這個一般較少用到);中位數可以體現居於中間位置的數據;標准差體現這一組數據波動情況,標准差越小,說明一組數據彼此越接近,標准差越大,說明一組數據內部差異越大。
4. 描述性統計分析包括哪些內容
描述性統計分析主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統計圖形。
①數據的頻數分析。在數據的預處理部分,利用頻數分析和交叉頻數分析可以檢驗異常值。
②數據的集中趨勢分析。用來反映數據的一般水平,常用的指標有平均值、中位數和眾數等。
描述性研究(descriptive study)是指利用常規檢測記錄或通過專門調查獲得的數據資料(包括實驗室檢查結果),按不同地區、不同時間及不同人群特徵進行分組,描述人群中有關疾病或健康狀態以及有關特徵和暴露因素的分布狀況,在此基礎上進行比較分析,獲得疾病三間(人群、地區、時間)分布的特徵,進而獲得病因線索,提出病因假設和線索。是流行病研究工作的起點。