❶ 探索性數據分析之缺失值檢測與處理
查看一下數據(數據集已處理為pandas.dataframe)
如果發現有缺失值要對缺失值進行分析,輸出每個列丟失值也即值為NaN的數據和,並從多到少排序
統計缺失值的比例
處理缺失值時根據缺失值的具體情況有兩種策略
可以選擇忽略有缺失特徵的列。
在缺失的行數比較少的情況下應僅僅忽略出現缺失的那幾行
使用特殊值來填補缺失值,特殊值的選取需要根據情況來判斷。
sklearn的Imputer類提供了補全缺失值的基本策略:
❷ 數據分析中的缺失值處理
數據分析中的缺失值處理
沒有高質量的數據,就沒有高質量的數據挖掘結果,數據值缺失是數據分析中經常遇到的問題之一。當缺失比例很小時,可直接對缺失記錄進行舍棄或進行手工處理。但在實際數據中,往往缺失數據佔有相當的比重。這時如果手工處理非常低效,如果舍棄缺失記錄,則會丟失大量信息,使不完全觀測數據與完全觀測數據間產生系統差異,對這樣的數據進行分析,你很可能會得出錯誤的結論。
造成數據缺失的原因
現實世界中的數據異常雜亂,屬性值缺失的情況經常發全甚至是不可避免的。造成數據缺失的原因是多方面的:
信息暫時無法獲取。例如在醫療資料庫中,並非所有病人的所有臨床檢驗結果都能在給定的時間內得到,就致使一部分屬性值空缺出來。
信息被遺漏。可能是因為輸入時認為不重要、忘記填寫了或對數據理解錯誤而遺漏,也可能是由於數據採集設備的故障、存儲介質的故障、傳輸媒體的故障、一些人為因素等原因而丟失。
有些對象的某個或某些屬性是不可用的。如一個未婚者的配偶姓名、一個兒童的固定收入狀況等。
有些信息(被認為)是不重要的。如一個屬性的取值與給定語境是無關。
獲取這些信息的代價太大。
系統實時性能要求較高。即要求得到這些信息前迅速做出判斷或決策。
對缺失值的處理要具體問題具體分析,為什麼要具體問題具體分析呢?因為屬性缺失有時並不意味著數據缺失,缺失本身是包含信息的,所以需要根據不同應用場景下缺失值可能包含的信息進行合理填充。下面通過一些例子來說明如何具體問題具體分析,仁者見仁智者見智,僅供參考:
「年收入」:商品推薦場景下填充平均值,借貸額度場景下填充最小值;
「行為時間點」:填充眾數;
「價格」:商品推薦場景下填充最小值,商品匹配場景下填充平均值;
「人體壽命」:保險費用估計場景下填充最大值,人口估計場景下填充平均值;
「駕齡」:沒有填寫這一項的用戶可能是沒有車,為它填充為0較為合理;
」本科畢業時間」:沒有填寫這一項的用戶可能是沒有上大學,為它填充正無窮比較合理;
「婚姻狀態」:沒有填寫這一項的用戶可能對自己的隱私比較敏感,應單獨設為一個分類,如已婚1、未婚0、未填-1。
缺失的類型
在對缺失數據進行處理前,了解數據缺失的機制和形式是十分必要的。將數據集中不含缺失值的變數稱為完全變數,數據集中含有缺失值的變數稱為不完全變數。從缺失的分布來將缺失可以分為完全隨機缺失,隨機缺失和完全非隨機缺失。
完全隨機缺失(missing completely at random,MCAR):指的是數據的缺失是完全隨機的,不依賴於任何不完全變數或完全變數,不影響樣本的無偏性。如家庭地址缺失。
隨機缺失(missing at random,MAR):指的是數據的缺失不是完全隨機的,即該類數據的缺失依賴於其他完全變數。例如財務數據缺失情況與企業的大小有關。
非隨機缺失(missing not at random,MNAR):指的是數據的缺失與不完全變數自身的取值有關。如高收入人群的不原意提供家庭收入。
對於隨機缺失和非隨機缺失,刪除記錄是不合適的,隨機缺失可以通過已知變數對缺失值進行估計;而非隨機缺失還沒有很好的解決辦法。
說明:對於分類問題,可以分析缺失的樣本中,類別之間的比例和整體數據集中,類別的比例
缺失值處理的必要性
數據缺失在許多研究領域都是一個復雜的問題。對數據挖掘來說,預設值的存在,造成了以下影響:
系統丟失了大量的有用信息;
系統中所表現出的不確定性更加顯著,系統中蘊涵的確定性成分更難把握;
包含空值的數據會使挖掘過程陷入混亂,導致不可靠的輸出。
數據挖掘演算法本身更致力於避免數據過分擬合所建的模型,這一特性使得它難以通過自身的演算法去很好地處理不完整數據。因此,預設值需要通過專門的方法進行推導、填充等,以減少數據挖掘演算法與實際應用之間的差距。
缺失值處理方法的分析與比較
處理不完整數據集的方法主要有三大類:刪除元組、數據補齊、不處理。
刪除元組
也就是將存在遺漏信息屬性值的對象(元組,記錄)刪除,從而得到一個完備的信息表。這種方法簡單易行,在對象有多個屬性缺失值、被刪除的含缺失值的對象與初始數據集的數據量相比非常小的情況下非常有效,類標號缺失時通常使用該方法。
然而,這種方法卻有很大的局限性。它以減少歷史數據來換取信息的完備,會丟棄大量隱藏在這些對象中的信息。在初始數據集包含的對象很少的情況下,刪除少量對象足以嚴重影響信息的客觀性和結果的正確性;因此,當缺失數據所佔比例較大,特別當遺漏數據非隨機分布時,這種方法可能導致數據發生偏離,從而引出錯誤的結論。
說明:刪除元組,或者直接刪除該列特徵,有時候會導致性能下降。
數據補齊
這類方法是用一定的值去填充空值,從而使信息表完備化。通常基於統計學原理,根據初始數據集中其餘對象取值的分布情況來對一個缺失值進行填充。數據挖掘中常用的有以下幾種補齊方法:
人工填寫(filling manually)
由於最了解數據的還是用戶自己,因此這個方法產生數據偏離最小,可能是填充效果最好的一種。然而一般來說,該方法很費時,當數據規模很大、空值很多的時候,該方法是不可行的。
特殊值填充(Treating Missing Attribute values as Special values)
將空值作為一種特殊的屬性值來處理,它不同於其他的任何屬性值。如所有的空值都用「unknown」填充。這樣將形成另一個有趣的概念,可能導致嚴重的數據偏離,一般不推薦使用。
平均值填充(Mean/Mode Completer)
將初始數據集中的屬性分為數值屬性和非數值屬性來分別進行處理。
如果空值是數值型的,就根據該屬性在其他所有對象的取值的平均值來填充該缺失的屬性值;
如果空值是非數值型的,就根據統計學中的眾數原理,用該屬性在其他所有對象的取值次數最多的值(即出現頻率最高的值)來補齊該缺失的屬性值。與其相似的另一種方法叫條件平均值填充法(Conditional Mean Completer)。在該方法中,用於求平均的值並不是從數據集的所有對象中取,而是從與該對象具有相同決策屬性值的對象中取得。
這兩種數據的補齊方法,其基本的出發點都是一樣的,以最大概率可能的取值來補充缺失的屬性值,只是在具體方法上有一點不同。與其他方法相比,它是用現存數據的多數信息來推測缺失值。
熱卡填充(Hot deck imputation,或就近補齊)
對於一個包含空值的對象,熱卡填充法在完整數據中找到一個與它最相似的對象,然後用這個相似對象的值來進行填充。不同的問題可能會選用不同的標准來對相似進行判定。該方法概念上很簡單,且利用了數據間的關系來進行空值估計。這個方法的缺點在於難以定義相似標准,主觀因素較多。
K最近距離鄰法(K-means clustering)
先根據歐式距離或相關分析來確定距離具有缺失數據樣本最近的K個樣本,將這K個值加權平均來估計該樣本的缺失數據。
使用所有可能的值填充(Assigning All Possible values of the Attribute)
用空缺屬性值的所有可能的屬性取值來填充,能夠得到較好的補齊效果。但是,當數據量很大或者遺漏的屬性值較多時,其計算的代價很大,可能的測試方案很多。
組合完整化方法(Combinatorial Completer)
用空缺屬性值的所有可能的屬性取值來試,並從最終屬性的約簡結果中選擇最好的一個作為填補的屬性值。這是以約簡為目的的數據補齊方法,能夠得到好的約簡結果;但是,當數據量很大或者遺漏的屬性值較多時,其計算的代價很大。
回歸(Regression)
基於完整的數據集,建立回歸方程。對於包含空值的對象,將已知屬性值代入方程來估計未知屬性值,以此估計值來進行填充。當變數不是線性相關時會導致有偏差的估計。
期望值最大化方法(Expectation maximization,EM)
EM演算法是一種在不完全數據情況下計算極大似然估計或者後驗分布的迭代演算法。在每一迭代循環過程中交替執行兩個步驟:E步(Excepctaion step,期望步),在給定完全數據和前一次迭代所得到的參數估計的情況下計算完全數據對應的對數似然函數的條件期望;M步(Maximzation step,極大化步),用極大化對數似然函數以確定參數的值,並用於下步的迭代。演算法在E步和M步之間不斷迭代直至收斂,即兩次迭代之間的參數變化小於一個預先給定的閾值時結束。該方法可能會陷入局部極值,收斂速度也不是很快,並且計算很復雜。
多重填補(Multiple Imputation,MI)
多重填補方法分為三個步驟:
為每個空值產生一套可能的填補值,這些值反映了無響應模型的不確定性;每個值都被用來填補數據集中的缺失值,產生若干個完整數據集合。
每個填補數據集合都用針對完整數據集的統計方法進行統計分析。
對來自各個填補數據集的結果進行綜合,產生最終的統計推斷,這一推斷考慮到了由於數據填補而產生的不確定性。該方法將空缺值視為隨機樣本,這樣計算出來的統計推斷可能受到空缺值的不確定性的影響。該方法的計算也很復雜。
C4.5方法
通過尋找屬性間的關系來對遺失值填充。它尋找之間具有最大相關性的兩個屬性,其中沒有遺失值的一個稱為代理屬性,另一個稱為原始屬性,用代理屬性決定原始屬性中的遺失值。這種基於規則歸納的方法只能處理基數較小的名詞型屬性。
就幾種基於統計的方法而言,刪除元組法和平均值法差於熱卡填充法、期望值最大化方法和多重填充法;回歸是比較好的一種方法,但仍比不上hot deck和EM;EM缺少MI包含的不確定成分。值得注意的是,這些方法直接處理的是模型參數的估計而不是空缺值預測本身。它們合適於處理無監督學習的問題,而對有監督學習來說,情況就不盡相同了。譬如,你可以刪除包含空值的對象用完整的數據集來進行訓練,但預測時你卻不能忽略包含空值的對象。另外,C4.5和使用所有可能的值填充方法也有較好的補齊效果,人工填寫和特殊值填充則是一般不推薦使用的。
不處理
補齊處理只是將未知值補以我們的主觀估計值,不一定完全符合客觀事實,在對不完備信息進行補齊處理的同時,我們或多或少地改變了原始的信息系統。而且,對空值不正確的填充往往將新的雜訊引入數據中,使挖掘任務產生錯誤的結果。因此,在許多情況下,我們還是希望在保持原始信息不發生變化的前提下對信息系統進行處理。
不處理缺失值,直接在包含空值的數據上進行數據挖掘的方法包括貝葉斯網路和人工神經網路等。
貝葉斯網路提供了一種自然的表示變數間因果信息的方法,用來發現數據間的潛在關系。在這個網路中,用節點表示變數,有向邊表示變數間的依賴關系。貝葉斯網路僅適合於對領域知識具有一定了解的情況,至少對變數間的依賴關系較清楚的情況。否則直接從數據中學習貝葉斯網的結構不但復雜性較高(隨著變數的增加,指數級增加),網路維護代價昂貴,而且它的估計參數較多,為系統帶來了高方差,影響了它的預測精度。
人工神經網路可以有效的對付缺失值,但人工神經網路在這方面的研究還有待進一步深入展開。
知乎上的一種方案:
4.把變數映射到高維空間。比如性別,有男、女、缺失三種情況,則映射成3個變數:是否男、是否女、是否缺失。連續型變數也可以這樣處理。比如Google、網路的CTR預估模型,預處理時會把所有變數都這樣處理,達到幾億維。這樣做的好處是完整保留了原始數據的全部信息、不用考慮缺失值、不用考慮線性不可分之類的問題。缺點是計算量大大提升。
而且只有在樣本量非常大的時候效果才好,否則會因為過於稀疏,效果很差。
總結
大多數數據挖掘系統都是在數據挖掘之前的數據預處理階段採用第一、第二類方法來對空缺數據進行處理。並不存在一種處理空值的方法可以適合於任何問題。無論哪種方式填充,都無法避免主觀因素對原系統的影響,並且在空值過多的情形下將系統完備化是不可行的。從理論上來說,貝葉斯考慮了一切,但是只有當數據集較小或滿足某些條件(如多元正態分布)時完全貝葉斯分析才是可行的。而現階段人工神經網路方法在數據挖掘中的應用仍很有限。值得一提的是,採用不精確信息處理數據的不完備性已得到了廣泛的研究。不完備數據的表達方法所依據的理論主要有可信度理論、概率論、模糊集合論、可能性理論,D-S的證據理論等。
❸ 數據缺失值不能超過多少
超過百分之一就很多了,如果缺失很嚴重可以嘗試使用我們免費開源的的缺失值補值軟體MetImp,包括了根據缺失值所佔比例對變數進行篩選,以及隨機缺失(RF, SVD, kNN, Mean, Median)和非隨機缺失(GSimp, QRILC, HM, Zero, Binary)的各種補值方法。我覺得,如果變數與變數之間有關聯、可以相互預測(比如說家庭年收入和教育程度),或者缺失的原因是低於最低檢測限,等等原因,那麼還是可以找方法去補值的,關鍵是弄清楚缺失的原因,找到得當的方法。
❹ spss分析方法-缺失值分析
spss 分析方法 - 缺失值分析
缺失值可能會導致嚴重的問題。如果帶有缺失值的個案與不帶缺失值的個案有著根本的不同,則結果將被誤導。此外,缺失的數據還可能降低所計算的統計量的精度,因為計算時的信息比原計劃的信息要少。
另一個問題是, 很多統計過程背後的假設都基於完整的個案,而缺失值可能使所需的理論復雜化。
下面我們主要從下面四個方面來解說:
[if !supportLineBreakNewLine]
[endif]
實際應用
理論思想
建立模型
[if !supportLineBreakNewLine]
[endif]
分析結果
[if !supportLineBreakNewLine]
[endif]
一、實際應用
[if !supportLineBreakNewLine]
[endif]
眾所周知,在諸如收入、交通事故等問題的研究中,因為被調查者拒絕回答或者由於調查研究中的損耗,會存在一些未回答的問題。
例如在一次人口調查中,15%的人沒有回答收入情況,高收入者的回答率比中等收入者要低,或者在嚴重交通事故報告中,諸如是否使用安全帶和酒精濃度等關鍵問題在很多個案中都沒有記錄,這些缺失的個案值便是缺失值。缺失值主要表現為以下3種: (1)完全隨機缺失(Missing Completely At Random,MCAR),表示缺失和變數的取值無關。 例如,假設在研究年齡和收入的關系,如果缺失的數據和年齡或收入數值無關,則缺失值方式為MCAR。要評估MCAR是否為站得住腳的假設,可以通過比較回答者和未回答者的分布來評估觀察數據。也可以使用單變數t-檢驗或Little's MCAR多變數檢驗來進行更正規的評估。如果MCAR假設為真,可以使用列表刪除(listwise deletion)(完整個案分析),無須擔心估計偏差,盡管可能會喪失一些有效性。如果MCAR不成立,列表刪除、均值置換等逼近方法就可能不是好的選擇。 (2)隨機缺失(Missing At Random,MAR) , 缺失分布中調查變數只依賴於數據組中有記錄的變數。 繼續上面的例子,考慮年齡全部被觀察,而收入有時有缺失,如果收入缺失值僅依賴於年齡,缺失值就為MAR。 (3)非隨機缺失。 這是研究者最不願意看到的情形,數據的缺失不僅和其他變數的取值有關,也和自身有關。如果收入缺失值依賴於收入值,則既不是MCAR,也不是MAR。
[if !supportLineBreakNewLine]
[endif]
二、理論思想
SPSS主要對MCAR和MAR兩種缺失值情況進行分析。
區別MCAR和MAR的含義在於:由於MCAR實際上很難遇到,應該在進行調查之前就考慮哪些重要變數可能會有非無效的未回答,還要盡量在調查中包括共變數,以便用這些變數來估算缺失值。
[if !supportLineBreakNewLine]
[endif]
針對不同情況的缺失值,SPSS操作給出了以下3種處理方法:
( 1 )刪除缺失值, 這種方法適用於缺失值非常少的時候,它不需要專門的步驟,通常在相應的分析對話框的「選項」子對話框中進行設置。
( 2 )替換缺失值 ,利用「轉換」菜單中的「替換缺失值」命令將所有的記錄看成一個序列,然後採用某種指標對缺失值進行填充。
( 3 )缺失值分析過程 ,缺失值分析過程是SPSS專門針對缺失值分析而提供的模塊。
缺失值分析過程有以下3個主要功能: ( 1 )描述缺失值的模式。 通過缺失值分析的診斷報告,用戶可以明確地知道缺失值所在位置及其出現的比例是多少,還可以推斷缺失值是否為隨機缺失等。 ( 2 )利用列表法、成對法、回歸法或 EM (期望最大化)法等為含缺失值的數據估算平均值、標准誤差、協方差和相關性,成對法還可顯示成對完整個案的計數。( 3 )使用回歸法或 EM 法用估算值填充(插補)缺失值,以此提高統計結果的可信度。 缺失數據可以是分類數據或定量數據(刻度或連續),盡管如此,SPSS只能為定量變數估計統計數據並插補缺失數據。對於每個變數,必須將未編碼為系統缺失值的缺失值定義為用戶缺失值。舍爾判別法利用投影的方法使多維問題簡化為一維問題來處理。其通過建立線性判別函數計算出各個觀測量在各典型變數維度上的坐標並得出樣本距離各個類中心的距離,以此作為分類依據。
[if !supportLineBreakNewLine]
[endif]
[if !supportLineBreakNewLine]
[endif]
三、建立模型
缺失值分析案例:
[if !supportLineBreakNewLine]
[endif]
題目:下表的某些人口統計數據值已被缺失值替換。該假設數據文件涉及某電信公司在減少客戶群中的客戶流失方面的舉措,每個個案對應一個單獨的客戶,並記錄各類人口統計和服務用途信息。下面將結合本數據文件詳細說明如何得到數據文件的缺失值,從而認識SPSS的缺失值分析過程。
一、數據輸入
二、操作步驟 1、進入SPSS,打開相關數據文件,「分析」|「缺失值分析」命令2、選擇「婚姻狀況[marital]」「受教育水平[ed]」「退休[retire]」及「性別[gender]」4個變數進入「分類變數」列表框;選擇「服務月數[tenure]」「年齡[age]」「在現住址居住年數[address]」「家庭收入(千)[income]」「現職位工作年數[employ]」及「家庭人數[reside]」6個變數進入「定量變數」列表框。
3、在「缺失值分析」對話框中單擊「模式」按鈕,彈出「缺失值分析:模式」對話框,選中「顯示」選項組中的「個案表(按缺失值模式分組)」復選框,從「以下對象的缺失模式」列表框中選中income、ed、retire和gender 4個變數進入「以下對象的附加信息」列表框中。
其他採用默認設置。設置完畢後,單擊「繼續」按鈕,回到「缺失值分析」對話框。
4、單擊「描述」按鈕,彈出「缺失值分析:描述」對話框。選中「單變數統計」復選框及「指示符變數統計」選項組中的「使用由指示符變數構成的組執行t檢驗」和「生成分類變數和指示符變數的交叉表」復選框,其他採用默認設置。
5、勾選EM,其餘設置採用系統默認值即可。單擊「確定」按鈕,等待輸出結果。
[if !supportLineBreakNewLine]
[endif]
四、結果分析
1、單變數統計表下表給出了所有分析變數未缺失數據的頻數、平均值和標准差,同時給出了缺失值的個數和百分比以及極值的統計信息。通過這些信息,我們可以初步了解數據的概貌特徵,以employ一欄為例,employ變數的有效數據有904個,它們的平均值為11,標准差為10.113,缺失數據有96個,占數據總數的比例為9.6%,有15個極大值。
2、估算表下兩個表使用EM法進行缺失值的估算後,總體數據的均值和標准差的變化情況,其中「所有值」為原始數據的統計特徵,EM為使用EM法後總體數據的統計特徵。
3
、獨立方差t檢驗表獨立方差t測試結果,用戶可以從中找出影響其他定量變數的變數的缺失值模式, 即通過單個方差 t 統計量結果,檢驗缺失值是否為完全隨機缺失。 可以看出,年齡大的人傾向於不報告收入水平,當收入值缺失時,age的均值是49.73,當收入值完整時,age的均值為40.01。通過income一欄的t統計量可以看出,income的缺失將明顯影響其他定量變數,這就說明income的缺失不是完全隨機缺失。
4、分類變數和定量變數交叉表以marital為例給出了分類變數與其他定量變數間的交叉表。該表給出了在不同婚姻情況下,各分類變數非缺失的個數和百分比,以及各種缺失值的個數和百分比,圖中標識了系統缺失值的取值,以及各變數在不同婚姻情況中的分布情況。
5、表格模式輸出結果下表給出了表格模式輸出結果(缺失值樣式表),它給出了缺失值分布的詳細信息,X為使用該模式下缺失的變數。由圖可以看出,所有顯示的950個個案中,9個變數值都完整的個案數有475個,缺失income值的個案有109個,同時缺失address和income值的個案有16個,其他數據的解釋類似。
6、EM估算統計表下面三個表給出了EM演算法的相關統計量,包括EM平均值、協方差和相關性。從EM平均值輸出結果中可知,age變數的平均值為41.91,從EM協方差輸出結果中可知,age和tenture間的協方差值為135.326,從EM相關性輸出結果中可知,age與tenture的相關系數為0.496。另外,從三個表格下方的 利特爾的MCAR檢驗可知,卡方檢驗的顯著性值明顯小於0.05,因此,我們拒絕了缺失值為完全隨機缺失(MCAR)的假設 ,這也驗證了3、獨立方差t檢驗表所得到的結論。
[if !supportLineBreakNewLine]
[endif]
參考案例數據:
[if !supportLineBreakNewLine]
[endif]
[if !supportLists]【1】 [endif]spss統計分析從入門到精通 (第四版) 楊維忠,陳勝可,劉榮 清華大學出版社
(獲取更多知識,前往gz號程式解說)
原文來自https://mp.weixin.qq.com/s/CsMIoA_vu8HJoPvW16oNFg
❺ 上市公司數據缺失值超過多少數據就不能用了
上市公司數據缺失值超過10%數據就不能用了。缺失值是指粗糙數據中由於缺少信息而造成的數據的聚類,分組,刪失或截斷。指的是現有數據集中某個或某些屬性的值是不完全的。
❻ spss 怎麼設置缺失值
1、我們使用SPSS做數據分析的時候,有時會因為問卷的設置或者數據的保存等原因,造成用於分析的數據部分缺失。我們分析數據前,需要先解決缺失數據問題,在再做分析。
❼ 問卷缺填率達到多少是不能用於分析
SPSS分析調查問卷數據的方法
當我們的調查問卷在把調查數據拿回來後,我們該做的工作就是用相關的統計軟體進行處理,在此,我們以spss為處理軟體,來簡要說明一下問卷的處理過程,它的過程大致可分為四個過程:定義變數﹑數據錄入﹑統計分析和結果保存.下面將從這四個方面來對問卷的處理做詳細的介紹.
Spss處理:
第一步:定義變數
大多數情況下我們需要從頭定義變數,在打開SPSS後,我們可以看到和excel相似的界面,在界面的左下方可以看到Data View, Variable View兩個標簽,只需單擊左下方的Variable View標簽就可以切換到變數定義界面開始定義新變數。在表格上方可以看到一個變數要設置如下幾項:name(變數名)、type(變數類型)、width(變數值的寬度)、decimals(小數位) 、label(變數標簽) 、Values(定義具體變數值的標簽)、Missing(定義變數缺失值)、Colomns(定義顯示列寬)、Align(定義顯示對齊方式)、Measure(定義變數類型是連續、有序分類還是無序分類).
我們知道在spss中,我們可以把一份問卷上面的每一個問題設為一個變數,這樣一份問卷有多少個問題就要有多少個變數與之對應,每一個問題的答案即為變數的取值.現在我們以問卷第一個問題為例來說明變數的設置.為了便於說明,可假設此題為:
1.請問你的年齡屬於下面哪一個年齡段( )?
A:20—29 B:30—39 C:40—49 D:50--59
那麼我們的變數設置可如下: name即變數名為1,type即類型可根據答案的類型設置,答案我們可以用1、2、3、4來代替A、B、C、D,所以我們選擇數字型的,即選擇Numeric, width寬度為4,decimals即小數位數位為0(因為答案沒有小數點),label即變數標簽為「年齡段查詢」。Values用於定義具體變數值的標簽,單擊Value框右半部的省略號,會彈出變數值標簽對話框,在第一個文本框里輸入1,第二個輸入20—29,然後單擊添加即可.同樣道理我們可做如下設置,即1=20—29、2=30—39、3=40—49、4=50--59;Missing,用於定義變數缺失值, 單擊missing框右側的省略號,會彈出缺失值對話框, 界面上有一列三個單選鈕,默認值為最上方的「無缺失值」;第二項為「不連續缺失值」,最多可以定義3個值;最後一項為「缺失值范圍加可選的一個缺失值」,在此我們不設置預設值,所以選中第一項如圖;Colomns,定義顯示列寬,可自己根據實際情況設置;Align,定義顯示對齊方式,有居左、居右、居中三種方式;Measure,定義變數類型是連續、有序分類還是無序分類。
以上為問卷中常見的單項選擇題型的變數設置,下面將對一些特殊情況的變數設置也作一下說明.
1.開放式題型的設置:諸如你所在的省份是_____這樣的填空題即為開放題,設置這些變數的時候只需要將Value 、Missing兩項不設置即可.
2.多選題的變數設置:這類題型的設置有兩種方法即多重二分法和多重分類法,在這里我們只對多重二分法進行介紹.這種方法的基本思想是把該題每一個選項設置成一個變數,然後將每一個選項拆分為兩個選項項,即選中該項和不選中該項.現在舉例來說明在spss中的具體操作.比如如下一例:
請問您通常獲取新聞的方式有哪些( )
1 報紙 2 雜志 3 電視 4 收音機 5 網路
在spss中設置變數時可為此題設置五個變數,假如此題為問卷第三題,那麼變數名分別為3_1、3_2、3_3、3_4、3_5,然後每一個選項有兩個選項選中和不選中,只需在Value一項中為每一個變數設置成1=選中此項、0=不選中此項即可.
使用該窗口,我們可以把一個問卷中的所有問題作為變數在這個窗口中一次定義。
到此,我們的定義變數的工作就基本上可以結束了.下面我們要作就是數據的錄入了.首先,我們要回到數據錄入窗口,這很簡單,只要我們點擊軟體左下方的Data View標簽就可以了.
第二步:數據錄入
Spss數據錄入有很多方式,大致有一下幾種:
1.讀取SPSS格式的數據
2.讀取Excel等格式的數據
3.讀取文本數據(Fixed和Delimiter)
4.讀取資料庫格式數據(分如下兩步)
(1)配置ODBC (2)在SPSS中通過ODBC和資料庫進行
但是對於問卷的數據錄入其實很簡單,只要在spss的數據錄入窗口中直接輸入就可以了,只是在這里有幾點注意的事項需要說明一下.
1. 在數據錄入窗口,我們可以看到有一個表格,這個表格中的每一行代表一份問卷,我們也稱為一個個案.
2. 在數據錄入窗口中,我們可以看到表格上方出現了1、2、3、4、5…….的標簽名,這其實是我們在第一步定義變數中,我們為問卷的每一個問題取的變數名,即1代表第一題,2代表第二題.以次類推.我們只需要在變數名下面輸入對應問題的答案即可完成問卷的數據錄入.比如上述年齡段查詢的例題,如果問卷上勾選了A答案,我們在1下面輸入1就行了(不要忘記我們通常是用1、2、3、4來代替A、B、C、D的).
3.我們知道一行代表一份問卷,所以有幾分問卷,就要有幾行的數據.
在數據錄入完成後,我們要做的就是我們的關鍵部分,即問卷的統計分析了,因為這時我們已經把問卷中的數據錄入我們的軟體中了.
第三步:統計分析
有了數據,可以利用SPSS的各種分析方法進行分析,但選擇何種統計分析方法,即調用哪個統計分析過程,是得到正確分析結果的關鍵。這要根據我們的問卷調查的目的和我們想要什麼樣的結果來選擇.SPSS有數值分析和作圖分析兩類方法.
1.作圖分析:
在SPSS中,除了生存分析所用的生存曲線圖被整合到Analyze菜單中外,其他的統計繪圖功能均放置在graph菜單中。該菜單具體分為以下幾部分::
(1)Gallery:相當於一個自學向導,將統計繪圖功能做了簡單的介紹,初學者可以通過它對SPSS的繪圖能力有一個大致的了解。
(2)Interactive:互動式統計圖。
(3)Map:統計地圖。
(4)下方的其他菜單項是我們最為常用的普通統計圖,具體來說有:
條圖
散點圖
線圖
直方圖
餅圖
面積圖
箱式圖
正態Q-Q圖
正態P-P圖
質量控制圖
Pareto圖
自回歸曲線圖
高低圖
交互相關圖
序列圖
頻譜圖
誤差線圖
作圖分析簡單易懂,一目瞭然,我們可根據需要來選擇我們需要作的圖形,一般來講,我們較常用的有條圖,直方圖,正態圖,散點圖,餅圖等等,具體操作很簡單,大家可參閱相關書籍,作圖分析更多情況下是和數值分析相結合來對試卷進行分析的,這樣的效果更好.
2.數值分析:
SPSS 數值統計分析過程均在Analyze菜單中,包括:
(1)、Reports和Descriptive Statistics:又稱為基本統計分析.基本統計分析是進行其他更深入的統計分析的前提,通過基本統計分析,用戶可以對分析數據的總體特徵有比較准確的把握,從而選擇更為深入的分析方法對分析對象進行研究。Reports和Descriptive Statistics命令項中包括的功能是對單變數的描述統計分析。
Descriptive Statistics包括的統計功能有:
Frequencies(頻數分析):作用:了解變數的取值分布情況
Descriptives(描述統計量分析):功能:了解數據的基本統計特徵和對指定的變數值進行標准化處理
Explore(探索分析):功能:考察數據的奇異性和分布特徵
Crosstabs(交叉分析):功能:分析事物(變數)之間的相互影響和關系
Reports包括的統計功能有:
OLAP Cubes(OLAP報告摘要表):功能: 以分組變數為基礎,計算各組的總計、均值和其他統計量。而輸出的報告摘要則是指每個組中所包含的各種變數的統計信息。
Case Summaries(觀測量列表):察看或列印所需要的變數值
Report Summaries in Row:行形式輸出報告
Report Summaries in Columns:列形式輸出報告
(2)、Compare Means(均值比較與檢驗):能否用樣本均值估計總體均值?兩個變數均值接近的樣本是否來自均值相同的總體?換句話說,兩組樣本某變數均值不同,其差異是否具有統計意義?能否說明總體差異?這是各種研究工作中經常提出的問題。這就要進行均值比較。
以下是進行均值比較及檢驗的過程:
MEANS過程:不同水平下(不同組)的描述統計量,如男女的平均工資,各工種的平均工資。目的在於比較。術語:水平數(指分類變數的值數,如sex變數有2個值,稱為有兩個水平)、單元Cell(指因變數按分類變數值所分的組)、水平組合
T test 過程:對樣本進行T檢驗的過程
單一樣本的T檢驗:檢驗單個變數的均值是否與給定的常數之間存在差異。
獨立樣本的T檢驗:檢驗兩組不相關的樣本是否來自具有相同均值的總體(均值是否相同,如男女的平均收入是否相同,是否有顯著性差異)
配對T檢驗:檢驗兩組相關的樣本是否來自具有相同均值的總體(前後比較,如訓練效果,治療效果)
one-Way ANOVA:一元(單因素)方差分析,用於檢驗幾個(三個或三個以上)獨立的組,是否來自均值相同的總體。
(3)、ANOVA Models(方差分析):方差分析是檢驗多組樣本均值間的差異是否具有統計意義的一種方法。例如:醫學界研究幾種葯物對某種疾病的療效;農業研究土壤、肥料、日照時間等因素對某種農作物產量的影響;不同飼料對牲畜體重增長的效果等,都可以使用方差分析方法去解決
(4)、Correlate(相關分析):它是研究變數間密切程度的一種常用統計方法,常用的相關分析有以下幾種:
1、線性相關分析:研究兩個變數間線性關系的程度。用相關系數r來描述。
2、偏相關分析:它描述的是當控制了一個或幾個另外的變數的影響條件下兩個變數間的相關性,如控制年齡和工作經驗的影響,估計工資收入與受教育水平之間的相關關系
3、相似性測度:兩個或若干個變數、兩個或兩組觀測量之間的關系有時也可以用相似性或不相似性來描述。相似性測度用大值表示很相似,而不相似性用距離或不相似性來描述,大值表示相差甚遠
(5)、Regression(回歸分析):功能:尋求有關聯(相關)的變數之間的關系在回歸過程中包括:Liner:線性回歸;Curve Estimation:曲線估計;Binary Logistic:二分變數邏輯回歸;Multinomial Logistic:多分變數邏輯回歸;Ordinal 序回歸;Probit:概率單位回歸;Nonlinear:非線性回歸;Weight Estimation:加權估計;2-Stage Least squares:二段最小平方法;Optimal Scaling最優編碼回歸;其中最常用的為前面三個.
(6)、Nonparametric Tests(非參數檢驗):是指在總體不服從正態分布且分布情況不明時,用來檢驗數據資料是否來自同一個總體假設的一類檢驗方法。由於這些方法一般不涉及總體參數故得名。
非參數檢驗的過程有以下幾個:
1.Chi-Square test 卡方檢驗
2.Binomial test 二項分布檢驗
3.Runs test 遊程檢驗
4.1-Sample Kolmogorov-Smirnov test 一個樣本柯爾莫哥洛夫-斯米諾夫檢驗
5.2 independent Samples Test 兩個獨立樣本檢驗
6.K independent Samples Test K個獨立樣本檢驗
7.2 related Samples Test 兩個相關樣本檢驗
8.K related Samples Test 兩個相關樣本檢驗
(7)、Data Rection(因子分析)
(8)、Classify(聚類與判別)等等
以上就是數值統計分析Analyze菜單下幾項用於分析的數值統計分析方法的簡介,在我們的變數定義以及數據錄入完成後,我們就可以根據我們的需要在以上幾種分析方法中選擇若干種對我們的問卷數據進行統計分析,來得到我們想要的結果.
第四步:結果保存
我們的spss軟體會把我們統計分析的多有結果保存在一個窗口中即結果輸出窗口(output),由於spss軟體支持復制和粘貼功能,這樣我們就可以把我們想要的結果復制﹑粘貼到我們的報告中,當然我們也可以在菜單中執行file->save來保存我們的結果,一般情況下,我們建議保存我們的數據,結果可不保存.因為只要有了數據,如果我們想要結果的,我們可以隨時利用數據得到結果.
總結:
以上便是spss處理問卷的四個步驟,四個步驟結束後,我們需要spss軟體做的工作基本上也就結束了,接下來的任務就是寫我們的統計報告了.值得一提的是.spss是一款在社會統計學應用非常廣泛的統計類軟體,學好它將對我們以後的工作學習產生很大的意義和作用.
SPSS的問卷分析中一份問卷是一個案,首先要根據問卷問題的不同定義變數。定義變數值得注意的兩點:一區分變數的度量,Measure的值,其中Scale是定量、Ordinal是定序、Nominal是指定類;二 注意定義不同的數據類型Type
各色各樣的問卷題目的類型大致可以分為單選、多選、排序、開放題目四種類型,他們的變數的定義和處理的方法各有不同,我們詳細舉例介紹如下:
1 單選題:答案只能有一個選項
例一 當前貴組織機構是否設有面向組織的職業生涯規劃系統?
A有 B 正在開創 C沒有 D曾經有過但已中斷
編碼:只定義一個變數,Value值1、2、3、4分別代表A、B、C、D 四個選項。
錄入:錄入選項對應值,如選C則錄入3
2 多選題:答案可以有多個選項,其中又有項數不定多選和項數定多選。
(1)方法一(二分法):
例二 貴處的職業生涯規劃系統工作涵蓋哪些組群?畫鉤時請把所有提示
考慮在內。
A月薪員工 B日薪員工 C鍾點工
編碼:把每一個相應選項定義為一個變數,每一個變數Value值均如下定義:「0」 未選,「1」 選。
錄入:被調查者選了的選項錄入1、沒選錄入0,如選擇被調查者選AC,則三個變數分別錄入為1、0、1。
(2)方法二:
例三 你認為開展保持黨員先進性教育活動的最重要的目標是那三項:
1( ) 2 ( ) 3( )
A、提高黨員素質 B、加強基層組織 C、堅持發揚民主
D、激發創業熱情 E、服務人民群眾 F、促進各項工作
編碼:定義三個變數分別代表題目中的1、2、3三個括弧,三個變數Value值均同樣的以對應的選項定義,即:「1」 A,「2」B,「3」 C,「4」 D,「5」 E,「6」 F
錄入:錄入的數值1、2、3、4、5、6分別代表選項ABCDEF,相應錄入到每個括弧對應的變數下。如被調查者三個括弧分別選ACF,則在三個變數下分別錄入1、3、6。
註:能用方法二編碼的多選題也能用方法編碼,但是項數不定的多選只能用二分法,即方法一是多選題一般處理方法。
3 排序題: 對選項重要性進行排序
例四 您購買商品時在 ①品牌 ②流行 ③質量 ④實用 ⑤價格 中對它們的關注程度先後順序是(請填代號重新排列)
第一位 第二位 第三位 第四位 第五位
編碼:定義五個變數,分別可以代表第一位 第五位,每個變數的Value都做如下定義:「1」 品牌,「2」 流行,「3」 質量,「4」 實用,「5」 價格
錄入:錄入的數字1、2、3、4、5分別代表五個選項,如被調查者把質量排在第一位則在代表第一位的變數下輸入「3「。
4 選擇排序題:
例五 把例三中的問題改為「你認為開展保持黨員先進性教育活動的最重
的目標是那三項,並按重要性從高到低排序」,選項不變。
編碼:以ABCDEF6個選項分別對應定義6個變數,每個變數的Value都做同樣的如下定義:「1」 未選,「2」 排第一,「3」 排第二,「4」 排第三。
錄入:以變數的Value值錄入。比如三個括弧里分別選的是 ECF,則該題的6個變數的值應該分別錄入:1(代表A選項未選)、1、 3(代表C選項排在第二)、1、2、4。
註:該方法是對多選題和排序題的方法結合的一種方法,對一般排序題(例四)也同樣適用,只是兩者用的分析方法不同(例四用頻數分析、例五用描述分析),輸出結果從不同的側面反映問題的重要性(前一種方法從位次從變數的頻數看排序,後一種方法從變數出發看排序)。
5 開放性數值題和量表題:這類題目要求被調查者自己填入數值,或者打分
例六 你的年齡(實歲):______
編碼:一個變數,不定義Value值
錄入:即錄入被調查者實際填入的數值。
6開放性文字題:
如果可能的話可以按照含義相似的答案進行編碼,轉換成為封閉式選項進行分析。如果答案內容較為豐富、不容易歸類的,應對這類問題直接做定性分析。
三 問卷一般性分析
下面具體介紹SPSS中問卷的一般處理方法,操作以版本spss13.0為例,以下提到的菜單項均在Analyze主菜單下
1頻數分析:Frequencies過程可以做單變數的頻數分布表;顯示數據文件中由用戶指定的變數的特定值發生的頻數;獲得某些描述統計量和描述數值范圍的統計量。
適用范圍:單選題(例一),排序題(例四),多選題的方法二(例三)
頻數分析也是問卷分析中最常用的方法。
實現: Descriptive statistics……Frequencies
2 描述分析:Descriptives:過程可以計算單變數的描述統計量。這些述統計量有平均值、算術和、標准差,最大值、最小值、方差、范圍和平均數標准誤等。
適用范圍:選擇並排序題(例五)、開放性數值題(例六)。
實現: Descriptive statistics……Descriptives,需要的統計量點擊按鈕Statistics…中選擇
3 多重反應下的頻次分析:
適用范圍:多選題的二分法(例二)
實現:第一步在Multiple Response……Define Sets把一道多選問題中定義了的所有變數集合在一起,給新的集合變數取名,在Dichotomies Counted value中輸入1。第二步在Multiple Response……Frequencies中做頻數分析。
4 交叉頻數分析:解決對多變數的各水平組合的頻數分析的問題
適用范圍:,適用於由兩個或兩個以上變數進行交叉分類形成的列聯表,對變數之間的關聯性進行分析。比如要知道不同工作性質的人上班使用交通工具的情況,可以通過交叉分析得到一個二維頻數表則一目瞭然。
實現:第一步根據分析的目的來確定交叉分析的選項,確定控制變數和解釋變數(如上例中不同工作性質的人是控制變數,使用交通工具是解釋變數)。第二步選擇Descriptive statistics……Crosstabs
四 簡單圖形描述介紹
在做上述頻數分析、描述分析等分析時就可以直接做出圖形,簡單方便,同時也可以另外作圖。SPSS的作圖功能在菜單Graphs下,功能強大,圖形清晰優美。現在把常用圖簡單介紹如下
1餅圖:又稱圓圖,是以圓的面積代表被研究對象的總體,按各構成部分佔總體比重的大小把圓面積分割成若干扇形,用以表示現象的部分對總體的比例關系的統計圖。頻數分析的結果宜用餅圖表示。
2曲線圖:是用線段的升降來說明數據變動情況的一種統計圖。它主要表示現象在時間上的變化趨勢、現象的分配情況和2個現象的依存關系等。
3面積圖:用線段下的陰影面積來強調現象變化的統計圖。
4條形圖:利用相同寬度條形的長短或高低表現統計數據大小及變化的統計圖。
五 問卷深入分析
除了以上簡單的分析,spss強大的功能還可以對問卷進行深入分析,比如常用的有聚類分析、交叉分析、因子分析、均值比分析(參數檢驗)、相關分析、回歸分析等。因為涉及到很專業的統計知識,下面只將個人覺得比較有用的方法的適用范圍和分析目的簡單做介紹:
1聚類分析
樣本聚類,可以將被調查者分類,並按照這些屬性計算各類的比例,以便明確研究所關心的群體。比如按消費特徵對被調查者的進行聚類。
2 相關分析
相關分析是針對兩變數或者多變數之間是否存在相關關系的分析方法,要根據變數不同特徵選擇不同的相關性的度量方式。問卷分析中的多數用的變數都屬於分類變數,要採用斯皮爾曼相關系數。
其中可以用卡方檢驗,其是對兩變數之間是否具有顯著性影響的分析方法
3均值的比較與檢驗
(1)Means過程:對指定變數綜合描述分析,分組計算計算均值再比較。比如可以按性別變數分為男和女來研究二者收入是否存在差距。
(2)T 檢驗:
獨立樣本t檢驗用於不相關的樣本是否開來自具有相同均值的總體的檢驗。比如,研究購買該產品的顧客和不購買的顧客的收入是否有明顯差異。
如果樣本不獨立則要用配對t檢驗。比如研究參加職業培訓後 工作效率是否提高。
4 回歸分析
問卷分析中的回歸分析常採用的是用離散回歸模型,一般是邏輯斯蒂模型,解釋一個變數對另一變數的影響具體有多大。比如,研究對某商品的消費受收入的影響程度。