① 數據分布的描述
數據的分布描述簡單可以概括為集中趨勢、離散程度以及分布形狀等
一、集中趨勢描述的優劣比較
1.平均數
也稱為均值,常用的統計量之一
消除了觀測值的隨機波動
易受極端值的影響
數學性質優良,實際中最常用
數據對稱分布或接近對稱分布時代表性較好
2.中位數
排序後處於中間位置上的值。不受極端值影響
數據分布偏斜程度較大時代表性接好
3. 四分位數
排序後處於25%和75%位置上的值
不受極端值的影響
4. 眾數
一組數據中出現次數最多的變數值
適合於數據量較多時使用
不受極端值的影響
具有不惟一性,一組數據可能沒有眾數或有幾個眾數
數據分布偏斜程度較大且有明顯峰值時代表性較好
二、離散程度的描述
1.極差
一組數據的最大值與最小值之差
離散程度的最簡單測度值
易受極端值影響
未考慮數據的分布
2.四分位差
也稱為內距或四分間距
上四分位數與下四分位數之差
反映了中間50%數據的離散程度
不受極端值的影響
用於衡量中位數的代表性
3.方差與標准差
數據離散程度的最常用測度值
反映各變數值與均值的平均差異
根據總體數據計算的,稱為總體方差(標准差)
根據樣本數據計算的,稱為樣本方差(標准差)
4.離差
每個觀測值與均值的差異
5.標准分數
計算方式為(原始數據-均值)/標准差
對某一個值在一組數據中相對位置的度量
可用於判斷一組數據是否有離群點
用於對變數的標准化處理
均值等於0
方差等於1
只是將原始數據進行了線性變換,沒有改變某個數據在該組數據中的位置,也沒有改變該組數分布的形狀
6.離散系數
標准差與其相應的均值之比
消除了數據水平高低和計量單位的影響
用於對不同組別數據離散程度的比較
解釋需要謹慎,特別對於平均值趨近於0的樣本,此時敏感度較大
沒有置信區間
7.異眾比率
非眾數組的頻數占總頻數的比率
衡量眾數對一組數據的代表程度,異眾比率越高大,說明非眾數組占總頻數的比重越大,眾數的代表性越差
三、數據分布性狀的描述
偏態與峰態測量的是數據的形狀,如是否對稱、偏斜的程度以及扁平的程度
1.偏態
測度統計量是偏態系數
偏態系數=0為對稱分布;>0為右偏分布;<0為左偏分布
偏態系數大於1或小於-1,為高度偏態分布
偏態系數在0.5~1或-1~-0.5之間,是中等偏態分布
偏態系數越接近0,偏斜程度就越低
2.峰態
測度統計量是峰態系數
峰態系數=0扁平峰度適中
峰態系數<0為扁平分布
峰態系數>0為尖峰分布
② 數據分析2-頻數分布
頻數分布的定義:在分組的基礎上,把總體的所有單位按組歸並排列,形成總體中各個單位在各組間的分布,稱為頻數分布。又稱 分布數列 。分布數列包括兩個要素:總體按其標志所分的組和各組所分布的單位數。
統計分布是統計分析結果的一種重要表現形式,也是統計分析的一種重要方法。由於在描述性統計時、只用平均值、方差等統計時會產生數據的信息缺失、需要一些其他方法來表示樣本的實際狀況。由於其分布概率分布近似、通常可以用來推斷數列的分布情況。
社會經濟現象總體的性質不同,其次數分布的特徵也不同。各種社會經濟現象總體的次數分布,歸納起來主要有 鍾型分布 、 U型分布 、 J型分布 和 洛倫茲分布 四種類型。
鍾型分布是正態分布的俗稱,其特徵是「中間高,兩頭低」,即靠近中間的變數值分布的次數多,靠近兩邊的變數值分布的次數少,形如古鍾
在社會經濟現象中,鍾型分布多表現為對稱分布。對稱分布的特徵是中間的變數值分布的次數最多,以標志變數中心為對稱軸。兩側變數值分布的次數隨著與中心變數值距離的增大而漸次減少,並且圍繞中心變數值兩側呈對稱分布。這種分布在統計學中稱為 正態 分布 。在社會經濟現象中,許多變數的分布近似於正態分布類型。
靠近中間的變數值分布的次數少,靠近兩端的變數值分布的次數多,形成「兩頭高,中間低」的U字型分布。
在社會經濟現象中,次數隨著變數值的增加而增加,即J形分布。
在社會經濟現象中,次數隨著變數值的增加而減少,即J型分布。
洛倫茲分布曲線是美國統計學家洛倫茲( M.Lorenz)提出來的,專門用以研究社會收入分配的平等問題。
橫軸OH表示人口的累計百分仿李比,縱軸OM表示收入的累計百分比,升大運弧線OL為洛倫茲曲線。洛倫茲曲線的彎曲程度有著重要的意義,它反映了收入分配的不平等程度。彎曲程度越大,收人分配越不平等,反之亦然。
洛倫弦曲線與對角線之間的部分A 叫做「 不平等面積 」,直角三角形OHL的面積(A+B)叫做「 完全不平等面積 」。不平等面積與完全不平等面積之比,就是 基尼系數 ,也稱 集中系數 :基尼系數= A/(A+B) 。
基尼吵梁系數等於1,表示收人分配絕對不平等;基尼系數等於0,表示收人分配絕對平等。基尼系數是衡量,一個國家或地區貧富差距的標准之一。按照聯合國有關組織規定:基尼系數若低於0.2表示收人平均;0.2-0.3表示比較平均;0.3-0.4表示相對合理;0.4-0.5表示收人差距較大;0.5 以上表示收人差距懸殊。通常把0.4作為收人分配差距的「警戒線」。發達國家的基尼系數在0.26-0.38 之間,我國2013年全國居民收人的基尼系數為0.473。