『壹』 【數學建模演算法】(29)數據的統計描述和分析(上)
數理統計 研究的對象是受隨機因素影響的數據,以下數理統計就簡稱統計,統計是以概率論為基礎的一門應用學科。
數據樣本少則幾個,多則成千上萬,人們希望能用少數幾個包含其最多相關信息的數值來體現數據樣本總體的規律。描述性統計就是搜集、整理、加工和分析統計數據,使之系統化、條理化,以顯示出數據資料的趨勢、特徵和數量關系。它是統計推斷的基礎,實用性較強,在統計工作中經常使用。
面對一批數據如何進行描述與分析,需要掌握 參數估計 和 假設檢驗 這兩個數理統計的最基本方法。
我們將用 Matlab 的統計工具箱(Statistics Toolbox)來實現數據的統計描述和分析。
一組數據(樣本)往往是雜亂無章的,做出它的頻數表和直方圖,可以看作是對這組數據的一個初步整理和直觀描述。
將數據的取值范圍劃分為若干個區間,然後統計這組數據在每個區間中出現的次數,稱為 頻數 ,由此得到一個頻數表。以數據的取值為橫坐標,頻數為縱坐標,畫出一個階梯形的圖,稱為 直方圖 ,或 頻數分布圖 。
若樣本容量不大,能夠手工做出頻數表和直方圖,當樣本容量較大時則可以藉助Matlab這樣的軟體了。讓我們以下面的例子為例,介紹頻數表和直方圖的作法。
(1)數據輸入
數據輸入通常有兩種方法,一種是在交互環境中直接輸入,如果在統計中數據量比較大,這樣作不太方便;另一種辦法是先把數據寫入一個純文本數據文件data.txt中,數據列之間用空格和Tab鍵分割,之後以data.txt為文件名存放在某個子目錄下,用Matlab中的load命令讀入數據,具體做法是:
先把txt文件移入Matlab的工作文件夾中,之後在Matlab命令行或腳本中輸入:
這樣就在內存中建立了一個變數data它是一個包含有 個數據的矩陣。
為了得到我們需要的100個身高和體重均為一列的數據,我們對矩陣做如下處理:
(2)作頻數表及其直方圖
求頻數用hist函數實現,其用法是:
得到數組(行列均可) 的頻數表。它將區間 等分為 份(預設時 為10), 返回 個小區間的頻數, 返回 個小區間的中點。
同樣的一個函數名hist還可以用來畫出直方圖。
對於本例的數據,可以編寫如下程序畫出數據的直方圖。
得直方圖如下:
下面我們介紹幾種常用的統計量。
算術平均值 (簡稱均值)描述數據取值的平均位置,記作 ,
中位數 是將數據由小到大排序後位於中間位置的那個數值。
Matlab 中 mean(x)返回 x 的均值,median(x)返回中位數。
標准差 定義為:
它是各個數據與均值偏離程度的度量,這種偏離不妨稱為 變異 。
方差 是標准差的平方 。
極差 是 的最大值與最小值之差。
Matlab 中 std(x)返回 x 的標准差,var(x)返回方差,range(x)返回極差。
你可能注意到標准差 s 的定義(2)中,對 的平方求和卻被 除,這是出於無偏估計的要求。若需要改為被 除,Matlab 可用 std(x,1)和 var(x,1)來實現。
隨機變數 的 階 中心距 為 。
隨機變數 的 偏度 和 峰度 指的是 的標准化變數 的三階中心矩和四階中心矩:
偏度反映分布的對稱性, 稱為右偏態,此時數據位於均值右邊的比位於左邊的多; 稱為左偏態,情況相反;而 接近 0 則可認為分布是對稱的。
峰度是分布形狀的另一種度量,正態分布的峰度為 3,若 比 3 大得多,表示分布有沉重的尾巴,說明樣本中含有較多遠離均值的數據,因而峰度可以用作衡量偏離正態分布的尺度之一。
Matlab 中 moment(x,order)返回 x 的 order 階中心矩,order 為中心矩的階數。skewness(x)返回 x 的 偏度 ,kurtosis(x)返回 峰度 。
在以上用 Matlab 計算各個統計量的命令中,若 x 為矩陣,則作用於 x 的列,返回一個行向量。
對例1給出的學生身高和體重,用Matlab 計算這些統計量,程序如下:
統計量中最重要、最常用的是均值和標准差,由於樣本是隨機變數,它們作為樣本的函數自然也是隨機變數,當用它們去推斷總體時,有多大的可靠性就與統計量的概率分布有關,因此我們需要知道幾個重要分布的簡單性質。
隨機變數的特性完全由它的(概率)分布函數或(概率)密度函數來描述。設有隨機變數 ,其分布函數定義為 的概率,即 。若 是連續型隨機變數,則其密度函數 與 的關系為:
上 分位數是下面常用的一個概念,其定義為:對於 ,使某分布函數 的 ,稱為這個分布的上 分位數,記作 。
我們前面畫過的直方圖是頻數分布圖,頻數除以樣本容量 ,稱為頻率, 充分大時頻率是概率的近似,因此直方圖可以看作密度函數圖形的(離散化)近似。
正態分布可以說是最常見的(連續型)概率分布,成批生產時零件的尺寸,射擊中彈著點的位置,儀器反復量測的結果,自然界中一種生物的數量特徵等,多數情況下都服從正態分布,這不僅是觀察和經驗的總結,而且有著深刻的理論依據, 即在大量相互獨立的、作用差不多大的隨機因素影響下形成的隨機變數,其極限分布為正態分布 。
鑒於正態分布的隨機變數在實際生活中如此地常見,記住下面 3 個數字是有用的:
若 為相互獨立的、服從標准正態分布 的隨機變數,則它們的平方和 服從 分布,記作 , 稱為自由度,它的期望 ,方差 。
若 ,且相互獨立,則 服從 分布,記作 稱自由度。
分布的密度函數曲線和 曲線形狀相似。理論上 時, ,實際上當 時它與 就相差無幾了。
若 ,且相互獨立,則 服從 分布,記作 稱自由度。
Matlab統計工具箱中有27種概率分布,這里只對上面所述4中分布列出命令的字元:
工具箱對每一種分布都提供五類函數,其命令的字元是:
當需要一種分布的某一種函數時,將以上所列的分布命令字元與函數命令字元接起來,並輸入自變數(可以是標量、數組或矩陣)和參數就行了,如:
設總體 , 為一容量 的樣本,其均值 和標准差 由式(1),(2)確定,則用 和 構造的下面兩個分布在統計中是非常有用的。
或
設有兩個總體 和 ,及由容量分別為 的兩個樣本確定的均值 和標准差 ,則:
其中:
且要求
『貳』 什麼是數據分析
數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,將它們加以匯總和理解並消化,以求最大化地開發數據的功能,發揮數據的作用。數據分析是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。
數據分析目的:
數據分析的目的是把隱藏在一大批看來雜亂無章的數據中的信息集中和提煉出來,從而找出所研究對象的內在規律。在實際應用中,數據分析可幫助人們做出判斷,以便採取適當行動。數據分析是有組織有目的地收集數據、分析數據,使之成為信息的過程。
這一過程是質量管理體系的支持過程。在產品的整個壽命周期,包括從市場調研到售後服務和最終處置的各個過程都需要適當運用數據分析過程,以提升有效性。例如設計人員在開始一個新的設計以前,要通過廣泛的設計調查,分析所得數據以判定設計方向,因此數據分析在工業設計中具有極其重要的地位。
『叄』 問卷調查,「數據分析」具體指什麼
數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中,數據分析可幫助人們作出判斷,以便採取適當行動。
數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。
(3)數學什麼叫統計數據分析擴展閱讀
數據分析有極廣泛的應用范圍。典型的數據分析可能包含以下三個步:
1、探索性數據分析:當數據剛取得時,可能雜亂無章,看不出規律,通過作圖、造表、用各種形式的方程擬合,計算某些特徵量等手段探索規律性的可能形式,即往什麼方向和用何種方式去尋找和揭示隱含在數據中的規律性。
2、模型選定分析,在探索性分析的基礎上提出一類或幾類可能的模型,然後通過進一步的分析從中挑選一定的模型。
3、推斷分析:通常使用數理統計方法對所定模型或估計的可靠程度和精確程度作出推斷。
參考資料來源:網路-數據分析
『肆』 什麼是數據統計
1、統計數據是統計工作活動過程中所取得的反映國民經濟和社會現象的數字資料以及與之相聯系的其他資料的總稱。
2、統計數據是表示某一地理區域自然經濟要素特徵、規模,結構、水平等指標的數據。是定性、定位和定量統計分析的基礎數據。表達形式有統計表格和統計地圖兩種。按表示方法分為:①分區統計。即用圖形的面積或同樣圖形的個數,代表所在區劃單元內全部同類現象的總和;②分級統計。即以統計圖形式按行政區劃或經濟區劃分級,以不同深淺的顏色或疏密不等的暈線、暈點表示現象相對指標的差異;③定位統計。以統計圖表形式表示某一點上的特種現象和變化規律。