導航:首頁 > 數據處理 > 數據的分類方法有哪些

數據的分類方法有哪些

發布時間:2022-04-18 13:13:55

1. 數據分析有哪些分類

​按數據分析面對的問題不同分類:戰略、運營

戰略分析:是為了解決公司戰略方向問題,回答要向哪裡去的問題。

此類分析通常比較宏觀,需要分析者有大局觀、有戰略思維;

所用的數據除了公司內部的數據,還需要競品數據、行業數據。

戰略分析的方法:需要從競品及行業數據中發現行業發展趨勢及競品的戰略定位,同時結合公司內部數據,可以發現相對於行業和競品發展,內部在哪些地方存在不足,以此制定進攻和防守策略

運營分析:不同於戰略分析,運營分析以解決實際運營問題為目標,比較微觀。

需要分析者對公司業務模式、運營細節有深入的了解;

使用的數據以公司內部數據為主。

此類分析最重要的是,分析結果要能夠與運營結合,並能有效落地

按數據分析服務的部門不同分類:業務、數據

業務分析:此類分析由業務部門發起,提交給分析師執行,最終結果交付給業務部門。此類分析一般在最終的價值發現環節效率較高,問題的針對性較強。

數據分析:此類分析由數據部門發起,最終結果視具體情況可能提高給業務部門或者管理層。由於此類分析的視角不同於業務分析,在最終的價值發現和實現環節需要與業務部門的深入溝通。同時,也正是由於視角不同,會經常發現業務部門沒有發現或者忽視的問題。

數據分析按分析的范圍不同分類:行業、公司、部門、業務環節

行業分析:目的是總結和預測整個行業的過去和未來的發展趨勢,時間窗口一般在1年以上。使用場景較多的是在投資公司中或者很多公司的市場宣傳稿中會出現。行業分析的對象是商業模式或者業務形態,關注的是資金、市場格局、用戶需求的變化和各企業的應對。最有價值和最難的是要提前預測行業的增長爆發點和衰退的轉折點。

公司分析:目的是結合行業分析對公司業務發展做出診斷,給公司發展提供決策建議。時間窗口一般在一年以內,在公司戰略決策會發揮較大的作用。SWOT等方法適合在公司分析中使用。分析者首先要認清企業的商業模式,要與公司的管理者同步公司的短期和長期目標,了解企業的盈利來源和運作方式,通過公司內外部數據的對比發現運營中的問題和商機。在這個過程中,了解市場和競品的動態是非常重要的。

部門分析:目的是對部門職能范圍內的業務發展做出正確的診斷並給出適當的建議。前提是能充分理解部門在整個公司中的角色和地位、該部門與其他部門的協作關系、在工作流程中的上下游關系。基於以上理解,以配合公司業務發展為目的,以提升部門KPI或某個關鍵任務為分析目標,利用公司和部門運營數據去做分析。此類分析中,理解公司業務、有產品和業務思維很重要,指標的分解、對比,數據變化的歸因往往是常用的分析方法。

業務環節分析:這是數據分析在業務最細粒度的應用。分析者只需要關注非常具體的某個業務環節,讓大家感興趣的是這個業務環節數據的變化原因和改善方式。此時分析的指標經常是確定的,目標也很直接。但所謂牽一發動全身,這個環節的變化通常是由其他環節的變化引起的。所以萬萬不能走入一葉障目不見泰山的誤區。

數據分析按項目的階段不同分類:咨詢、實施

咨詢分析:以前有過跟咨詢公司合作的經歷。在項目開始階段,乙方通常需要花很多時間討論項目立項的必要性、收益等,以此來說服甲方老闆,你懂的。但是,我要說的是,即使是公司自行研發的項目,在立項階段,數據分析需要做的是樹立目標。通過數據分析,可以對業務有一個全面的診斷,發現問題,提出項目需要改善的主要指標,並預測出項目上線後的收益。立項是需要管理層批準的,因此這個階段的分析需要簡明扼要、一針見血,分析結果的呈現起著至關重要的作用。

實施分析:項目開始後,數據分析需要做的是過程式控制制。除了項目目標涉及的主要指標需要持續關注之外,還需要關注過程類指標。所謂過程類指標,是指能夠反映出項目執行內容的數據。因為主要指標的表現通常是滯後的,而且是若干因素影響的結果,過程指標是為了明確各影響因素的作用效果。比如項目目標是提升使用時長,項目內容可能包括提升新用戶和老用戶的使用時長,那麼則應該把新老用戶的時長作為指標單獨監控和分析。

2. 數據分析方法有哪些

常用的數據分析方法有:聚類分析、因子分析、相關分析、對應分析、回歸分析、方差分析。

1、聚類分析(Cluster Analysis)

聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。

2、因子分析(Factor Analysis)

因子分析是指研究從變數群中提取共性因子的統計技術。因子分析就是從大量的數據中尋找內在的聯系,減少決策的困難。因子分析的方法約有10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發抽因法、拉奧典型抽因法等等。

3、相關分析(Correlation Analysis)

相關分析(correlation analysis),相關分析是研究現象之間是否存在某種依存關系,並對具體有依存關系的現象探討其相關方向以及相關程度。

4、對應分析(Correspondence Analysis)

對應分析(Correspondence analysis)也稱關聯分析、R-Q型因子分析,通過分析由定性變數構成的交互匯總表來揭示變數間的聯系。可以揭示同一變數的各個類別之間的差異,以及不同變數各個類別之間的對應關系。對應分析的基本思想是將一個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。

5、回歸分析

研究一個隨機變數Y對另一個(X)或一組(X1,X2,?,Xk)變數的相依關系的統計分析方法。回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。

6、方差分析(ANOVA/Analysis of Variance)

又稱「變異數分析」或「F檢驗」,是R.A.Fisher發明的,用於兩個及兩個以上樣本均數差別的顯著性檢驗。由於各種因素的影響,研究所得的數據呈現波動狀。

想了解更多關於數據分析的信息,推薦到CDA數據認證中心看看,CDA(Certified Data Analyst),即「CDA 數據分析師」,是在數字經濟大背景和人工智慧時代趨勢下,面向全行業的專業權威國際資格認證, 旨在提升全民數字技能,助力企業數字化轉型,推動行業數字化發展。 「CDA 數據分析師」具體指在互聯網、金融、零售、咨詢、電信、醫療、旅遊等行業專門從事數據的採集、清洗、處理、分析並能製作業務報告、 提供決策的新型數據分析人才。

3. 統計數據的類型有哪些

1、統計數據表達形式有統計表格和統計地圖兩種。

按表示方法分為:

①分區統計。即用圖形的面積或同樣圖形的個數,代表所在區劃單元內全部同類現象的總和;如2008美國社區調查一年數據樣本文件總體

②分級統計。即以統計圖形式按行政區劃或經濟區劃分級,以不同深淺的顏色或疏密不等的暈線、暈點表示現象相對指標的差異;

③定位統計。以統計圖表形式表示某一點上的特種現象和變化規律。

2、按統計指標統計數據分為 宏觀經濟指標統計和行業經濟指標統計。

常見的宏觀經濟指標有:GDP,CPI,PPI,PMI及流通中的現金。

行業經濟指標如煤炭行業,石油行業的景氣狀況分析等。

(3)數據的分類方法有哪些擴展閱讀

統計數據是採用某種計量尺度對事物進行計量的結果,採用不同的計量尺度會得到不同類型的統計數據。從上述四種計量尺度計量的結果來看,可以將統計數據分為以下四種類型:

1、定類數據——表現為類別,但不區分順序,是由定類尺度計量形成的。

2、定序數據——表現為類別,但有順序,是由定序尺度計量形成的。

3、定距數據——表現為數值,可進行加、減運算,是由定距尺度計量形成的。

4、定比數據——表現為數值,可進行加、減、乘、除運算,是由定比尺度計量形成的。

4. 統計學中的分類方法

介紹
理解不同的數據類型,是探索性數據分析(Exploratory Data Analysis,EDA)所需的關鍵預備知識,同時也有助於你選擇正確的可視化方法。你可以將數據類型看成歸類不同類型變數的方式。我們將討論主要的變數類型,以及相應的示例。有時我們會稱其為測量尺度(measurement scale)。

類別數據

類別數據(categrorical data)表示特性,例如一個人的性別,所說的語言,等等。類別數據同樣可以使用數值(例如:1表示雌性,0表示雄性)。

名目數據

名目值(nominal value)指用於標記變數的定性離散單元。你可以直接把它們想像成「標簽」。注意名目數據是無序的。因此,如果你改變名目值的順序,其語義並不會改變。下面是一些名目特徵的例子:

性別:雌性、雄性。
語言:英語、法語、德語、西班牙語。
上面的性別特徵也被稱為「二分(dichotomous)」值,因為它只包含兩個類別。

次序數據

次序值(ordinal value)指離散、有序的定性單元。除了有序之外,它幾乎和名目數據一樣。例如,教育背景可以用次序值來表示:

初中
高中
大學
研究生
注意,其實初中、高中之間的差別,和高中、大學之間的差別,是不一樣的。這是次序數據的主要限制,次序值之間的差別是未知的。因此,次序值通常用於衡量非數值特徵,例如愉悅程度、客戶滿意度。

數值數據
離散數據

離散數據(discrete data)的值是不同而分散的,換句話說,只能接受一些特定值。這類數據無法測量但可以計數。它基本上用來表示可以分類的信息。例如,拋100次硬幣正面向上的次數。

你可以通過以下兩個問題檢查你處理的是否是離散數據:你可以對其計數嗎?它可以被切分成越來越小的部分嗎?

相反,如果數據可以測量但無法計數,那就是連續數據。

連續數據

連續數據(continuous data)表示測量。例如身高。

連續數據可以分為等距數據(interval data)和等比數據(ratio data)。

等距值指間隔相等的有序單元,也就是說,等距變數包含有序數值,並且我們知道這些數值之間的間隔。例如,用等距數據表示溫度:

-10
-5
0
+5
+10
+15
等距值的問題在於,它們沒有「真正的零」。拿上面的例子來說,0度不是絕對零度。另外,我們可以加減等距值,而不能乘除等距值或計算比率。由於沒有「真正的零」,無法應用許多描述統計學或推論統計學的方法。

等比值具有等距值的所有特性,同時也有絕對的零。因此,不僅可以加減,還可以乘除。高度、重量、長度、絕對溫度等都屬於等比值。

數據類型為什麼重要?
數據類型是一個非常重要的概念,因為統計學方法只能應用於特定的數據類型。你需要使用不同的方式分析連續數據和類別數據。因此,理解你處理的數據的類型,讓你能夠選擇正確的分析方法。

下面我們將重新查看上面提到的每種數據類型,了解它們可以應用什麼樣的統計學方法。為了理解我們將討論的一些性質,你需要對描述性統計學有所了解。如果你對此不熟悉,可以先看下我寫的描述性統計學介紹。

統計學方法
名目數據

處理名目數據時,你通過下述方式收集信息:

頻數 在一段時間內或整個數據集中出現的次數。
比例 頻數除以所有事件的頻數之和,即可得到比例。
百分比 我想這無需解釋了吧。
眾數 出現次數最多,也就是頻數最高的數據。
可視化方法 你可以使用餅圖或直方圖可視化名目數據。
統計學常用數據類型
左:餅圖;右:直方圖

次序數據

當你處理次序數據時,你可以使用以上用於名目數據的方法,不過,除此之外,你還可以使用一些額外的工具。也就是說,你可以使用頻數、比例、百分比、眾數概括次序數據,也可以使用餅圖、直方圖可視化次序數據。除此之外,你還可以使用:

百分位數 計算由小到大排列的次序數據的累計百分位,某一百分位對應的數據值就稱為這一百分位的百分位數。百分位數可以用來描述數據的離散趨勢。
中位數 即第50百分位數,它將數據分為相等的上下兩部分。中位數可以用來描述數據的中間趨勢。例如,如果我們用次序數據表示星巴克咖啡的容量:中杯、大杯、特大杯。那麼,其中位數為大杯(也就是說,真正的中杯是大杯)。
四分位距 第75百分位數與第25百分位數之差即為四分位距。四分位距可以簡要概述數據的離散趨勢。
連續數據

大多數統計學方法都可以用於連續數據。你可以使用百分位數、中位數、四分位距、均值、眾數、標准差、區間。

你可以使用矩形圖或箱形圖可視化連續數據。從矩形圖上可以看到分布的中間趨勢、離散程度、形態和峰態。注意,矩形圖不體現離散值,因此我們有時使用箱形圖。

5. 整理數據的常用方法有 分類、 ()分組、()等

編號
排序
我就是初二學生!
請採納我的答案~

6. 分類數據和順序數據的整理和圖示方法各有那些

對於分類數據:
(1)數據的整理方法有列出所分的類別,計算每一類別的頻數、頻率、比例、比率等
(2)圖示方法有條形圖和圓形圖
對於順序數據:
(1)數據的整理方法中包括所有的處理分類數據的方法,同時還可以計算累積頻數和累積頻率
(2)圖示方法包括累積分布圖和環形圖

7. 各種遙感數據分類方法比較

常用的遙感數據的專題分類方法有多種,從分類判別決策方法的角度可以分為統計分類器、神經網路分類器、專家系統分類器等;從是否需要訓練數據方面,又可以分為監督分類器和非監督分類器。

一、統計分類方法

統計分類方法分為非監督分類方法和監督分類方法。非監督分類方法不需要通過選取已知類別的像元進行分類器訓練,而監督分類方法則需要選取一定數量的已知類別的像元對分類器進行訓練,以估計分類器中的參數。非監督分類方法不需要任何先驗知識,也不會因訓練樣本選取而引入認為誤差,但非監督分類得到的自然類別常常和研究感興趣的類別不匹配。相應地,監督分類一般需要預先定義分類類別,訓練數據的選取可能會缺少代表性,但也可能在訓練過程中發現嚴重的分類錯誤。

1.非監督分類器

非監督分類方法一般為聚類演算法。最常用的聚類非監督分類方法是 K-均值(K-Means Algorithm)聚類方法(Duda and Hart,1973)和迭代自組織數據分析演算法(ISODATA)。其演算法描述可見於一般的統計模式識別文獻中。

一般通過簡單的聚類方法得到的分類結果精度較低,因此很少單獨使用聚類方法進行遙感數據專題分類。但是,通過對遙感數據進行聚類分析,可以初步了解各類別的分布,獲取最大似然監督分類中各類別的先驗概率。聚類分析最終的類別的均值矢量和協方差矩陣可以用於最大似然分類過程(Schowengerdt,1997)。

2.監督分類器

監督分類器是遙感數據專題分類中最常用的一種分類器。和非監督分類器相比,監督分類器需要選取一定數量的訓練數據對分類器進行訓練,估計分類器中的關鍵參數,然後用訓練後的分類器將像元劃分到各類別。監督分類過程一般包括定義分類類別、選擇訓練數據、訓練分類器和最終像元分類四個步驟(Richards,1997)。每一步都對最終分類的不確定性有顯著影響。

監督分類器又分為參數分類器和非參數分類器兩種。參數分類器要求待分類數據滿足一定的概率分布,而非參數分類器對數據的概率分布沒有要求。

遙感數據分類中常用的分類器有最大似然分類器、最小距離分類器、馬氏距離分類器、K-最近鄰分類器(K-Nearest neighborhood classifier,K-NN)以及平行六面體分類器(parallelepiped classifier)。最大似然、最小距離和馬氏距離分類器在第三章已經詳細介紹。這里簡要介紹 K-NN 分類器和平行六面體分類器。

K-NN分類器是一種非參數分類器。該分類器的決策規則是:將像元劃分到在特徵空間中與其特徵矢量最近的訓練數據特徵矢量所代表的類別(Schowengerdt,1997)。當分類器中 K=1時,稱為1-NN分類器,這時以離待分類像元最近的訓練數據的類別作為該像元的類別;當 K >1 時,以待分類像元的 K 個最近的訓練數據中像元數量最多的類別作為該像元的類別,也可以計算待分類像元與其 K 個近鄰像元特徵矢量的歐氏距離的倒數作為權重,以權重值最大的訓練數據的類別作為待分類像元的類別。Hardin,(1994)對 K-NN分類器進行了深入的討論。

平行六面體分類方法是一個簡單的非參數分類演算法。該方法通過計算訓練數據各波段直方圖的上限和下限確定各類別像元亮度值的范圍。對每一類別來說,其每個波段的上下限一起就形成了一個多維的盒子(box)或平行六面體(parallelepiped)。因此 M 個類別就有M 個平行六面體。當待分類像元的亮度值落在某一類別的平行六面體內時,該像元就被劃分為該平行六面體代表的類別。平行六面體分類器可以用圖5-1中兩波段的遙感數據分類問題來表示。圖中的橢圓表示從訓練數據估計的各類別亮度值分布,矩形表示各類別的亮度值范圍。像元的亮度落在哪個類別的亮度范圍內,就被劃分為哪個類別。

圖5-1 平行六面體分類方法示意圖

3.統計分類器的評價

各種統計分類器在遙感數據分類中的表現各不相同,這既與分類演算法有關,又與數據的統計分布特徵、訓練樣本的選取等因素有關。

非監督聚類演算法對分類數據的統計特徵沒有要求,但由於非監督分類方法沒有考慮任何先驗知識,一般分類精度比較低。更多情況下,聚類分析被作為非監督分類前的一個探索性分析,用於了解分類數據中各類別的分布和統計特徵,為監督分類中類別定義、訓練數據的選取以及最終的分類過程提供先驗知識。在實際應用中,一般用監督分類方法進行遙感數據分類。

最大似然分類方法是遙感數據分類中最常用的分類方法。最大似然分類屬於參數分類方法。在有足夠多的訓練樣本、一定的類別先驗概率分布的知識,且數據接近正態分布的條件下,最大似然分類被認為是分類精度最高的分類方法。但是當訓練數據較少時,均值和協方差參數估計的偏差會嚴重影響分類精度。Swain and Davis(1978)認為,在N維光譜空間的最大似然分類中,每一類別的訓練數據樣本至少應該達到10×N個,在可能的條件下,最好能達到100×N以上。而且,在許多情況下,遙感數據的統計分布不滿足正態分布的假設,也難以確定各類別的先驗概率。

最小距離分類器可以認為是在不考慮協方差矩陣時的最大似然分類方法。當訓練樣本較少時,對均值的估計精度一般要高於對協方差矩陣的估計。因此,在有限的訓練樣本條件下,可以只估計訓練樣本的均值而不計算協方差矩陣。這樣最大似然演算法就退化為最小距離演算法。由於沒有考慮數據的協方差,類別的概率分布是對稱的,而且各類別的光譜特徵分布的方差被認為是相等的。很顯然,當有足夠訓練樣本保證協方差矩陣的精確估計時,最大似然分類結果精度要高於最小距離精度。然而,在訓練數據較少時,最小距離分類精度可能比最大似然分類精度高(Richards,1993)。而且最小距離演算法對數據概率分布特徵沒有要求。

馬氏距離分類器可以認為是在各類別的協方差矩陣相等時的最大似然分類。由於假定各類別的協方差矩陣相等,和最大似然方法相比,它丟失了各類別之間協方差矩陣的差異的信息,但和最小距離法相比較,它通過協方差矩陣保持了一定的方向靈敏性(Richards,1993)。因此,馬氏距離分類器可以認為是介於最大似然和最小距離分類器之間的一種分類器。與最大似然分類一樣,馬氏距離分類器要求數據服從正態分布。

K-NN分類器的一個主要問題是需要很大的訓練數據集以保證分類演算法收斂(Devijver and Kittler,1982)。K-NN分類器的另一個問題是,訓練樣本選取的誤差對分類結果有很大的影響(Cortijo and Blanca,1997)。同時,K-NN分類器的計算復雜性隨著最近鄰范圍的擴大而增加。但由於 K-NN分類器考慮了像元鄰域上的空間關系,和其他光譜分類器相比,分類結果中「椒鹽現象」較少。

平行六面體分類方法的優點在於簡單,運算速度快,且不依賴於任何概率分布要求。它的缺陷在於:首先,落在所有類別亮度值范圍之外的像元只能被分類為未知類別;其次,落在各類別亮度范圍重疊區域內的像元難以區分其類別(如圖5-1所示)。

各種統計分類方法的特點可以總結為表5-1。

二、神經網路分類器

神經網路用於遙感數據分類的最大優勢在於它平等地對待多源輸入數據的能力,即使這些輸入數據具有完全不同的統計分布,但是由於神經網路內部各層大量的神經元之間連接的權重是不透明的,因此用戶難以控制(Austin,Harding and Kanellopoulos et al.,1997)。

神經網路遙感數據分類被認為是遙感數據分類的熱點研究領域之一(Wilkinson,1996;Kimes,1998)。神經網路分類器也可分為監督分類器和非監督分類器兩種。由於神經網路分類器對分類數據的統計分布沒有任何要求,因此神經網路分類器屬於非參數分類器。

遙感數據分類中最常用的神經網路是多層感知器模型(multi-layer percep-tron,MLP)。該模型的網路結構如圖5-2所示。該網路包括三層:輸入層、隱層和輸出層。輸入層主要作為輸入數據和神經網路輸入界面,其本身沒有處理功能;隱層和輸出層的處理能力包含在各個結點中。輸入的結構一般為待分類數據的特徵矢量,一般情況下,為訓練像元的多光譜矢量,每個結點代表一個光譜波段。當然,輸入結點也可以為像元的空間上下文信息(如紋理)等,或多時段的光譜矢量(Paola and Schowengerdt,1995)。

表5-1 各種統計分類器比較

圖5-2 多層感知器神經網路結構

對於隱層和輸出層的結點來說,其處理過程是一個激勵函數(activation function)。假設激勵函數為f(S),對隱層結點來說,有:

遙感信息的不確定性研究

其中,pi為隱層結點的輸入;hj為隱層結點的輸出;w為聯接各層神經之間的權重。

對輸出層來說,有如下關系:

遙感信息的不確定性研究

其中,hj為輸出層的輸入;ok為輸出層的輸出。

激勵函數一般表達為:

遙感信息的不確定性研究

確定了網路結構後,就要對網路進行訓練,使網路具有根據新的輸入數據預測輸出結果的能力。最常用的是後向傳播訓練演算法(Back-Propagation)。這一演算法將訓練數據從輸入層進入網路,隨機產生各結點連接權重,按式(5-1)(5-2)和(5-3)中的公式進行計算,將網路輸出與預期的結果(訓練數據的類別)相比較並計算誤差。這個誤差被後向傳播的網路並用於調整結點間的連接權重。調整連接權重的方法一般為delta規則(Rumelhart,et al.,1986):

遙感信息的不確定性研究

其中,η為學習率(learning rate);δk為誤差變化率;α為動量參數。

將這樣的數據的前向和誤差後向傳播過程不斷迭代,直到網路誤差減小到預設的水平,網路訓練結束。這時就可以將待分類數據輸入神經網路進行分類。

除了多層感知器神經網路模型,其他結構的網路模型也被用於遙感數據分類。例如,Kohonen自組織網路被廣泛用於遙感數據的非監督聚類分析(Yoshida et al.,1994;Schaale et al.,1995);自適應共振理論(Adaptive Resonance Theory)網路(Silva,S and Caetano,M.1997)、模糊ART圖(Fuzzy ART Maps)(Fischer,M.M and Gopal,S,1997)、徑向基函數(駱劍承,1999)等也被用於遙感數據分類。

許多因素影響神經網路的遙感數據分類精度。Foody and Arora(1997)認為神經網路結構、遙感數據的維數以及訓練數據的大小是影響神經網路分類的重要因素。

神經網路結構,特別是網路的層數和各層神經元的數量是神經網路設計最關鍵的問題。網路結構不但影響分類精度,而且對網路訓練時間有直接影響(Kavzoglu and Mather,1999)。對用於遙感數據分類的神經網路來說,由於輸入層和輸出層的神經元數目分別由遙感數據的特徵維數和總的類別數決定的,因此網路結構的設計主要解決隱層的數目和隱層的神經元數目。一般過於復雜的網路結構在刻畫訓練數據方面較好,但分類精度較低,即「過度擬合」現象(over-fit)。而過於簡單的網路結構由於不能很好的學習訓練數據中的模式,因此分類精度低。

網路結構一般是通過實驗的方法來確定。Hirose等(1991)提出了一種方法。該方法從一個小的網路結構開始訓練,每次網路訓練陷入局部最優時,增加一個隱層神經元,然後再訓練,如此反復,直到網路訓練收斂。這種方法可能導致網路結構過於復雜。一種解決辦法是每當認為網路收斂時,減去最近一次加入的神經元,直到網路不再收斂,那麼最後一次收斂的網路被認為是最優結構。這種方法的缺點是非常耗時。「剪枝法」(pruning)是另一種確定神經網路結構的方法。和Hirose等(1991)的方法不同,「剪枝法」從一個很大的網路結構開始,然後逐步去掉認為多餘的神經元(Sietsma and Dow,1988)。從一個大的網路開始的優點是,網路學習速度快,對初始條件和學習參數不敏感。「剪枝」過程不斷重復,直到網路不再收斂時,最後一次收斂的網路被認為最優(Castellano,Fanelli and Pelillo,1997)。

神經網路訓練需要訓練數據樣本的多少隨不同的網路結構、類別的多少等因素變化。但是,基本要求是訓練數據能夠充分描述代表性的類別。Foody等(1995)認為訓練數據的大小對遙感分類精度有顯著影響,但和統計分類器相比,神經網路的訓練數據可以比較少。

分類變數的數據維對分類精度的影響是遙感數據分類中的普遍問題。許多研究表明,一般類別之間的可分性和最終的分類精度會隨著數據維數的增大而增高,達到某一點後,分類精度會隨數據維的繼續增大而降低(Shahshahani and Landgrebe,1994)。這就是有名的Hughes 現象。一般需要通過特徵選擇去掉信息相關性高的波段或通過主成分分析方法去掉冗餘信息。分類數據的維數對神經網路分類的精度同樣有明顯影響(Battiti,1994),但Hughes 現象沒有傳統統計分類器中嚴重(Foody and Arora,1997)。

Kanellopoulos(1997)通過長期的實踐認為一個有效的ANN模型應考慮以下幾點:合適的神經網路結構、優化學習演算法、輸入數據的預處理、避免振盪、採用混合分類方法。其中混合模型包括多種ANN模型的混合、ANN與傳統分類器的混合、ANN與知識處理器的混合等。

三、其他分類器

除了上述統計分類器和神經網路分類器,還有多種分類器被用於遙感圖像分類。例如模糊分類器,它是針對地面類別變化連續而沒有明顯邊界情況下的一種分類器。它通過模糊推理機制確定像元屬於每一個類別的模糊隸屬度。一般的模糊分類器有模糊C均值聚類法、監督模糊分類方法(Wang,1990)、混合像元模型(Foody and Cox,1994;Settle and Drake,1993)以及各種人工神經網路方法等(Kanellopoulos et al.,1992;Paola and Schowengerdt,1995)。由於模糊分類的結果是像元屬於每個類別的模糊隸屬度,因此也稱其為「軟分類器」,而將傳統的分類方法稱為「硬分類器」。

另一類是上下文分類器(contextual classifier),它是一種綜合考慮圖像光譜和空間特徵的分類器。一般的光譜分類器只是考慮像元的光譜特徵。但是,在遙感圖像中,相鄰的像元之間一般具有空間自相關性。空間自相關程度強的像元一般更可能屬於同一個類別。同時考慮像元的光譜特徵和空間特徵可以提高圖像分類精度,並可以減少分類結果中的「椒鹽現象」。當類別之間的光譜空間具有重疊時,這種現象會更明顯(Cortijo et al.,1995)。這種「椒鹽現象」可以通過分類的後處理濾波消除,也可以通過在分類過程中加入代表像元鄰域關系的信息解決。

在分類過程中可以通過不同方式加入上下文信息。一是在分類特徵中加入圖像紋理信息;另一種是圖像分割技術,包括區域增長/合並常用演算法(Ketting and Landgrebe,1976)、邊緣檢測方法、馬爾可夫隨機場方法。Rignot and Chellappa(1992)用馬爾可夫隨機場方法進行SAR圖像分類,取得了很好的效果,Paul Smits(1997)提出了保持邊緣細節的馬爾可夫隨機場方法,並用於SAR圖像的分類;Crawford(1998)將層次分類方法和馬爾可夫隨機場方法結合進行SAR圖像分類,得到了更高的精度;Cortijo(1997)用非參數光譜分類對遙感圖像分類,然後用ICM演算法對初始分類進行上下文校正。

8. 數據分析的方法有哪些

數據分析是指通過統計分析方法對收集到的數據進行分析,將數據加以匯總、理解並消化,通過數據分析可以幫助人們作出判斷,根據分析結果採取恰當的對策,常用的數據分析方法如下:

將收集到的數據通過加工、整理和分析的過程,使其轉化為信息,通常來說,數據分析常用的方法有列表法和作圖法,所謂列表法,就是將數據按一定規律用列表方式表達出來,是記錄和處理數據最常用的一種方法;

表格設計應清楚表明對應關系,簡潔明了,有利於發現要相關量之間的關系,並且在標題欄中還要註明各個量的名稱、符號、數量級和單位等;

而作圖法則能夠醒目地表達各個物理量間的變化關系,從圖線上可以簡便求出實驗需要的某些結果,一些復雜的函數關系也可以通過一定的變化用圖形來表現。

想要了解更多關於數據分析的問題,可以咨詢一下CDA認證中心。CDA行業標准由國際范圍數據領域的行業專家、學者及知名企業共同制定並每年修訂更新,確保了標準的公立性、權威性、前沿性。通過CDA認證考試者可獲得CDA中英文認證證書。

9. 計算機處理數據分析分類方法有哪些

1.按信息的形式和處理方式可分類:
(1)電子數字計算機:所有信息以二進制數表示。
(2)電子模擬計算機:內部信息形式為連續變化的模擬電壓,基本運算部件為運算放大器。
(3)混合式電子計算機:既有數字量又能表示模擬量,設計比較困難。

2.按使用可分類為:
(1)通用機:適用於各種應用場合,功能齊全、通用性好的計算機。
(2)專用機:為解決某種特定問題專門設計的計算機,如工業控制機、銀行專用機、超級市場收銀機(POS)等。

3.按計算機系統的規模和處理性能分類為:
所謂計算機系統規模主要指計算機的速度、容量和功能。一般可分巨型機、大型機、中小型機、微型機和工作站等。其中工作站(Workstation)是介於小型機和微型機之間的面向工程的計算機系統。

10. 數據挖掘中常見的分類方法有哪些

判別分析、規則歸納、決策樹、神經網路、K最近鄰、基於案例的推理、遺傳演算法等等挺多的,這個問題范圍太大了,雲速數據挖掘分類挺多。

閱讀全文

與數據的分類方法有哪些相關的資料

熱點內容
增發的股份什麼時候可以交易 瀏覽:621
恢復移動硬碟數據得多少錢 瀏覽:390
轉錢信息沒有是什麼問題 瀏覽:400
債券融資看什麼數據 瀏覽:374
60個交易日是什麼 瀏覽:430
消防哪些產品需3c認證 瀏覽:733
深圳最大的茶具批發市場在哪裡 瀏覽:148
西山下綜合市場都賣什麼 瀏覽:680
時光代理人黃毛為什麼要殺人 瀏覽:266
東莞哪些市場有100個豬肉檔口 瀏覽:41
推背產品哪些好 瀏覽:964
成都貨車收購二手市場在哪裡 瀏覽:553
方舟模組數據塊有什麼用 瀏覽:288
his數據什麼意思 瀏覽:824
砂糖桔市場前景如何 瀏覽:839
常平鎮賣毛線的市場有哪些 瀏覽:468
股票找不到交易怎麼辦 瀏覽:974
技術市場是什麼類型 瀏覽:131
南寧農葯批發市場在哪裡 瀏覽:774
開網店做代理怎麼和廠家簽合同 瀏覽:862