導航:首頁 > 數據處理 > 如何理解數據挖掘

如何理解數據挖掘

發布時間:2022-04-27 12:15:38

1. 請結合生活中的例子說明你對數據挖掘作用的理解

摘要 FineBI數據挖掘建築在FineBI的多維資料庫之上,集成FineBI敏捷性的優點。當FineBI系統第一次搭建完成,並將數據准備好之後,像FineBI分析一樣,不需要根據新的業務需求進行新的數據准備。

2. 什麼是數據挖掘概念是什麼

數據挖掘一般在企業上是作為決策分析的根據,他是從大量相關的數據中挖掘出規律來,如通過分析歷年公司某產品在某地的銷售規律,像銷售額的變化規律,產品的人氣指數等,來決策下一年的工作重點和工作目標.

3. 什麼是數據挖掘

數據挖掘又譯為資料探勘、數據采礦。是一種透過數理模式來分析企業內儲存的大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。它是資料庫知識發現中的一個步驟。數據挖掘一般是指從大量的數據中自動搜索隱藏於其中的有著特殊關系性的信息的過程。主要有數據准備、規律尋找和規律表示3個步驟。數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
是一個用數據發現問題、解決問題的學科。
通常通過對數據的探索、處理、分析或建模實現。
我們可以看到數據挖掘具有以下幾個特點:
基於大量數據:並非說小數據量上就不可以進行挖掘,實際上大多數數據挖掘的演算法都可以在小數據量上運行並得到結果。但是,一方面過小的數據量完全可以通過人工分析來總結規律,另一方面來說,小數據量常常無法反映出真實世界中的普遍特性。
非平凡性:所謂非平凡,指的是挖掘出來的知識應該是不簡單的,絕不能是類似某著名體育評論員所說的「經過我的計算,我發現了一個有趣的現象,到本場比賽結束 為止,這屆世界盃的進球數和失球數是一樣的。非常的巧合!」那種知識。這點看起來勿庸贅言,但是很多不懂業務知識的數據挖掘新手卻常常犯這種錯誤。
隱含性:數據挖掘是要發現深藏在數據內部的知識,而不是那些直接浮現在數據表面的信息。常用的BI工具,例如報表和OLAP,完全可以讓用戶找出這些信息。
新奇性:挖掘出來的知識應該是以前未知的,否則只不過是驗證了業務專家的經驗而已。只有全新的知識,才可以幫助企業獲得進一步的洞察力。
價值性:挖掘的結果必須能給企業帶來直接的或間接的效益。有人說數據挖掘只是「屠龍之技」,看起來神乎其神,卻什麼用處也沒有。這只是一種誤解,不可否認的 是在一些數據挖掘項目中,或者因為缺乏明確的業務目標,或者因為數據質量的不足,或者因為人們對改變業務流程的抵制,或者因為挖掘人員的經驗不足,都會導 致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,數據挖掘的確可以變成提升效益的利器

4. 請問什麼是數據挖掘

數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。
1. 數據挖掘能做什麼?

1)數據挖掘能做以下六種不同事情(分析方法):

· 分類 (Classification)

· 估值(Estimation)

· 預言(Prediction)

· 相關性分組或關聯規則(Affinity grouping or association rules)

· 聚集(Clustering)

· 描述和可視化(Des cription and Visualization)

2)數據挖掘分類

以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘

· 直接數據挖掘

目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以

理解成資料庫中表的屬性,即列)進行描述。

· 間接數據挖掘

目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系



· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘

3)各種分析方法的簡介

· 分類 (Classification)

首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分

類模型,對於沒有分類的數據進行分類。

例子:

a. 信用卡申請者,分類為低、中、高風險

b. 分配客戶到預先定義的客戶分片

注意: 類的個數是確定的,預先定義好的

· 估值(Estimation)

估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的

輸出;分類的類別是確定數目的,估值的量是不確定的。

例子:

a. 根據購買模式,估計一個家庭的孩子個數

b. 根據購買模式,估計一個家庭的收入

c. 估計real estate的價值

一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的

連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運

用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。

· 預言(Prediction)

通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用

於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。

預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時

間後,才知道預言准確性是多少。

· 相關性分組或關聯規則(Affinity grouping or association rules)

決定哪些事情將一起發生。

例子:

a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)

b. 客戶在購買A後,隔一段時間,會購買B (序列分析)

· 聚集(Clustering)

聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先

定義好的類,不需要訓練集。

例子:

a. 一些特定症狀的聚集可能預示了一個特定的疾病

b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群

聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一

類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,

回答問題,可能效果更好。

· 描述和可視化(Des cription and Visualization)

是對數據挖掘結果的表示方式。

2.數據挖掘的商業背景

數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有

價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。

1)數據挖掘作為研究工具 (Research)

2)數據挖掘提高過程式控制制(Process Improvement)

3)數據挖掘作為市場營銷工具(Marketing)

4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)

3.數據挖掘的技術背景

1)數據挖掘技術包括三個主要部分:演算法和技術;數據;建模能力

2)數據挖掘和機器學習(Machine Learning)

· 機器學習是計算機科學和人工智慧AI發展的產物

· 機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決

策樹)

· 數據挖掘由來

數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是一個新興

的,面向商業應用的AI研究。選擇數據挖掘這一術語,表明了與統計、精算、長期從事預

言模型的經濟學家之間沒有技術的重疊。

3)數據挖掘和統計

統計也開始支持數據挖掘。統計本包括預言演算法(回歸)、抽樣、基於經驗的設計等

4)數據挖掘和決策支持系統

· 數據倉庫

· OLAP(聯機分析處理)、Data Mart(數據集市)、多維資料庫

· 決策支持工具融合

將數據倉庫、OLAP,數據挖掘融合在一起,構成企業決策分析環境。

4. 數據挖掘的社會背景

數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上

,客戶自己可能都不明確自己下一步要作什麼。所以,數據挖掘的結果,沒有人們想像中

神秘,它不可能是完全正確的。

客戶的行為是與社會環境相關連的,所以數據挖掘本身也受社會背景的影響。比如說,在

美國對銀行信用卡客戶信用評級的模型運行得非常成功,但是,它可能不適合中國

轉載的

5. 數據挖掘工程師是干什麼的

數據挖掘工程師是數據師(Datician['detn])的一種。是從大量的數據中通過演算法搜索隱藏於其中知識的工程技術專業人員。這些知識可用使企業決策智能化,自動化,從而使企業提高工作效率,減少錯誤決策的可能性,以在激烈的競爭中處於不敗之地。
數據挖掘工程師的職責:
1、根據自己對行業,以及公司業務的了解,獨自承擔復雜分析任務,並形成分析報告;
2、相關分析方向包括:用戶行為分析、廣告點擊分析,業務邏輯相關以及競爭環境相關;
3、根據業務邏輯變化,設計相應分析模型並支持業務分析工作開展。
數據挖掘,從字面上理解,就是在數據中找到有用的東西,哪些東西有用就要看具體的業務目標了。最簡單的就是統計應用了,比如電商數據,利用用戶的瀏覽、點擊、收藏、購買等行為推斷用戶的年齡、性別、購買能力、愛好等。

想了解更多關於數據挖掘工程師的內容,推薦上CDA數據分析師的課程。課程內容兼顧培養解決數據挖掘流程問題的橫向能力以及解決數據挖掘演算法問題的縱向能力。要求學生具備從數據治理根源出發的思維,通過數字化工作方法來探查業務問題,通過近因分析、宏觀根因分析等手段,再選擇業務流程優化工具還是演算法工具,而非「遇到問題調演算法包」。真正理解商業思維,項目思維,能夠遇到問題解決問題。點擊預約免費試聽課。

6. 數據分析和數據挖掘的區別是什麼如何做好數據挖掘

數據分析和數據挖掘都是從資料庫中發現知識、所以我們稱數據分析和數據挖掘叫做資料庫中的知識發現。但嚴格意義上來講,數據挖掘才是真正意義上的資料庫中的知識發現(Knowledge Discovery in Database,KDD)。

數據分析是從資料庫中通過統計、計算、抽樣等相關的方法,獲取基於資料庫的數據表象的知識,也就是指數據分析是從資料庫裡面得到一些表象性的信息。數據挖掘是從資料庫中,通過機器學習或者是通過數學演算法等相關的方法獲取深層次的知識(比如屬性之間的規律性,或者是預測)的技術。

7. 數據挖掘概念綜述

數據挖掘概念綜述
數據挖掘又稱從資料庫中發現知識(KDD)、數據分析、數據融合(Data Fusion)以及決策支持。KDD一詞首次出現在1989年8月舉行的第11屆國際聯合人工智慧學術會議上。隨後在1991年、1993年和1994年都舉行KDD 專題討論會,匯集來自各個領域的研究人員和應用開發者,集中討論數據統計、海量數據分析算 法、知識表示、知識運用等問題。隨著參與人員的不斷增多,KDD國際會議發展成為年會。1998 年在美國紐約舉行的第四屆知識發現與數據 挖掘國際學術會議不僅進行了學術討論,並且有30多家軟體公司展示了他們的數據挖掘軟體產品,不少軟體已在北美、歐洲等國得到應用。
一、什麼是數據挖掘
1.1、數據挖掘的歷史
近十幾年來,人們利用信息技術生產和搜集數據的能力大幅度提高,千萬萬個資料庫被用於商業管理、政府辦公、科學研究和工程開發等等,這一勢頭仍將持續發展下去。於是,一個新的挑戰被提了出來:在這被稱之為信息爆炸的時代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發現有用的知識,提高信息利用率呢?要想使數據真正成為一個公司的資源,只有充分利用它為公司自身的業務決策和戰略發展服務才行,否則大量的數據可能成為包袱,甚至成為垃圾。因此,面對」人們被數據淹沒,人們卻飢餓於知識」的挑戰。另一方面計算機技術的另一領域——人工智慧自1956年誕生之後取得了重大進展。經歷了博弈時期、自然語言理解、知識工程等階段,目前的研究 熱點是機器學習。機器學習是用計算機模擬人類學習的一門科學,比較成熟的演算法有神經網路、遺傳演算法等。用資料庫管理系統來存儲數據,用機器學習的方法來分析數據,挖掘大量數據背後的知識,這兩者的結合促成了資料庫中的知識發現(KDD:Knowledge Discovery in Databases)的產生,因此,數據挖掘和知識發現(DMKD)技術應運而生,並得以蓬勃發展,越來越顯示出其強大的生命力。
數據挖掘又稱從資料庫中發現知識(KDD)、數據分析、數據融合(Data Fusion)以及決策支持。KDD一詞首次出現在1989年8月舉行的第11屆國際聯合人工智慧學術會議上。隨後在1991年、1993年和1994年都舉行KDD 專題討論會,匯集來自各個領域的研究人員和應用開發者,集中討論數據統計、海量數據分析算 法、知識表示、知識運用等問題。隨著參與人員的不斷增多,KDD國際會議發展成為年會。1998 年在美國紐約舉行的第四屆知識發現與數據 挖掘國際學術會議不僅進行了學術討論,並且有30多家軟體公司展示了他們的數據挖掘軟體產品,不少軟體已在北美、歐洲等國得到應用。
2.2數據挖掘的概念
從1989年到現在,KDD的定義隨著人們研究的不斷深入也在不斷完善,目前比較公認的定義是Fayyad 等給出的:KDD是從數據集中識別出有效的、新穎的、潛在有用的以及最終可理解模式的高級處理過程。從定義可以看出,數據挖掘(DataMining)就是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。人們把原始數據看作是形成知識的源泉,就像從礦石中采礦一樣。原始數據可以是結構化的,如關系資料庫中的數據,也可以是半結構化的,如文本、圖形、圖像數據,甚至是分布在網路上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現了的知識可以被用於信息管理、查詢優化、決策支持、過程式控制制等,還可以用於數據自身的維護。因此,數據挖掘是一門很廣義的交叉學科,它匯聚了不同領域的研究者,尤其是資料庫、人工智慧、數理統計、可視化、並行計算等方面的學者和工程技術人員。
特別要指出的是,數據挖掘技術從一開始就是面向應用的。它不僅是面向特定資料庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。
一般來說在科研領域中稱為KDD,而在工程領域則稱為數據挖掘。
二、數據挖掘的步驟
KDD包括以下步驟:
1、數據准備
KDD的處理對象是大量的數據,這些數據一般存儲在資料庫系統中,是長期積累的結果。但往往不適合直接在這些數據上面進行知識挖 掘,需要做數據准備工作,一般包括數據的選擇(選擇相關的數據)、凈化(消除噪音、冗餘數據)、推測(推算缺失數據)、轉換(離散值 數據與連續值數據之間的相互轉換,數據值的分組分類,數據項之間的計算組合等)、數據縮減(減少數據量)。如果KDD的對象是數據倉 庫,那麼這些工作往往在生成數據倉庫時已經准備妥當。數據准備是KDD 的第一個步驟,也是比較重要的一個步驟。數據准備是否做好將影 響到數據挖掘的效率和准確度以及最終模式的有效性。
2、數據挖掘
數據挖掘是KDD最關鍵的步驟,也是技術難點所在。研究KDD的人員中大部分都在研究數據挖掘技術,採用較多的技術有決策樹、分類、 聚類、粗糙集、關聯規則、神經網路、遺傳演算法等。數據挖掘根據KDD的目標,選取相應演算法的參數,分析數據,得到可能形成知識的模式 模型。
3、評估、解釋模式模型
上面得到的模式模型,有可能是沒有實際意義或沒有實用價值的,也有可能是其不能准確反映數據的真實意義,甚至在某些情況下是與事 實相反的,因此需要評估,確定哪些是有效的、有用的模式。評估可以根據用戶多年的經驗,有些模式也可以直接用數據來檢驗其准確性。 這個步驟還包括把模式以易於理解的方式呈現給用戶。
4、鞏固知識
用戶理解的、並被認為是符合實際和有價值的模式模型形成了知識。同時還要注意對知識做一
致性檢查,解決與以前得到的知識互相沖 突、矛盾的地方,使知識得到鞏固。
5、運用知識
發現知識是為了運用,如何使知識能被運用也是KDD的步驟之一。運用知識有兩種方法:一種是只需看知識本身所描述的關系或結果,就 可以對決策提供支持;另一種是要求對新的數據運用知識,由此可能產生新的問題,而需要對知識做進一步的優化
三、數據挖掘的特點及功能
3.1、數據挖掘的特點
數據挖掘具有如下幾個特點,當然,這些特點與數據挖掘要處理的數據和目的是密切相關的。
1、處理的數據規模十分巨大。
2、查詢一般是決策制定者(用戶)提出的即時隨機查詢,往往不能形成精確的查詢要求。
3、由於數據變化迅速並可能很快過時,因此需要對動態數據作出快速反應,以提供決策支持。
4、主要基於大樣本的統計規律,其發現的規則不一定適用於所有數據
3.2、數據挖掘的功能
數據挖掘所能發現的知識有如下幾種:
廣義型知識,反映同類事物共同性質的知識;
特徵型知識,反映事物各方面的特徵知識;
差異型知識,反映不同事物之間屬性差別的知識 ;關聯型知識,反映事物之間依賴或關聯的知識;
預測型知識,根據歷史的和當前的數據推測未來數據;偏離型知識,揭示事物偏離常規的異常現象。
所有這些知識都可以在不同的概念層次上被發現,隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。例如,從一家超市的數據倉庫中,可以發現的一條典型關聯規則可能是」買麵包和黃油的顧客十有八九也買牛奶」,也可能是」買食品的顧客幾乎都用信用卡」,這種規則對於商家開發和實施客戶化的銷售計劃和策略是非常有用的。至於發現工具和方法,常用的有分類、聚類、減維、模式識別、可視化、決策樹、遺傳演算法、不確定性處理等。歸納起來,數據挖掘有如下幾個功能:
預測/驗證功能:預測/驗證功能指用資料庫的若干已知欄位預測或驗證其他未知欄位值。預測方法有統計分析方法、關聯規則和決策樹預測方法、回歸樹預測方法等。
描述功能:描述功能指找到描述數據的可理解模式。描述方法包括以下幾種:數據分類、回歸分析、簇聚、概括、構造依賴模式、變化和偏差分析、模式發現、路徑發現等。
四、數據挖掘的模式
數據挖掘的任務是從數據中發現模式。模式是一個用語言L來表示的一個表達式E,它可用來描述數據集F中數據的特性,E 所描述的數據是集 合F的一個子集FE。E作為一個模式要求它比列舉數據子集FE中所有元素的描述方法簡單。例如,「如果成績在81 ~90之間,則成績優良」可稱 為一個模式,而「如果成績為81、82、83、84、85、86、87、88、89 或90,則成績優良」就不能稱之為一個模式。
模式有很多種,按功能可分有兩大類:預測型(Predictive)模式和描述型(Descriptive)模式。
預測型模式是可以根據數據項的值精確確定某種結果的模式。挖掘預測型模式所使用的數據也都是可以明確知道結果的。例如,根據各種 動物的資料,可以建立這樣的模式:凡是胎生的動物都是哺乳類動物。當有新的動物資料時,就可以根據這個模式判別此動物是否是哺乳動物。
描述型模式是對數據中存在的規則做一種描述,或者根據數據的相似性把數據分組。描述型模式不能直接用於預測。例如,在地球上,70 %的表面被水覆蓋,30 %是土地。
在實際應用中,往往根據模式的實際作用細分為以下6 種:
1、分類模式
分類模式是一個分類函數( 分 類 器),能夠把數據集中的數據項映射到某個給定的類上。分類模式往往表現為一棵分類樹,根據數據的 值從樹根開始搜索,沿著數據滿足的分支往上走,走到樹葉就能確定類別。
2、回歸模式
回歸模式的函數定義與分類模式相似,它們的差別在於分類模式的預測值是離散的,回歸模式的預測值是連續的。如給出某種動物的特徵,可以用分類模式判定這種動物是哺乳動物還是鳥類;給出某個人的教育情況、工作經驗,可以用回歸模式判定這個人的年工資在哪個范圍內,是在6000元以下,還是在6000元到1萬元之間,還是在1萬元以上。
3、時間序列模式
時間序列模式根據數據隨時間變化的趨勢預測將來的值。這里要考慮到時間的特殊性質,像一些周期性的時間定義如星期、月、季節、年 等,不同的日子如節假日可能造成的影響,日期本身的計算方法,還有一些需要特殊考慮的地方如時間前後的相關性(過去的事情對將來有 多大的影響力)等。只有充分考慮時間因素,利用現有數據隨時間變化的一系列的值,才能更好地預測將來的值。
4、聚類模式
聚類模式把數據劃分到不同的組中,組之間的差別盡可能大,組內的差別盡可能小。與分類模式不同,進行聚類前並不知道將要劃分成幾 個組和什麼樣的組,也不知道根據哪一(幾)個數據項來定義組。一般來說,業務知識豐富的人應該可以理解這些組的含義,如果產生的模式無法理解或不可用,則該模式可能是無意義的,需要回到上階段重新組織數據。
5、關聯模式
關聯模式是數據項之間的關聯規則。關聯規則是如下形式的一種規則:「在無力償還貸款的人當中,60%的人的月收入在3000元以下。」
6、序列模式
序列模式與關聯模式相仿,而把數據之間的關聯性與時間聯系起來。為了發現序列模式,不僅需要知道事件是否發生,而且需要確定事件 發生的時間。例如,在購買彩電的人們當中,60%的人會在3個月內購買影碟機
五、數據挖掘的發現任務
數據挖掘涉及的學科領域和方法很多,有多種分類法。根據挖掘任務分,可分為分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等等;根據挖掘對象分,有關系資料庫、面向對象資料庫、空間資料庫、時態資料庫、文本數據源、多媒體資料庫、異質資料庫、遺產資料庫以及環球網Web;根據挖掘方法分,可粗分為:機器學習方法、統計方法、神經網路方法和資料庫方法。機器學習中,可細分為:歸納學習方法(決策樹、規則歸納等)、基於範例學習、遺傳演算法等。統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。神經網路方法中,可細分為:前向神經網路(BP演算法等)、自組織神經網路(自組織特徵映射、競爭學習等)等。資料庫方法主要是多維數據分析或OLAP 方法,另外還有面向屬性的歸納方法。
從挖掘任務和挖掘方法的角度而言有數據總結、分類發現、聚類和關聯規則發現四種非常重要的發現任務。
5.1、數據總結
數據總結目的是對數據進行濃縮,給出它的緊湊描述。傳統的也是最簡單的數據總結方法是計算出資料庫的各個欄位上的求和值、平均值、方差值等統計值,或者用直方圖、餅狀圖等圖形方式表示。數據挖掘主要關心從數據泛化的角度來討論數據總結。數據泛化是一種把資料庫中的有關數據從低層次抽象到高層次上的過程。由於資料庫上的數據或對象所包含的信息總是最原始、基本的信息(這是為了不遺漏任何可能有用的數據信息)。人們有時希望能從較高層次的視圖上處理或瀏覽數據,因此需要對數據進行不同層次上的泛化以適應各種查詢要求。數據泛化目前主要有兩種技術:多維數據分析方法和面向屬性的歸納方法。
1、多維數據分析方法是一種數據倉庫技術,也稱作聯機分析處理(OLAP)。數據倉庫是面向決策支持的、集成的、穩定的、不同時間的歷史數據集合。決策的前提是數據分析。在數據分析中經常要用到諸如求和、總計、平均、最大、最小等匯集操作,這類操作的計算量特別大。因此一種很自然的想法是,把匯集操作結果預先計算並存儲起來,以便於決策支持系統使用。存儲匯集操作結果的地方稱作多維資料庫。多維數據分析技術已經在決策支持系統中獲得了成功的應用,如著名的SAS數據分析軟體包、Business Object公司的決策支持系統Business Object,以及IBM公司的決策分析工具都使用了多維數據分析技術。
採用多維數據分析方法進行數據總結,它針對的是數據倉庫,數據倉庫存儲的是離線的歷史數據。
2、為了處理聯機數據,研究人員提出了一種面向屬性的歸納方法。它的思路是直接對用戶感興趣的數據視圖(用一般的SQL查詢語言即可獲得)進行泛化,而不是像多維數據分析方法那樣預先就存儲好了泛化數據。方法的提出者對這種數據泛化技術稱之為面向屬性的歸納方法。原始關系經過泛化操作後得到的是一個泛化關系,它從較高的層次上總結了在低層次上的原始關系。有了泛化關系後,就可以對它進行各種深入的操作而生成滿足用戶需要的知識,如在泛化關系基礎上生成特性規則、判別規則、分類規則,以及關聯規則等。
5.2、分類發現
分類在數據挖掘中是一項非常重要的任務,目前在商業上應用最多。分類的目的是學會一個分類函數或分類模型(也常常稱作分類器),該模型能把資料庫中的數據項映射到給定類別中的某一個。分類和回歸都可用於預測。預測的目的是從利用歷史數據紀錄中自動推導出對給定數據的推廣描述,從而能對未來數據進行預測。和回歸方法不同的是,分類的輸出是離散的類別值,而回歸的輸出則是連續數值。
要構造分類器,需要有一個訓練樣本數據集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可為:( v1, v2, …, vn; c );其中vi表示欄位值,c表示類別。
分類器的構造方法有統計方法、機器學習方法、神經網路方法等等。統計方法包括貝葉斯法和非參數法(近鄰學習或基於事例的學習),對應的知識表示則為判別函數和原型事例。機器學習方法包括決策樹法和規則歸納法,前者對應的表示為決策樹或判別樹,後者則一般為產生式規則。神經網路方法主要是BP演算法,它的模型表示是前向反饋神經網路模型(由代表神經元的節點和代表聯接權值的邊組成的一種體系結構),BP演算法本質上是一種非線性判別函數。另外,最近又興起了一種新的方法:粗糙集(rough set),其知識表示是產生式規則。
不同的分類器有不同的特點。有三種分類器評價或比較尺度:1 預測准確度;2 計算復雜度;3 模型描述的簡潔度。預測准確度是用得最多的一種比較尺度,特別是對於預測型分類任務,目前公認的方法是10番分層交叉驗證法。計算復雜度依賴於具體的實現細節和硬體環境,在數據挖掘中,由於操作對象是巨量的資料庫,因此空間和時間的復雜度問題將是非常重要的一個環節。對於描述型的分類任務,模型描述越簡潔越受歡迎;例如,採用規則表示的分類器構造法就更有用,而神經網路方法產生的結果就難以理解。
另外要注意的是,分類的效果一般和數據的特點有關,有的數據雜訊大,有的有缺值, 有的分布稀疏,有的欄位或屬性間相關性強,有的屬性是離散的而有的是連續值或混合式的。目前普遍認為不存在某種方法能適合於各種特點的數據。
5.3、聚類
聚類是把一組個體按照相似性歸成若干類別,即」物以類聚」。它的目的是使得屬於同一類別的個體之間的距離盡可能的小,而不同類別上的個體間的距離盡可能的大。聚類方法包括統計方法、機器學習方法、神經網路方法和面向資料庫的方法。
在統計方法中,聚類稱聚類分析,它是多元數據分析的三大方法之一(其它兩種是回歸分析和判別分析)。它主要研究基於幾何距離的聚類,如歐式距離、明考斯基距離等。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。這種聚類方法是一種基於全局比較的聚類,它需要考察所有的個體才能決定類的劃分;因此它要求所有的數據必須預先給定,而不能動態增加新的數據對象。聚類分析方法不具有線性的計算復雜度,難以適用於資料庫非常大的情況。
在機器學習中聚類稱作無監督或無教師歸納;因為和分類學習相比,分類學習的例子或數據對象有類別標記,而要聚類的例子則沒有標記,需要由聚類學習演算法來自動確定。很多人工智慧文獻中,聚類也稱概念聚類;因為這里的距離不再是統計方法中的幾何距離 ,而是根據概念的描述來確定的。當聚類對象可以動態增加時,概念聚類則稱是概念形成。
在神經網路中,有一類無監督學習方法:自組織神經網路方法;如Kohonen自組織特徵映射網路、競爭學習網路等等。在數據挖掘領域里,見報道的神經網路聚類方法主要是自組織特徵映射方法,IBM在其發布的數據挖掘白皮書中就特別提到了使用此方法進行資料庫聚類分割。
5.4、關聯規則發現
關聯規則是形式如下的一種規則,」在購買麵包和黃油的顧客中,有90%的人同時也買了牛奶」(麵包+黃油 ( 牛奶 )。用於關聯規則發現的主要對象是事務型資料庫,其中針對的應用則是售貨數據,也稱貨籃數據。一個事務一般由如下幾個部分組成:事務處理時間 ,一組顧客購買的物品,有時也有顧客標識號(如信用卡號)。
由於條形碼技術的發展,零售部門可以利用前端收款機收集存儲大量的售貨數據。因此,如果對這些歷史事務數據進行分析,則可對顧客的購買行為提供極有價值的信息。例如,可以幫助如何擺放貨架上的商品(如把顧客經常同時買的商品放在一起),幫助如何規劃市場(怎樣相互搭配進貨)。由此可見,從事務數據中發現關聯規則,對於改進零售業等商業活動的決策非常重要。
如果不考慮關聯規則的支持度和可信度,那麼在事務資料庫中存在無窮多的關聯規則。事實上,人們一般只對滿足一定的支持度和可信度的關聯規則感興趣。在文獻中,一般稱滿足一定要求的(如較大的支持度和可信度)的規則為強規則。因此,為了發現出有意義的關聯規則,需要給定兩個閾值:最小支持度和最小可信度。前者即用戶規定的關聯規則必須滿足的最小支持度,它表示了一組物品集在統計意義上的需滿足的最低程度;後者即用戶規定的關聯規則必須滿足的最小可信度,它反應了關聯規則的最低可靠度。
在實際情況下,一種更有用的關聯規則是泛化關聯規則。因為物品概念間存在一種層次關系,如夾克衫、滑雪衫屬於外套類,外套、襯衣又屬於衣服類。有了層次關系後,可以幫助發現一些更多的有意義的規則。例如,」買外套,買鞋子」(此處,外套和鞋子是較高層次上的物品或概念,因而該規則是一種泛化的關聯規則)。由於商店或超市中有成千上萬種物品,平均來講,每種物品(如滑雪衫)的支持度很低,因此有時難以發現有用規則;但如果考慮到較高層次的物品(如外套),則其支持度就較高,從而可能發現有用的規則。另外,關聯規則發現的思路還可以用於序列模式發現。用戶在購買物品時,除了具有上述關聯規律,還有時間上或序列上的規律,因為,很多時候顧客會這次買這些東西,下次買同上次有關的一些東西,接著又買有關的某些東西。

8. 數據挖掘的概念

數據挖掘( Data Mining,簡稱DM),簡單地講就是從大量數據中挖掘或抽取出知識,數據挖掘概念的定義描述有若干版本,以下給出一個被普遍採用的定義描述:
數據挖掘,又稱為資料庫中知識發現(Knowledge Discovery from Database,簡稱KDD),它是一個從大量數據中抽取挖掘出未知的、有價值的模式或規律等知識的復雜過程。 整個知識挖掘(KDD)過程是由若干挖掘步驟組成,而數據挖掘僅是其中的一個主要步驟。整個知識挖掘的主要步驟有:
數據清洗(data clearning ),其作用就是清除數據雜訊和與挖掘主題明顯無關的數據;
數據集成(data integration ),其作用就是將來自多數據源中的相關數據組合到一起;
數據轉換(data transformation ),其作用就是將數據轉換為易於進行數據才它掘的數據存儲形式;
數據挖掘(data mining ),它是知識挖掘的一個基本步驟,其作用就是利用智能方法挖掘數據模式或規律知識;
模式評佑( pattern evaluation ),其作用就是根據一定評估標准interesting measures)從挖掘結果篩選出有意義的模式知識;
知識表示(knowledge presentation ),其作用就是利用可視化和知識表達技術,向用戶展示所挖掘出的相關知識。

9. 數據挖掘的定義

技術層面:數據挖掘就是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據
中,提取隱含在其中、人們事先不知道的、但又潛在有用的信息和知識的過程。
商業層面:數據挖掘是一種新的商業信息處理技術,其主要特點是對商業資料庫中的大量
業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。

數據挖掘的任務
預測任務:根據其它屬性的值預測特定(目標)屬性的值,如回歸、分類、異常檢測。
描述任務:尋找概括數據中潛在聯系的模式,如關聯分析、演化分析、聚類分析、序列模
式挖掘。

10. 什麼是數據挖掘

數據挖掘(Data Mining)是指通過大量數據集進行分類的自動化過程,以通過數據分析來識別趨勢和模式,建立關系來解決業務問題。換句話說,數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

原則上講,數據挖掘可以應用於任何類型的信息存儲庫及瞬態數據(如數據流),如資料庫、數據倉庫、數據集市、事務資料庫、空間資料庫(如地圖等)、工程設計數據(如建築設計等)、多媒體數據(文本、圖像、視頻、音頻)、網路、數據流、時間序列資料庫等。也正因如此,數據挖掘存在以下特點:

(1)數據集大且不完整
數據挖掘所需要的數據集是很大的,只有數據集越大,得到的規律才能越貼近於正確的實際的規律,結果也才越准確。除此以外,數據往往都是不完整的。

(2)不準確性
數據挖掘存在不準確性,主要是由雜訊數據造成的。比如在商業中用戶可能會提供假數據;在工廠環境中,正常的數據往往會收到電磁或者是輻射干擾,而出現超出正常值的情況。這些不正常的絕對不可能出現的數據,就叫做雜訊,它們會導致數據挖掘存在不準確性。

(3)模糊的和隨機的
數據挖掘是模糊的和隨機的。這里的模糊可以和不準確性相關聯。由於數據不準確導致只能在大體上對數據進行一個整體的觀察,或者由於涉及到隱私信息無法獲知到具體的一些內容,這個時候如果想要做相關的分析操作,就只能在大體上做一些分析,無法精確進行判斷。
而數據的隨機性有兩個解釋,一個是獲取的數據隨機;我們無法得知用戶填寫的到底是什麼內容。第二個是分析結果隨機。數據交給機器進行判斷和學習,那麼一切的操作都屬於是灰箱操作。

閱讀全文

與如何理解數據挖掘相關的資料

熱點內容
專利代理師如何申請 瀏覽:121
跳蚤市場小朋友應該怎麼賣 瀏覽:928
映像數據是怎麼存儲的 瀏覽:19
信息欄製作是什麼意思 瀏覽:703
交易日收益怎麼算 瀏覽:180
租賃設備的市場價格怎麼調查 瀏覽:382
耀輕享怎麼代理 瀏覽:128
hi幣可以在哪個交易網賣 瀏覽:693
網頁游戲代理加盟費多少錢 瀏覽:876
有機種植技術什麼意思 瀏覽:109
圖形數據有多少種 瀏覽:467
地理信息標準是什麼 瀏覽:10
實體店小程序做什麼生意好 瀏覽:436
數據線的頭為什麼會發熱 瀏覽:510
小皙590代理有什麼產品 瀏覽:270
在哪裡看品牌數據 瀏覽:401
東莞代駕代理如何賺錢 瀏覽:430
怎麼查詢自己的證券交易號 瀏覽:369
哪些地方可以代理鍋品 瀏覽:902
攜程旅遊商家信息怎麼刪除 瀏覽:473