❶ 數據挖掘的技術都有哪些
如果我們學習數據分析,那麼肯定少不了也要好好學習一下數據挖掘。我們都知道,要想掌握好數據挖掘就需要掌握很多的相關技術。一般來說,數據挖掘工作的技術有關聯規則、分類、聚類、決策樹、序列模式,下面我們就給大家講述一下這些知識。
1.關聯規則
首先我們給大家講述一下關聯規則,一般來說,關聯規則使兩個或多個項之間的關聯以確定它們之間的模式。關聯通常用於銷售點系統,以確定產品之間的共同趨勢。在數據挖掘中,這是一個非常簡單的方法,人們會驚訝與其中有多少智慧和洞察,它可以提供許多企業的日常使用的信息,來提高效率和增加收入,應用領域包括物品的實物擺放組織、市場營銷和產品的交叉銷售和上銷。所以解決商業問題離不開數據挖掘技術中的關聯規則。
2.分類
然後給大家說一說分類我們可以使用多個屬性來標記特定類別的項。分類將項目分配到目標類別或類中,以便准確地預測該類內部會發生什麼。某些行業會將客戶進行分類。通過分類我們能夠知道其中的情況,然後根據這些情況進行下一步動作。
3.聚類
接著給大家說一下聚類,聚類是將數據記錄組合在一起的方法,通常這樣做是為了讓最終用戶對資料庫中發生的事情有一個高層次的認識。查看對象分組情況可以幫助市場細分領域的企業。在這個例子中可以使用聚類將市場細分為客戶子集。然後,每個子集可以根據簇的屬性來制定特定的營銷策略。
4.決策樹
決策樹用於分類或預測數據。決策樹從一個簡單的問題開始,它有兩個或多個的答案。每個答案將會引出進一步的問題,該問題又可被用於分類或識別可被進一步分類的數據,或者可以基於每個答案進行預測。將數據分成多個葉結點,所有葉結點的數據記錄數的加和等於輸入數據的記錄總數。例如,父結點中的數據記錄總數等於其兩個子結點中包含的記錄總和。當在決策樹上上下移動時,流失前和流失後的客戶數量是需要存儲的。能夠很容易的理解模型的構建。如果你需要針對可能流失的客戶提供一份市場營銷方案,則該模型非常易於使用。
5.序列模式
序列模式識別相似事件的趨勢或通常情況發生的可能。這種數據挖掘技術經常被用來助於理解用戶購買行為。許多零售商通過數據和序列模式來決定他們用於展示的產品。根據客戶數據,您可以識別客戶在一年中不同時間購買的特定的商品集合。
通過上述的內容我們不難看出,數據挖掘工作基本上都是去解決商業問題的,所以對於產品經理來說,好好了解和掌握數據挖掘知識,對自己的職業發展是非常有幫助的,當然,只是了解這些還是不夠的,我們還要學習更多的知識來豐富自己,讓自己的職場人生更加光彩溢目。
❷ 大數據挖掘技術涉及哪些內容
大數據挖掘技術涉及的主要內容有:模式跟蹤,數據清理和准備,基於分類的數據挖掘技術,異常值檢測,關聯,聚類。
基於大環境下的數據特點,挖掘技術與對應:
1.數據來源多, 大數據挖掘的研究對象往往不只涉及一個業務系統, 肯定是多個系統的融合分析, 因此,需要強大的ETL技術, 將多個系統的數據整合到一起, 並且, 多個系統的數據可能標准不同, 需要清洗。
2.數據的維度高, 整合起來的數據就不只傳統數據挖掘的那一些維度了, 可能成百上千維, 這需要降維技術了。
3.大數據量的計算, 在單台伺服器上是計算不了的, 這就需要用分布式計算, 所以要掌握各種分布式計算框架, 像hadoop, spark之類, 需要掌握機器學習演算法的分布式實現。
數據挖掘:目前,還需要改進已有數據挖掘和機器學習技術;開發數據網路挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基於對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網路行為分析、情感語義分析等面向領域的大數據挖掘技術。
想了解更多大數據挖掘技術,請關注CDA數據分析課程。CDA(Certified Data Analyst),即「CDA 數據分析」,是在數字經濟大背景和人工智慧時代趨勢下,面向全行業的專業權威國際資格認證,旨在提升全民數字技能,助力企業數字化轉型,推動行業數字化發展。國家發展戰略的要求,崗位人才的缺口以及市場規模的帶動,都從不同方面體現了數據分析師職業的重要性。大數據挖掘技術的學習,有利於提高人在職場的信譽度,增加職場競爭力,提高自己的經濟地位。點擊預約免費試聽課。
❸ 數據挖掘的定義
技術層面:數據挖掘就是從大量的、不完全的、有雜訊的、模糊的、隨機的實際應用數據
中,提取隱含在其中、人們事先不知道的、但又潛在有用的信息和知識的過程。
商業層面:數據挖掘是一種新的商業信息處理技術,其主要特點是對商業資料庫中的大量
業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。
數據挖掘的任務
預測任務:根據其它屬性的值預測特定(目標)屬性的值,如回歸、分類、異常檢測。
描述任務:尋找概括數據中潛在聯系的模式,如關聯分析、演化分析、聚類分析、序列模
式挖掘。
❹ 數據挖掘的概念
數據挖掘( Data Mining,簡稱DM),簡單地講就是從大量數據中挖掘或抽取出知識,數據挖掘概念的定義描述有若干版本,以下給出一個被普遍採用的定義描述:
數據挖掘,又稱為資料庫中知識發現(Knowledge Discovery from Database,簡稱KDD),它是一個從大量數據中抽取挖掘出未知的、有價值的模式或規律等知識的復雜過程。 整個知識挖掘(KDD)過程是由若干挖掘步驟組成,而數據挖掘僅是其中的一個主要步驟。整個知識挖掘的主要步驟有:
數據清洗(data clearning ),其作用就是清除數據雜訊和與挖掘主題明顯無關的數據;
數據集成(data integration ),其作用就是將來自多數據源中的相關數據組合到一起;
數據轉換(data transformation ),其作用就是將數據轉換為易於進行數據才它掘的數據存儲形式;
數據挖掘(data mining ),它是知識挖掘的一個基本步驟,其作用就是利用智能方法挖掘數據模式或規律知識;
模式評佑( pattern evaluation ),其作用就是根據一定評估標准interesting measures)從挖掘結果篩選出有意義的模式知識;
知識表示(knowledge presentation ),其作用就是利用可視化和知識表達技術,向用戶展示所挖掘出的相關知識。
❺ 什麼叫數據挖掘
數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。
1. 數據挖掘能做什麼?
1)數據挖掘能做以下六種不同事情(分析方法):
分類 (Classification)
估值(Estimation)
預言(Prediction)
相關性分組或關聯規則(Affinity grouping or association rules)
聚集(Clustering)
描述和可視化(Des cription and Visualization)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以
理解成資料庫中表的屬性,即列)進行描述。
間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系
。
分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分
類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的
輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的
連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運
用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用
於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。
預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時
間後,才知道預言准確性是多少。
相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先
定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,回答問題,可能效果更好。
描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景
數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有
價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。
1)數據挖掘作為研究工具 (Research)
2)數據挖掘提高過程式控制制(Process Improvement)
3)數據挖掘作為市場營銷工具(Marketing)
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)
3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分:演算法和技術;數據;建模能力
2)數據挖掘和機器學習(Machine Learning)
機器學習是計算機科學和人工智慧AI發展的產物
機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決策樹)
數據挖掘由來
數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是一個新興
的,面向商業應用的AI研究。選擇數據挖掘這一術語,表明了與統計、精算、長期從事預
言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計
統計也開始支持數據挖掘。統計本包括預言演算法(回歸)、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
數據倉庫
OLAP(聯機分析處理)、Data Mart(數據集市)、多維資料庫
決策支持工具融合
將數據倉庫、OLAP,數據挖掘融合在一起,構成企業決策分析環境。
4. 數據挖掘的社會背景
數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上,客戶自己可能都不明確自己下一步要作什麼。所以,數據挖掘的結果,沒有人們想像中神秘,它不可能是完全正確的。
5.數據挖掘技術實現
在技術上可以根據它的工作過程分為:數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。
1) 數據的抽取
數據的抽取是數據進入倉庫的入口。由於數據倉庫是一個獨立的數據環境,它需要通過抽取過程將數據從聯機事務處理系統、外部數據源、離線的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監控等幾個方面的處理。在數據抽取方面,未來的技術發展將集中在系統功能集成化方面,以適應數據倉庫本身或數據源的變化,使系統更便於管理和維護。
2) 數據的存儲和管理
數據倉庫的組織管理方式決定了它有別於傳統資料庫的特性,也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多,且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何並行處理大量的數據、如何優化查詢等。目前,許多資料庫廠家提供的技術解決方案是擴展關系型資料庫的功能,將普通關系資料庫改造成適合擔當數據倉庫的伺服器。
3) 數據的展現
在數據展現方面主要的方式有:
查詢:實現預定義查詢、動態查詢、OLAP查詢與決策支持智能查詢;報表:產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易於理解的點線圖、直方圖、餅圖、網狀圖、互動式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關系;統計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析;挖掘:利用數據挖掘等方法,從數據中得到關於數據關系和模式的知識。
6.數據挖掘與數據倉庫融合發展
數據挖掘和數據倉庫的協同工作,一方面,可以迎合和簡化數據挖掘過程中的重要步驟,提高數據挖掘的效率和能力,確保數據挖掘中數據來源的廣泛性和完整性。另一方面,數據挖掘技術已經成為數據倉庫應用中極為重要和相對獨立的方面和工具。
數據挖掘和數據倉庫是融合與互動發展的,其學術研究價值和應用研究前景將是令人振奮的。它是數據挖掘專家、數據倉庫技術人員和行業專家共同努力的成果,更是廣大渴望從資料庫「奴隸」到資料庫「主人」轉變的企業最終用戶的通途。
❻ 數據挖掘的定義是什麼有哪幾種挖掘技術
您好,我是研究數據挖掘的,給予簡易完整的回答,希望能幫到你。
數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的數據集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。它是一門涉及面很廣的交叉學科,包括機器學習、數理統計、神經網路、資料庫、模式識別、粗糙集、模糊數學等相關技術。
數據挖掘的技術,可粗分為:統計方法、機器學習方法、神經網路方法和資料庫方法。統計方法,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、CBR、遺傳演算法、貝葉斯信念網路等。神經網路方法,可細分為:前向神經網路(BP演算法等)、自組織神經網路(自組織特徵映射、競爭學習等)等。資料庫方法主要是基於可視化的多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。
❼ 大數據挖掘主要涉及哪些技術
大數據挖掘主要涉及以下四種:
1. 關聯規則
關聯規則使兩個或多個項之間的關聯以確定它們之間的模式。例如,超市可以確定顧客在買草莓時也常買鮮奶油,反之亦然。關聯通常用於銷售點系統,以確定產品之間的共同趨勢。
2. 分類
我們可以使用多個屬性來標記特定類別的項。分類將項目分配到目標類別或類中,以便准確地預測該類內部會發生什麼。某些行業會將客戶進行分類。
3. 聚類
「聚類是將數據記錄組合在一起的方法」查看對象分組情況可以幫助市場細分領域的企業。在這個例子中可以使用聚類將市場細分為客戶子集。然後,每個子集可以根據簇的屬性來制定特定的營銷策略。
4. 決策樹
決策樹用於分類或預測數據。決策樹從一個簡單的問題開始,它有兩個或多個的答案。每個答案將會引出進一步的問題,該問題又可被用於分類或識別可被進一步分類的數據,或者可以基於每個答案進行預測。
5. 序列模式
序列模式識別相似事件的趨勢或通常情況發生的可能。這種數據挖掘技術經常被用來助於理解用戶購買行為。許多零售商通過數據和序列模式來決定他們用於展示的產品。
想要了解更多有關數據挖掘的信息,可以了解一下CDA數據分析師的課程。課程內容兼顧培養解決數據挖掘流程問題的橫向能力以及解決數據挖掘演算法問題的縱向能力。要求學生具備從數據治理根源出發的思維,通過數字化工作方法來探查業務問題,通過近因分析、宏觀根因分析等手段,再選擇業務流程優化工具還是演算法工具,而非「遇到問題調演算法包」。點擊預約免費試聽課
❽ 請問什麼是數據挖掘
數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。
1. 數據挖掘能做什麼?
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Des cription and Visualization)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以
理解成資料庫中表的屬性,即列)進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系
。
· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分
類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的
輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的
連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運
用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
· 預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用
於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。
預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時
間後,才知道預言准確性是多少。
· 相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先
定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一
類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,
回答問題,可能效果更好。
· 描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景
數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有
價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。
1)數據挖掘作為研究工具 (Research)
2)數據挖掘提高過程式控制制(Process Improvement)
3)數據挖掘作為市場營銷工具(Marketing)
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)
3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分:演算法和技術;數據;建模能力
2)數據挖掘和機器學習(Machine Learning)
· 機器學習是計算機科學和人工智慧AI發展的產物
· 機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決
策樹)
· 數據挖掘由來
數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是一個新興
的,面向商業應用的AI研究。選擇數據挖掘這一術語,表明了與統計、精算、長期從事預
言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計
統計也開始支持數據挖掘。統計本包括預言演算法(回歸)、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
· 數據倉庫
· OLAP(聯機分析處理)、Data Mart(數據集市)、多維資料庫
· 決策支持工具融合
將數據倉庫、OLAP,數據挖掘融合在一起,構成企業決策分析環境。
4. 數據挖掘的社會背景
數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上
,客戶自己可能都不明確自己下一步要作什麼。所以,數據挖掘的結果,沒有人們想像中
神秘,它不可能是完全正確的。
客戶的行為是與社會環境相關連的,所以數據挖掘本身也受社會背景的影響。比如說,在
美國對銀行信用卡客戶信用評級的模型運行得非常成功,但是,它可能不適合中國
轉載的
❾ 數據挖掘技術主要包括哪些
數據挖掘技術主要有決策樹 、神經網路 、回歸 、關聯規則 、聚類 、貝葉斯分類6中。
1、決策樹技術。
決策樹是一種非常成熟的、普遍採用的數據挖掘技術。在決策樹里,所分析的數據樣本先是集成為一個樹根,然後經過層層分枝,最終形成若干個結點,每個結點代表一個結論。
2、神經網路技術。
神經網路是通過數學演算法來模仿人腦思維的,它是數據挖掘中機器學習的典型代表。神經網路是人腦的抽象計算模型,數據挖掘中的「神經網路」是由大量並行分布的微處理單元組成的,它有通過調整連接強度從經驗知識中進行學習的能力,並可以將這些知識進行應用。
3、回歸分析技術。
回歸分析包括線性回歸,這里主要是指多元線性回歸和邏輯斯蒂回歸。其中,在數據化運營中更多使用的是邏輯斯蒂回歸,它又包括響應預測、分類劃分等內容。
4、關聯規則技術。
關聯規則是在資料庫和數據挖掘領域中被發明並被廣泛研究的一種重要模型,關聯規則數據挖掘的主要目的是找出數據集中的頻繁模式,即多次重復出現的模式和並發關系,即同時出現的關系,頻繁和並發關系也稱作關聯。
5、聚類分析技術。
聚類分析有一個通俗的解釋和比喻,那就是「物以類聚,人以群分」。針對幾個特定的業務指標,可以將觀察對象的群體按照相似性和相異性進行不同群組的劃分。經過劃分後,每個群組內部各對象間的相似度會很高,而在不同群組之間的對象彼此間將具有很高的相異度。
6、貝葉斯分類技術。
貝葉斯分類方法是非常成熟的統計學分類方法,它主要用來預測類成員間關系的可能性。比如通過一個給定觀察值的相關屬性來判斷其屬於一個特定類別的概率。貝葉斯分類方法是基於貝葉斯定理的,樸素貝葉斯分類方法作為一種簡單貝葉斯分類演算法甚至可以跟決策樹和神經網路演算法相媲美。
❿ 什麼是數據挖掘
數據挖掘又譯為資料探勘、數據采礦。是一種透過數理模式來分析企業內儲存的大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。它是資料庫知識發現中的一個步驟。數據挖掘一般是指從大量的數據中自動搜索隱藏於其中的有著特殊關系性的信息的過程。主要有數據准備、規律尋找和規律表示3個步驟。數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
是一個用數據發現問題、解決問題的學科。
通常通過對數據的探索、處理、分析或建模實現。
我們可以看到數據挖掘具有以下幾個特點:
基於大量數據:並非說小數據量上就不可以進行挖掘,實際上大多數數據挖掘的演算法都可以在小數據量上運行並得到結果。但是,一方面過小的數據量完全可以通過人工分析來總結規律,另一方面來說,小數據量常常無法反映出真實世界中的普遍特性。
非平凡性:所謂非平凡,指的是挖掘出來的知識應該是不簡單的,絕不能是類似某著名體育評論員所說的「經過我的計算,我發現了一個有趣的現象,到本場比賽結束 為止,這屆世界盃的進球數和失球數是一樣的。非常的巧合!」那種知識。這點看起來勿庸贅言,但是很多不懂業務知識的數據挖掘新手卻常常犯這種錯誤。
隱含性:數據挖掘是要發現深藏在數據內部的知識,而不是那些直接浮現在數據表面的信息。常用的BI工具,例如報表和OLAP,完全可以讓用戶找出這些信息。
新奇性:挖掘出來的知識應該是以前未知的,否則只不過是驗證了業務專家的經驗而已。只有全新的知識,才可以幫助企業獲得進一步的洞察力。
價值性:挖掘的結果必須能給企業帶來直接的或間接的效益。有人說數據挖掘只是「屠龍之技」,看起來神乎其神,卻什麼用處也沒有。這只是一種誤解,不可否認的 是在一些數據挖掘項目中,或者因為缺乏明確的業務目標,或者因為數據質量的不足,或者因為人們對改變業務流程的抵制,或者因為挖掘人員的經驗不足,都會導 致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,數據挖掘的確可以變成提升效益的利器