① 數據挖掘是什麼
數據挖掘(Data Mining)是指通過大量數據集進行分類的自動化過程,以通過數據分析來識別趨勢和模式,建立關系來解決業務問題。換句話說,數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
② 什麼是數據挖掘,簡述其作用和應用。
數據挖掘是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。
數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統和模式識別等諸多方法來實現上述目標。
人們迫切希望能對海量數據進行深入分析,發現並提取隱藏在其中的信息,以更好地利用這些數據,正是在這樣的條件下,數據挖掘技術應運而生。
數據挖掘有很多合法的用途,例如可以在患者群的資料庫中查出某葯物和其副作用的關系。這種關系可能在1000人中也不會出現一例,但葯物學相關的項目就可以運用此方法減少對葯物有不良反應的病人數量,還有可能挽救生命。
目前數據挖掘的演算法主要包括神經網路法、決策樹法、遺傳演算法、粗糙集法、模糊集法、關聯規則法等。
根據信息存儲格式,用於挖掘的對象有關系資料庫、面向對象資料庫、數據倉庫、文本數據源、多媒體資料庫、空間資料庫、時態資料庫、異質資料庫以及internet等。
數據挖掘過程是一個反復循環的過程,每一個步驟如果沒有達到預期目標,都需要回到前面的步驟,重新調整並執行。不是每件數據挖掘的工作都需要這里列出的每一步。
③ 什麼叫數據挖掘
數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。
1. 數據挖掘能做什麼?
1)數據挖掘能做以下六種不同事情(分析方法):
分類 (Classification)
估值(Estimation)
預言(Prediction)
相關性分組或關聯規則(Affinity grouping or association rules)
聚集(Clustering)
描述和可視化(Des cription and Visualization)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以
理解成資料庫中表的屬性,即列)進行描述。
間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系
。
分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分
類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的
輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的
連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運
用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用
於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。
預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時
間後,才知道預言准確性是多少。
相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先
定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,回答問題,可能效果更好。
描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景
數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有
價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。
1)數據挖掘作為研究工具 (Research)
2)數據挖掘提高過程式控制制(Process Improvement)
3)數據挖掘作為市場營銷工具(Marketing)
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)
3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分:演算法和技術;數據;建模能力
2)數據挖掘和機器學習(Machine Learning)
機器學習是計算機科學和人工智慧AI發展的產物
機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決策樹)
數據挖掘由來
數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是一個新興
的,面向商業應用的AI研究。選擇數據挖掘這一術語,表明了與統計、精算、長期從事預
言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計
統計也開始支持數據挖掘。統計本包括預言演算法(回歸)、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
數據倉庫
OLAP(聯機分析處理)、Data Mart(數據集市)、多維資料庫
決策支持工具融合
將數據倉庫、OLAP,數據挖掘融合在一起,構成企業決策分析環境。
4. 數據挖掘的社會背景
數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上,客戶自己可能都不明確自己下一步要作什麼。所以,數據挖掘的結果,沒有人們想像中神秘,它不可能是完全正確的。
5.數據挖掘技術實現
在技術上可以根據它的工作過程分為:數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。
1) 數據的抽取
數據的抽取是數據進入倉庫的入口。由於數據倉庫是一個獨立的數據環境,它需要通過抽取過程將數據從聯機事務處理系統、外部數據源、離線的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監控等幾個方面的處理。在數據抽取方面,未來的技術發展將集中在系統功能集成化方面,以適應數據倉庫本身或數據源的變化,使系統更便於管理和維護。
2) 數據的存儲和管理
數據倉庫的組織管理方式決定了它有別於傳統資料庫的特性,也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多,且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何並行處理大量的數據、如何優化查詢等。目前,許多資料庫廠家提供的技術解決方案是擴展關系型資料庫的功能,將普通關系資料庫改造成適合擔當數據倉庫的伺服器。
3) 數據的展現
在數據展現方面主要的方式有:
查詢:實現預定義查詢、動態查詢、OLAP查詢與決策支持智能查詢;報表:產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易於理解的點線圖、直方圖、餅圖、網狀圖、互動式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關系;統計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析;挖掘:利用數據挖掘等方法,從數據中得到關於數據關系和模式的知識。
6.數據挖掘與數據倉庫融合發展
數據挖掘和數據倉庫的協同工作,一方面,可以迎合和簡化數據挖掘過程中的重要步驟,提高數據挖掘的效率和能力,確保數據挖掘中數據來源的廣泛性和完整性。另一方面,數據挖掘技術已經成為數據倉庫應用中極為重要和相對獨立的方面和工具。
數據挖掘和數據倉庫是融合與互動發展的,其學術研究價值和應用研究前景將是令人振奮的。它是數據挖掘專家、數據倉庫技術人員和行業專家共同努力的成果,更是廣大渴望從資料庫「奴隸」到資料庫「主人」轉變的企業最終用戶的通途。
④ 什麼是數據挖掘
數據挖掘又譯為資料探勘、數據采礦。是一種透過數理模式來分析企業內儲存的大量資料,以找出不同的客戶或市場劃分,分析出消費者喜好和行為的方法。它是資料庫知識發現中的一個步驟。數據挖掘一般是指從大量的數據中自動搜索隱藏於其中的有著特殊關系性的信息的過程。主要有數據准備、規律尋找和規律表示3個步驟。數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
是一個用數據發現問題、解決問題的學科。
通常通過對數據的探索、處理、分析或建模實現。
我們可以看到數據挖掘具有以下幾個特點:
基於大量數據:並非說小數據量上就不可以進行挖掘,實際上大多數數據挖掘的演算法都可以在小數據量上運行並得到結果。但是,一方面過小的數據量完全可以通過人工分析來總結規律,另一方面來說,小數據量常常無法反映出真實世界中的普遍特性。
非平凡性:所謂非平凡,指的是挖掘出來的知識應該是不簡單的,絕不能是類似某著名體育評論員所說的「經過我的計算,我發現了一個有趣的現象,到本場比賽結束 為止,這屆世界盃的進球數和失球數是一樣的。非常的巧合!」那種知識。這點看起來勿庸贅言,但是很多不懂業務知識的數據挖掘新手卻常常犯這種錯誤。
隱含性:數據挖掘是要發現深藏在數據內部的知識,而不是那些直接浮現在數據表面的信息。常用的BI工具,例如報表和OLAP,完全可以讓用戶找出這些信息。
新奇性:挖掘出來的知識應該是以前未知的,否則只不過是驗證了業務專家的經驗而已。只有全新的知識,才可以幫助企業獲得進一步的洞察力。
價值性:挖掘的結果必須能給企業帶來直接的或間接的效益。有人說數據挖掘只是「屠龍之技」,看起來神乎其神,卻什麼用處也沒有。這只是一種誤解,不可否認的 是在一些數據挖掘項目中,或者因為缺乏明確的業務目標,或者因為數據質量的不足,或者因為人們對改變業務流程的抵制,或者因為挖掘人員的經驗不足,都會導 致效果不佳甚至完全沒有效果。但大量的成功案例也在證明,數據挖掘的確可以變成提升效益的利器
⑤ 什麼是數據挖掘概念是什麼
數據挖掘一般在企業上是作為決策分析的根據,他是從大量相關的數據中挖掘出規律來,如通過分析歷年公司某產品在某地的銷售規律,像銷售額的變化規律,產品的人氣指數等,來決策下一年的工作重點和工作目標.
⑥ 數據挖掘是做什麼的
就是挖掘數據啊,通俗點說就是把零散的數據整理成可以用的數據,歸檔成符合項目用的數據
⑦ 數據挖掘的定義是什麼
數據挖掘(Data
Mining-DM)是從存放在資料庫、數據倉庫、或其它信息庫中的大量數據中挖掘有趣知識的過程川。數據挖掘有時也稱作KDD,
KDD(Knowledge
Discovery
in
Databases-KDD:知識發現)即是基於資料庫的知識發現,指的是從大型資料庫或數據倉庫中提取人們感興趣的知識,這些知識是隱含的、事先未知的、潛在有用的、易被理解的信息。實質上,這兩個概念的內涵大致相同,只是從不同的角度認識問題而已。譬如人工智慧的研究人員傾向於講KDD,而計算機和信息技術專家通常說數據挖掘。
⑧ 什麼是數據挖掘
由於數據科學剛剛興起,數據科學家作為一種新生職業被提出,數據研究高級科學家Rachel Schutt將其定義為“計算機科學家、軟體工程師和統計學家的混合體“。數據挖掘作為一個學術領域,橫跨多個學科,涵蓋了統計學、數學、機器學習和資料庫等,此外還包括各類專業方向比如從油田電力、海洋生物、歷史文本、電子通訊、法律稅務等的各個專業領域。注意每一分類都需要相當的行業經驗。
⑨ 請問什麼是數據挖掘
數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。
1. 數據挖掘能做什麼?
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Des cription and Visualization)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以
理解成資料庫中表的屬性,即列)進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系
。
· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分
類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的
輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的
連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運
用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
· 預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用
於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。
預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時
間後,才知道預言准確性是多少。
· 相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先
定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一
類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,
回答問題,可能效果更好。
· 描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景
數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有
價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。
1)數據挖掘作為研究工具 (Research)
2)數據挖掘提高過程式控制制(Process Improvement)
3)數據挖掘作為市場營銷工具(Marketing)
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)
3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分:演算法和技術;數據;建模能力
2)數據挖掘和機器學習(Machine Learning)
· 機器學習是計算機科學和人工智慧AI發展的產物
· 機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決
策樹)
· 數據挖掘由來
數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是一個新興
的,面向商業應用的AI研究。選擇數據挖掘這一術語,表明了與統計、精算、長期從事預
言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計
統計也開始支持數據挖掘。統計本包括預言演算法(回歸)、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
· 數據倉庫
· OLAP(聯機分析處理)、Data Mart(數據集市)、多維資料庫
· 決策支持工具融合
將數據倉庫、OLAP,數據挖掘融合在一起,構成企業決策分析環境。
4. 數據挖掘的社會背景
數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上
,客戶自己可能都不明確自己下一步要作什麼。所以,數據挖掘的結果,沒有人們想像中
神秘,它不可能是完全正確的。
客戶的行為是與社會環境相關連的,所以數據挖掘本身也受社會背景的影響。比如說,在
美國對銀行信用卡客戶信用評級的模型運行得非常成功,但是,它可能不適合中國
轉載的
⑩ 請通俗的講一下什麼是數據挖掘
利用數據挖掘,我們還可以做非常多的事情。
1.發現數據項之間的相關性
比如我們拿到各個城市環境、人口、交通等數據,就可以通過相關性分析來看人均汽車保有量,和空氣質量各個指標之間的關系,從而定量化地幫助制定產業經濟和環保政策。比如要不要進行更嚴厲的限購,要不要收取為其的排放稅等等。
2.把數據對象進行聚類
比如我們知道大量的人在電子商務網路消費數據,我么就可以根據消費的特徵把他們聚成很多類,每一類人我們制定不同的營銷手段,從而能夠取得銷售量的提升。比如電信運營商對人群進行聚類,然後針對性地推出電話套餐。
3.把數據對象進行分類
當我們已經有了分類之後,來了一些新的數據之後,我們可以把他分到不同不同的類去。比如醫療影像上查看肺部的病灶,可能是肺結核、可能是早起肺癌,中晚期肺癌,可能是肺上的癤結,可能是癒合的病灶等等,來了一張新的片子,我們可以通過圖像處理,就把它分到不同的類別(當然這需要我們提前對很多片子的數據進行學習)。
4.預測缺失數據或者未來的數據
很多數據集中,比如生物數據,我們已知的知識全部數據集中的一小部分,這需要我們做一些事情去預測這些數據。還有一些,想大選、股票價格預測、河流徑流量預測、城市用電量預測等,這些就是對未來數據的預測。