導航:首頁 > 數據處理 > 數據挖掘由哪個提出

數據挖掘由哪個提出

發布時間:2022-05-12 11:38:33

① 請問什麼是數據挖掘

數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。
1. 數據挖掘能做什麼?

1)數據挖掘能做以下六種不同事情(分析方法):

· 分類 (Classification)

· 估值(Estimation)

· 預言(Prediction)

· 相關性分組或關聯規則(Affinity grouping or association rules)

· 聚集(Clustering)

· 描述和可視化(Des cription and Visualization)

2)數據挖掘分類

以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘

· 直接數據挖掘

目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以

理解成資料庫中表的屬性,即列)進行描述。

· 間接數據挖掘

目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系



· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘

3)各種分析方法的簡介

· 分類 (Classification)

首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分

類模型,對於沒有分類的數據進行分類。

例子:

a. 信用卡申請者,分類為低、中、高風險

b. 分配客戶到預先定義的客戶分片

注意: 類的個數是確定的,預先定義好的

· 估值(Estimation)

估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的

輸出;分類的類別是確定數目的,估值的量是不確定的。

例子:

a. 根據購買模式,估計一個家庭的孩子個數

b. 根據購買模式,估計一個家庭的收入

c. 估計real estate的價值

一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的

連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運

用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。

· 預言(Prediction)

通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用

於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。

預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時

間後,才知道預言准確性是多少。

· 相關性分組或關聯規則(Affinity grouping or association rules)

決定哪些事情將一起發生。

例子:

a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)

b. 客戶在購買A後,隔一段時間,會購買B (序列分析)

· 聚集(Clustering)

聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先

定義好的類,不需要訓練集。

例子:

a. 一些特定症狀的聚集可能預示了一個特定的疾病

b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群

聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一

類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,

回答問題,可能效果更好。

· 描述和可視化(Des cription and Visualization)

是對數據挖掘結果的表示方式。

2.數據挖掘的商業背景

數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有

價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。

1)數據挖掘作為研究工具 (Research)

2)數據挖掘提高過程式控制制(Process Improvement)

3)數據挖掘作為市場營銷工具(Marketing)

4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)

3.數據挖掘的技術背景

1)數據挖掘技術包括三個主要部分:演算法和技術;數據;建模能力

2)數據挖掘和機器學習(Machine Learning)

· 機器學習是計算機科學和人工智慧AI發展的產物

· 機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決

策樹)

· 數據挖掘由來

數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是一個新興

的,面向商業應用的AI研究。選擇數據挖掘這一術語,表明了與統計、精算、長期從事預

言模型的經濟學家之間沒有技術的重疊。

3)數據挖掘和統計

統計也開始支持數據挖掘。統計本包括預言演算法(回歸)、抽樣、基於經驗的設計等

4)數據挖掘和決策支持系統

· 數據倉庫

· OLAP(聯機分析處理)、Data Mart(數據集市)、多維資料庫

· 決策支持工具融合

將數據倉庫、OLAP,數據挖掘融合在一起,構成企業決策分析環境。

4. 數據挖掘的社會背景

數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上

,客戶自己可能都不明確自己下一步要作什麼。所以,數據挖掘的結果,沒有人們想像中

神秘,它不可能是完全正確的。

客戶的行為是與社會環境相關連的,所以數據挖掘本身也受社會背景的影響。比如說,在

美國對銀行信用卡客戶信用評級的模型運行得非常成功,但是,它可能不適合中國

轉載的

② 數據挖掘,機器學習,深度學習這些概念有區別嗎

數據挖掘(英語:Data mining),又譯為資料探勘、數據采礦。它是資料庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
它是使計算機具有智能的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納、綜合而不是演繹。
深度學習的概念源於人工神經網路的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵,以發現數據的分布式特徵表示。
深度學習的概念由Hinton等人於2006年提出。基於深度置信網路(DBN)提出非監督貪心逐層訓練演算法,為解決深層結構相關的優化難題帶來希望,隨後提出多層自動編碼器深層結構。此外Lecun等人提出的卷積神經網路是第一個真正多層結構學習演算法,它利用空間相對關系減少參數數目以提高訓練性能。
深度學習是機器學習研究中的一個新的領域,其動機在於建立、模擬人腦進行分析學習的神經網路,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。

③ 什麼是數據挖掘

由於數據科學剛剛興起,數據科學家作為一種新生職業被提出,數據研究高級科學家Rachel Schutt將其定義為“計算機科學家、軟體工程師和統計學家的混合體“。數據挖掘作為一個學術領域,橫跨多個學科,涵蓋了統計學、數學、機器學習和資料庫等,此外還包括各類專業方向比如從油田電力、海洋生物、歷史文本、電子通訊、法律稅務等的各個專業領域。注意每一分類都需要相當的行業經驗。

④ 數據挖掘是誰最早提出的

1989年 ACM大會上提出的

⑤ 數據挖掘開始於哪一年

【一】根據塗子沛先生所講,數據挖掘開始興起於1989年。

【二】數據挖掘(英語:Data mining),又譯為資料探勘、數據采礦。它是資料庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中自動搜索隱藏於其中的有著特殊關系性(屬於Association rule learning)的信息的過程。數據挖掘是在多個學科發展的基礎上發展起來的。隨著資料庫技術的發展應用,數據的積累不斷膨脹,導致簡單的查詢和統計已經無法滿足企業的商業需求,急需一些革命性的技術去挖掘數據背後的信息。

【三】數據挖掘完整的步驟如下:

① 理解數據和數據的來源(understanding)。

② 獲取相關知識與技術(acquisition)。

③ 整合與檢查數據(integration and checking)。

④ 去除錯誤或不一致的數據(data cleaning)。

⑤ 建立模型和假設(model and hypothesis development)。

⑥ 實際數據挖掘工作(data mining)。

⑦ 測試和驗證挖掘結果(testing and verification)。

⑧ 解釋和應用(interpretation and use)。

⑥ 數據挖掘的起源與發展

什麼是數據挖掘
數據挖掘(Data Mining),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數據挖掘的廣義觀點:數據挖掘就是從存放在資料庫,數據倉庫或其他信息庫中的大量的數據中「挖掘」有趣知識的過程。數據挖掘,又稱為資料庫中知識發現(Knowledge Discovery in Database, KDD), 也有人把數據挖掘視為資料庫中知識發現過程的一個基本步驟。知識發現過程以下步驟組成:(1)數據清理,(2)數據集成,(3)數據選擇,(4)數據變換,(5)數據挖掘,(6)模式評估,(7)知識表示。數據挖掘可以與用戶或知識庫交互。
並非所有的信息發現任務都被視為數據挖掘。例如,使用資料庫管理系統查找個別的記錄,或通過網際網路的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的演算法和數據結構,但是它們主要依賴傳統的計算機科學技術和數據的明顯特徵來創建索引結構,從而有效地組織和檢索信息。盡管如此,數據挖掘技術也已用來增強信息檢索系統的能力。
[編輯本段]數據挖掘的起源
需要是發明之母。近年來,數據挖掘引起了信息產業界的極大關注,其主要原因是存在大量數據,可以廣泛使用,並且迫切需要將這些數據轉換成有用的信息和知識。獲取的信息和知識可以廣泛用於各種應用,包括商務管理,生產控制,市場分析,工程設計和科學探索等。
數據挖掘利用了來自如下一些領域的思想:(1) 來自統計學的抽樣、估計和假設檢驗,(2) 人工智慧、模式識別和機器學習的搜索演算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、信號處理、可視化和信息檢索。一些其他領域也起到重要的支撐作用。特別地,需要資料庫系統提供有效的存儲、索引和查詢處理支持。源於高性能(並行)計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據,並且當數據不能集中到一起處理時更是至關重要。
[編輯本段]數據挖掘能做什麼
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Description and Visualization)
· 復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以理解成資料庫中表的屬性,即列)進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系 。
· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
· 預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時間後,才知道預言准確性是多少。
· 相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,回答問題,可能效果更好。
· 描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
[編輯本段]數據挖掘中的關聯規則
1.什麼是關聯規則
在描述有關關聯規則的一些細節之前,我們先來看一個有趣的故事: "尿布與啤酒"的故事。
在一家超市裡,有一個有趣的現象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發生在美國沃爾瑪連鎖店超市的真實案例,並一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統,為了能夠准確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上,沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是:"跟尿布一起購買最多的商品竟是啤酒!經過大量實際調查和分析,揭示了一個隱藏在"尿布與啤酒"背後的美國人的一種行為模式:在美國,一些年輕的父親下班後經常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班後為小孩買尿布,而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。
按常規思維,尿布與啤酒風馬牛不相及,若不是藉助數據挖掘技術對大量交易數據進行挖掘分析,沃爾瑪是不可能發現數據內在這一有價值的規律的。
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯系。Agrawal等於1993年首先提出了挖掘顧客交易資料庫中項集間的關聯規則問題,以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的演算法進行優化,如引入隨機采樣、並行的思想等,以提高演算法挖掘規則的效率;對關聯規則的應用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題,最近幾年已被業界所廣泛研究。
2.關聯規則挖掘過程、分類及其相關演算法
2.1關聯規則挖掘的過程
關聯規則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets),第二階段再由這些高頻項目組中產生關聯規則(Association Rules)。
關聯規則挖掘的第一階段必須從原始資料集合中,找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言,必須達到某一水平。一項目組出現的頻率稱為支持度(Support),以一個包含A與B兩個項目的2-itemset為例,我們可以經由公式(1)求得包含{A,B}項目組的支持度,若支持度大於等於所設定的最小支持度(Minimum Support)門檻值時,則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組(Frequent k-itemset),一般表示為Large k或Frequent k。演算法並從Large k的項目組中再產生Large k+1,直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要產生關聯規則(Association Rules)。從高頻項目組產生關聯規則,是利用前一步驟的高頻k-項目組來產生規則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規則所求得的信賴度滿足最小信賴度,稱此規則為關聯規則。例如:經由高頻k-項目組{A,B}所產生的規則AB,其信賴度可經由公式(2)求得,若信賴度大於等於最小信賴度,則稱AB為關聯規則。
就沃爾馬案例而言,使用關聯規則挖掘技術,對交易資料庫中的紀錄進行資料挖掘,首先必須要設定最小支持度與最小信賴度兩個門檻值,在此假設最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關聯規則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%於此應用範例中的意義為:在所有的交易紀錄資料中,至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布,啤酒)>=70%於此應用範例中的意義為:在所有包含尿布的交易紀錄資料中,至少有70%的交易會同時購買啤酒。因此,今後若有某消費者出現購買尿布的行為,超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布,啤酒」關聯規則,因為就該超市過去的交易紀錄而言,支持了「大部份購買尿布的交易,會同時購買啤酒」的消費行為。
從上面的介紹還可以看出,關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始資料庫中的指標值是取連續的數據,則在關聯規則挖掘之前應該進行適當的數據離散化(實際上就是將某個區間的值對應於某個值),數據的離散化是數據挖掘前的重要環節,離散化的過程是否合理將直接影響關聯規則的挖掘結果。
2.2關聯規則的分類
按照不同情況,關聯規則可以進行分類如下:
1.基於規則中處理的變數的類別,關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的,它顯示了這些變數之間的關系;而數值型關聯規則可以和多維關聯或多層關聯規則結合起來,對數值型欄位進行處理,將其進行動態的分割,或者直接對原始的數據進行處理,當然數值型關聯規則中也可以包含種類變數。例如:性別=「女」=>職業=「秘書」 ,是布爾型關聯規則;性別=「女」=>avg(收入)=2300,涉及的收入是數值類型,所以是一個數值型關聯規則。
2.基於規則中數據的抽象層次,可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中,所有的變數都沒有考慮到現實的數據是具有多個不同的層次的;而在多層的關聯規則中,對數據的多層性已經進行了充分的考慮。例如:IBM台式機=>Sony列印機,是一個細節數據上的單層關聯規則;台式機=>Sony列印機,是一個較高層次和細節層次之間的多層關聯規則。
3.基於規則中涉及到的數據的維數,關聯規則可以分為單維的和多維的。
在單維的關聯規則中,我們只涉及到數據的一個維,如用戶購買的物品;而在多維的關聯規則中,要處理的數據將會涉及多個維。換成另一句話,單維關聯規則是處理單個屬性中的一些關系;多維關聯規則是處理各個屬性之間的某些關系。例如:啤酒=>尿布,這條規則只涉及到用戶的購買的物品;性別=「女」=>職業=「秘書」,這條規則就涉及到兩個欄位的信息,是兩個維上的一條關聯規則。
2.3關聯規則挖掘的相關演算法
1.Apriori演算法:使用候選項集找頻繁項集
Apriori演算法是一種最有影響的挖掘布爾關聯規則頻繁項集的演算法。其核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布爾關聯規則。在這里,所有支持度大於最小支持度的項集稱為頻繁項集,簡稱頻集。
該演算法的基本思想是:首先找出所有的頻集,這些項集出現的頻繁性至少和預定義的最小支持度一樣。然後由頻集產生強關聯規則,這些規則必須滿足最小支持度和最小可信度。然後使用第1步找到的頻集產生期望的規則,產生只包含集合的項的所有規則,其中每一條規則的右部只有一項,這里採用的是中規則的定義。一旦這些規則被生成,那麼只有那些大於用戶給定的最小可信度的規則才被留下來。為了生成所有頻集,使用了遞推的方法。
可能產生大量的候選集,以及可能需要重復掃描資料庫,是Apriori演算法的兩大缺點。
2.基於劃分的演算法
Savasere等設計了一個基於劃分的演算法。這個演算法先把資料庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊並對它生成所有的頻集,然後把產生的頻集合並,用來生成所有可能的頻集,最後計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而演算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該演算法是可以高度並行的,可以把每一分塊分別分配給某一個處理器生成頻集。產生頻集的每一個循環結束後,處理器之間進行通信來產生全局的候選k-項集。通常這里的通信過程是演算法執行時間的主要瓶頸;而另一方面,每個獨立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集演算法
針對Apriori演算法的固有缺陷,J. Han等提出了不產生候選挖掘頻繁項集的方法:FP-樹頻集演算法。採用分而治之的策略,在經過第一遍掃描之後,把資料庫中的頻集壓縮進一棵頻繁模式樹(FP-tree),同時依然保留其中的關聯信息,隨後再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關,然後再對這些條件庫分別進行挖掘。當原始數據量很大的時候,也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明,FP-growth對不同長度的規則都有很好的適應性,同時在效率上較之Apriori演算法有巨大的提高。
3.該領域在國內外的應用
3.1關聯規則發掘技術在國內外的應用
就目前而言,關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中,它可以成功預測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息,供使用本行ATM機的用戶了解。如果資料庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候,資料庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什麼產品感興趣。
同時,一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘,然後設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售,也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國,「數據海量,信息缺乏」是商業銀行在數據大集中之後普遍所面對的尷尬。目前金融業實施的大多數資料庫只能實現數據的錄入、查詢、統計等較低層次的功能,卻無法發現數據中存在的各種有用的信息,譬如對這些數據進行分析,發現其數據模式及特徵,然後可能發現某個客戶、消費群體或組織的金融和商業興趣,並可觀察金融市場的變化趨勢。可以說,關聯規則挖掘的技術在我國的研究與應用並不是很廣泛深入。
3.2近年來關聯規則發掘技術的一些研究
由於許多應用問題往往比超市購買問題更復雜,大量研究從不同的角度對關聯規則做了擴展,將更多的因素集成到關聯規則挖掘方法之中,以此豐富關聯規則的應用領域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關系,時態關系,多表挖掘等。近年來圍繞關聯規則的研究主要集中於兩個方面,即擴展經典關聯規則能夠解決問題的范圍,改善經典關聯規則挖掘演算法效率和規則興趣性。

我是網路知道搜索的,你可以參考這個網站
祝你好運

大數據概念是在哪一年由誰首次提出的

大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。

在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》 中大數據指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有數據進行分析處理。


於「大數據」(Big data)研究機構Gartner給出了這樣的定義。「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。

麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。

大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。

從技術上看,大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分布式架構。它的特色在於對海量數據進行分布式數據挖掘。但它必須依託雲計算的分布式處理、分布式資料庫和雲存儲、虛擬化技術。

隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。分析師團隊認為,大數據(Big data)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。

大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)資料庫、數據挖掘、分布式文件系統、分布式資料庫、雲計算平台、互聯網和可擴展的存儲系統。

資料參考網路大數據

⑧ 數據挖掘提出的背景

數據挖掘(Data Mining,DM)又稱資料庫中的知識發現(Knowledge Discover in Database,KDD),是目前人工智慧和資料庫領域研究的熱點問題,所謂數據挖掘是指從資料庫的大量數據中揭示出隱含的、先前未知的並有潛在價值的信息的非平凡過程。數據挖掘是一種決策支持過程,它主要基於人工智慧、機器學習、模式識別、統計學、資料庫、可視化技術等,高度自動化地分析企業的數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。
知識發現過程由以下三個階段組成:(1)數據准備,(2)數據挖掘,(3)結果表達和解釋。數據挖掘可以與用戶或知識庫交互。
數據挖掘
數據挖掘
數據挖掘是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據准備、規律尋找和規律表示3個步驟。數據准備是從相關的數據源中選取所需的數據並整合成用於數據挖掘的數據集;規律尋找是用某種方法將數據集所含的規律找出來;規律表示是盡可能以用戶可理解的方式(如可視化)將找出的規律表示出來。
數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析,等等。
並非所有的信息發現任務都被視為數據挖掘。例如,使用資料庫管理系統查找個別的記錄,或通過網際網路的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的演算法和數據結構,但是它們主要依賴傳統的計算機科學技術和數據的明顯特徵來創建索引結構,從而有效地組織和檢索信息。盡管如此,數據挖掘技術也已用來增強信息檢索系統的能力。
起源
需要是發明之母。近年來,數據挖掘引起了信息產業界的極大關注,其主要原因是存在大量數據,可以廣泛使用,並且迫切需要將這些數據轉換成有用的信息和知識。獲取的信息和知識可以廣泛用於各種應用,包括商務管理,生產控制,市場分析,工程設計和科學探索等。
數據挖掘利用了來自如下一些領域的思想:(1) 來自統計學的抽樣、估計和假設檢驗,(2)人工智慧、模式識別和機器學習的搜索演算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、信號處理、可視化和信息檢索。一些其他領域也起到重要的支撐作用。特別地,需要資料庫系統提供有效的存儲、索引和查詢處理支持。源於高性能(並行)計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據,並且當數據不能集中到一起處理時更是至關重要。
發展階段
第一階段:電子郵件階段
這個階段可以認為是從70年代開始,平均的通訊量以每年幾倍的速度增長。
第二階段:信息發布階段
從1995年起,以Web技術為代表的信息發布系統,爆炸式地成長起來,成為目前Internet的主要應用。中小企業如何把握好從「粗放型」到「精準型」營銷時代的電子商務。
第三階段: EC(Electronic Commerce),即電子商務階段
EC在美國也才剛剛開始,之所以把EC列為一個劃時代的東西,是因為Internet的最終主要商業用途,就是電子商務。同時反過來也可以說,若干年後的商業信息,主要是通過Internet傳遞。Internet即將成為我們這個商業信息社會的神經系統。1997年底在加拿大溫哥華舉行的第五次亞太經合組織非正式首腦會議(APEC)上美國總統柯林頓提出敦促各國共同促進電子商務發展的議案,其引起了全球首腦的關注,IBM、HP和Sun等國際著名的信息技術廠商已經宣布1998年為電子商務年。
第四階段:全程電子商務階段
隨著SaaS(Software as a service)軟體服務模式的出現,軟體紛紛登陸互聯網[5],延長了電子商務鏈條,形成了當下最新的「全程電子商務」概念模式。

⑨ 什麼是數據挖掘,或數據挖掘的過程是什麼

1.1 數據挖掘的興起

1.1.1 數據豐富與知識匱乏

整個知識發現過程是由若乾重要步驟組成(數據挖掘只是其中一個重要步驟):

1)數據清洗:清除數據雜訊和與挖掘主題明顯無關的數據

2)數據集成:將來自多數據源中的相關數據組合到一起

3)數據轉換:將數據轉換為易於進行數據挖掘的數據存儲形式

4)數據挖掘:它是知識挖掘的一個重要步驟,其作用是利用智能方法挖掘數據模式或規律知識

5)模式評估:其作用是根據一定評估標准從挖掘結果篩選出有意義的模式知識

6)知識表示:其作用是利用可視化和知識表達技術,向用戶展示所挖掘出的相關知識

1.1.4 數據挖掘解決的商業問題(案例)

⑩ 什麼是數據挖掘

數據挖掘(Data Mining)是指通過大量數據集進行分類的自動化過程,以通過數據分析來識別趨勢和模式,建立關系來解決業務問題。換句話說,數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

原則上講,數據挖掘可以應用於任何類型的信息存儲庫及瞬態數據(如數據流),如資料庫、數據倉庫、數據集市、事務資料庫、空間資料庫(如地圖等)、工程設計數據(如建築設計等)、多媒體數據(文本、圖像、視頻、音頻)、網路、數據流、時間序列資料庫等。也正因如此,數據挖掘存在以下特點:

(1)數據集大且不完整
數據挖掘所需要的數據集是很大的,只有數據集越大,得到的規律才能越貼近於正確的實際的規律,結果也才越准確。除此以外,數據往往都是不完整的。

(2)不準確性
數據挖掘存在不準確性,主要是由雜訊數據造成的。比如在商業中用戶可能會提供假數據;在工廠環境中,正常的數據往往會收到電磁或者是輻射干擾,而出現超出正常值的情況。這些不正常的絕對不可能出現的數據,就叫做雜訊,它們會導致數據挖掘存在不準確性。

(3)模糊的和隨機的
數據挖掘是模糊的和隨機的。這里的模糊可以和不準確性相關聯。由於數據不準確導致只能在大體上對數據進行一個整體的觀察,或者由於涉及到隱私信息無法獲知到具體的一些內容,這個時候如果想要做相關的分析操作,就只能在大體上做一些分析,無法精確進行判斷。
而數據的隨機性有兩個解釋,一個是獲取的數據隨機;我們無法得知用戶填寫的到底是什麼內容。第二個是分析結果隨機。數據交給機器進行判斷和學習,那麼一切的操作都屬於是灰箱操作。

閱讀全文

與數據挖掘由哪個提出相關的資料

熱點內容
杭州哪個市場有冰淇淋料買 瀏覽:411
老鄉雞小程序怎麼做 瀏覽:906
wow陽炎怎麼交易 瀏覽:153
小程序如何引流商家 瀏覽:230
ai技術合成肌肉男跳舞怎麼拍 瀏覽:382
英雄聯盟數據從哪個app看 瀏覽:755
工作代理安排如何填寫 瀏覽:228
考研代理一個月能掙多少錢 瀏覽:729
福建哪個縣農業技術好 瀏覽:145
強迫交易一年了還沒判刑為什麼 瀏覽:953
開個什麼加盟店代理 瀏覽:426
臻御生態交易手續費多少 瀏覽:338
不讓進行法律程序怎麼辦 瀏覽:884
人工數據線地線怎麼焊接 瀏覽:783
可以學習的技術工作有哪些 瀏覽:132
產品效果如何討論 瀏覽:156
數據摳鼻軟體哪個好用 瀏覽:827
重慶的鮮花批發市場有哪些 瀏覽:997
酷炫產品短片怎麼拍 瀏覽:754
怎麼看自己的交易額 瀏覽:106