⑴ 請通俗的講一下什麼是數據挖掘
利用數據挖掘,我們還可以做非常多的事情。
1.發現數據項之間的相關性
比如我們拿到各個城市環境、人口、交通等數據,就可以通過相關性分析來看人均汽車保有量,和空氣質量各個指標之間的關系,從而定量化地幫助制定產業經濟和環保政策。比如要不要進行更嚴厲的限購,要不要收取為其的排放稅等等。
2.把數據對象進行聚類
比如我們知道大量的人在電子商務網路消費數據,我么就可以根據消費的特徵把他們聚成很多類,每一類人我們制定不同的營銷手段,從而能夠取得銷售量的提升。比如電信運營商對人群進行聚類,然後針對性地推出電話套餐。
3.把數據對象進行分類
當我們已經有了分類之後,來了一些新的數據之後,我們可以把他分到不同不同的類去。比如醫療影像上查看肺部的病灶,可能是肺結核、可能是早起肺癌,中晚期肺癌,可能是肺上的癤結,可能是癒合的病灶等等,來了一張新的片子,我們可以通過圖像處理,就把它分到不同的類別(當然這需要我們提前對很多片子的數據進行學習)。
4.預測缺失數據或者未來的數據
很多數據集中,比如生物數據,我們已知的知識全部數據集中的一小部分,這需要我們做一些事情去預測這些數據。還有一些,想大選、股票價格預測、河流徑流量預測、城市用電量預測等,這些就是對未來數據的預測。
⑵ 為什麼要進行數據挖掘
為什麼要建立數據倉庫,數據倉庫和資料庫的區別?因為理論上的優點說法都很多,但要真正很好地理解,能簡潔地向客戶闡述明白,讓客戶覺得建立數據倉庫是一件值得做的事情,還是值得討論一下這個問題。有如下一些朋友們說法(自己在批註處談點個人的意見):
A
資料庫是一個裝數據(信息的原材料)的地方。 數據倉庫是一種系統,這種系統也是用資料庫裝東西。(這有點沒說清楚:個人理解資料庫和數據倉庫當然都是裝數據的地方,關鍵的區別是裝的什麼樣的數據,資料庫裝的原始數據,沒經過任何加工;而數據倉庫是為了滿足分析需要,對源數據進行了Transform過程,具體是怎樣一個處理過程,可以從Bill Inmon的倉庫定義四個特性進行理解。) 數據倉庫系統(用資料庫裝東西)與其他基礎業務系統(例如財務系統、銷售系統、人力資源系統等,也是用資料庫裝東西)的區別是: 基礎業務系統的特點是各管各的,例如財務系統生產了白菜,那麼用一個資料庫來裝,人力資源系統生產了豬肉,再用一個資料庫來裝。我要做一道菜,需要分別到各個資料庫去取,比較麻煩(現實的情況是大部分時候讓種菜的農民伯伯送過來,但送過來的東西不一定是我想要的,而且不同的時候我想要不同的東西,經常會被農民伯伯罵,弄得雙方都不開心)。另外一方面,各個資料庫中放的是一些比較原始的東西,我要拿過來做菜,還需要經過很麻煩的清洗過程,一不小心裏面可能就藏著一條大青蟲。 那麼,數據倉庫系統就是建立一個大的超市,將各地農民伯伯出產的東西收集過來,清洗干凈,分門別類地放好。這樣,你要哪種菜的時候,直接從超市裡面拿就可以了。
B
早期一直不理解數據倉庫是什麼困惑得很。 宏觀一點講,數據倉庫就是堆放公司所有數據的地方,之所以把數據都堆在一起,是為了從中間找到有價值的東西。 數據倉庫更多的是一個概念,不要把數據倉庫想成那些號稱是數據倉庫的軟體產品們。(數據倉庫的建立和數據挖掘都是一個過程,可以從數據倉庫生命周期和OLTP系統生命周期的區別進行理解,數據挖掘過程CRISP-DM) 數據倉庫的物理上就是資料庫。相對業務系統資料庫叫OLTP資料庫(用於業務處理),這種資料庫叫OLAP資料庫(用於業務分析,不知道有沒有這種說法,個人覺得OLAP和資料庫還是不能簡單地稱為OLAP資料庫的;OLAP是針對特定問題的聯機數據訪問和數據分析而產生的一種技術,它滿足DDS從多種角度對數據進行快速、一致、交互地分析,克服傳統DDS交互能力差的弊病,使決策者能夠對數據進行深入觀察。OLAP伺服器使用為用戶預定義的多維數據視圖對數據倉庫的信息進行統計分析處理,為具有明確分析范圍和分析要求的用戶提供高性能的決策支持在線分析處理,只是基於DW上的一種多維分析方式,當然我也可以不用OLAP,直接做基於DW的DM)。 數據倉庫的概念是針對以下基本需求產生的: 公司的業務系統很多,業務系統的歷史數據不方便查詢。不同的業務系統往往管理部門不同,地域不同。能不能將所有這些數據集中起來,再淘淘有沒有有意義的業務規律。 數據倉庫資料庫往往很大,因為公司所有的數據集中得越多,越能淘到有價值的發現。例如隨便就100G以上。 數據倉庫的組成十分繁雜,既有業務系統的歷史數據,又有人事、財務數據,還要自己建一些基礎性的數據,例如,公共假期數據、地理信息、國家信息等等。 數據倉庫概念包含從業務生產系統採集數據的程序,這個程序還不能影響業務系統的運行。(屬於所謂「ETL」過程) 數據倉庫包括業務系統長期的歷史數據,例如5年,用來分析。(所謂「ODS」數據) 數據倉庫包括針對某相業務值(例如銷售量)重新打上標簽的業務流水數據。(所謂「事實表」、「維度表」)。 數據倉庫概念興許還包含報表生成工具(所謂「BI」工具)。這些工具能夠達到幾年前所謂DSS(決策分析)的效果。 數據倉庫的客戶歷史資量的分析,也許又與CRM系統粘點邊。 總之,一點,一個公司想針對已有的歷史業務數據,充分的利用它們,那麼就上數據倉庫項目。至於哪些嚇唬人的大寫字母的組合,只是達到這個目標的科學技術罷了。 牢記住數據倉庫的基本需求,不要被供應商嚇著。
C
數據倉庫可以說是決策支持系統(個人不同意這個觀點,決策支持系統(DDS)是在管理信息系統的基礎上發展起來的,在數據倉庫、OLAP技術和數據挖掘工具出現以前,就已經有DSS了,但其在實際應用開發過程中暴露出許多問題,DW為克服傳統DDS存在的問題提供了技術上的支持,基於DW上的DSS效果自然有很大提升),能幫助老闆了解企業的整體全貌,看到數據倉庫提供的經過整理統計歸納的數據後老闆憑自己的管理經驗可以發現企業的問題或困難或成功因素在哪一方面,然後可以不斷的追溯數據,直到確定到最具體的細節上,這樣能夠不斷提升老闆或管理層的管理水平,不斷改善企業的管理。我們知道的最好的一個例子就是美國某大型超市啤酒和尿布的故事。 沃爾瑪公司在美國的一位店面經理曾發現,每周,啤酒和尿布的銷量都會有一次同比攀升,一時卻搞不清是什麼原因。後來,沃爾瑪運用商業智能(Business Intelligence,簡稱BI)技術發現,購買這兩種產品的顧客幾乎都是25歲到35歲、家中有嬰兒的男性,每次購買的時間均在周末。沃爾瑪在對相關數據分析後得知,這些人習慣晚上邊看球賽、邊喝啤酒,邊照顧孩子,為了圖省事而使用一次性的尿布。得到這個結果後,沃爾瑪決定把這兩種商品擺放在一起,結果,這兩種商品的銷量都有了顯著增加。 資料庫是數據倉庫的基礎。數據倉庫實際上也是由資料庫的很多表組成的(這句話明顯不成立,數據倉庫里表分為事實表和維表,這和資料庫里的表還是有本質區別的,組織方式完全不一樣,一個是面向主題,一個是面向業務的)。需要把存放大量操作性業務數據的資料庫經過篩選、抽取、歸納、統計、轉換到一個新的資料庫中。然後再進行數據展現。老闆關注的是數據展現的結果。
⑶ 數據分析和數據挖掘的深入學習為什麼重要
1、大數據(big data):
指無法在可承受的時間范圍內用常規工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產;
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》 中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據進行分析處理。大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)Veracity(真實性) 。
2、數據分析:
是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中,數據分析可幫助人們作出判斷,以便採取適當行動。
數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。
3、數據挖掘(英語:Data mining):
又譯為資料探勘、數據采礦。它是資料庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
⑷ 數據挖掘為什麼要對數據進行分類
不太明白您說的分類是什麼意思?是在數據預處理階段,還是挖掘的目的?
如果在數據預處理階段,可能是只對某個領域的數據進行挖掘,從而可以得出更置信的結論;
如果是挖掘目的,也就是模型的輸出,這就比較好理解了。
⑸ 為什麼說數據挖掘技術是未來信息處理的骨幹技術之一
參考答案:數據挖掘之所以被稱為未來信息處理的骨幹技術之一,主要在於它以一種全新的概念改變著人類利用數據的方式。數據挖掘和知識發現使數據處理技術進入了一個更高級的階段。它不僅能對過去的數據進行簡單地查詢,並且能夠找出過去數據之間的潛在聯系,進行更高層次的分析,以便更好地做出理想的決策、預測未來的發展趨勢等。
⑹ 為什麼數據挖掘要從機器學習中分離出來
數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。數據挖掘本質上像是機器學習和人工智慧的基礎,
⑺ 何謂數據倉庫為什麼要建立數據倉庫何謂數據挖掘它有哪些方面的功能
何謂數據倉庫?為什麼要建立數據倉庫?
答:數據倉庫是一種新的數據處理體系結構,是面向主題的、集成的、不可更新的(穩定性)、隨時間不斷變化(不同時間)的數據集合,為企業決策支持系統提供所需的集成信息。
建立數據倉庫的目的有3個:
一是為了解決企業決策分析中的系統響應問題,數據倉庫能提供比傳統事務資料庫更快的大規模決策分析的響應速度。
二是解決決策分析對數據的特殊需求問題。決策分析需要全面的、正確的集成數據,這是傳統事務資料庫不能直接提供的。
三是解決決策分析對數據的特殊操作要求。決策分析是面向專業用戶而非一般業務員,需要使用專業的分析工具,對分析結果還要以商業智能的方式進行表現,這是事務資料庫不能提供的。
何謂數據挖掘?它有哪些方面的功能?
答:從大量的、不完全的、有雜訊的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數據挖掘。相關的名稱有知識發現、數據分析、數據融合、決策支持等。
數據挖掘的功能包括:概念描述、關聯分析、分類與預測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。
⑻ 什麼是數據挖掘數據挖掘與傳統分析方法有什麼區別
數據挖掘(英語:Datamining),又譯為資料探勘、數據采礦。它是資料庫知識發現(英語:Knowledge-Discoveryin Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識.數據挖掘所得到的信息應具 有先未知,有效和可實用三個特徵.
更多數據挖掘的信息,推薦咨詢CDA數據分析師的課程。CDA數據分析師的課程內容兼顧培養解決數據挖掘流程問題的橫向能力以及解決數據挖掘演算法問題的縱向能力。要求學生具備從數據治理根源出發的思維,通過數字化工作方法來探查業務問題,通過近因分析、宏觀根因分析等手段,再選擇業務流程優化工具還是演算法工具,而非「遇到問題調演算法包」。 點擊預約免費試聽課。