A. 什麼是數據挖掘數據挖掘與傳統分析方法有什麼區別
數據挖掘(英語:Datamining),又譯為資料探勘、數據采礦。它是資料庫知識發現(英語:Knowledge-Discoveryin Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識.數據挖掘所得到的信息應具 有先未知,有效和可實用三個特徵.
更多數據挖掘的信息,推薦咨詢CDA數據分析師的課程。CDA數據分析師的課程內容兼顧培養解決數據挖掘流程問題的橫向能力以及解決數據挖掘演算法問題的縱向能力。要求學生具備從數據治理根源出發的思維,通過數字化工作方法來探查業務問題,通過近因分析、宏觀根因分析等手段,再選擇業務流程優化工具還是演算法工具,而非「遇到問題調演算法包」。 點擊預約免費試聽課。
B. 什麼是數據挖掘
數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
數據挖掘流程:
定義問題:清晰地定義出業務問題,確定數據挖掘的目的。
數據准備:數據准備包括:選擇數據–在大型資料庫和數據倉庫目標中 提取數據挖掘的目標數據集;數據預處理–進行數據再加工,包括檢查數據的完整性及數據的一致性、去雜訊,填補丟失的域,刪除無效數據等。
數據挖掘:根據數據功能的類型和和數據的特點選擇相應的演算法,在凈化和轉換過的數據集上進行數據挖掘。
結果分析:對數據挖掘的結果進行解釋和評價,轉換成為能夠最終被用戶理解的知識。
C. 數據挖掘的相關學科有哪些
數據挖掘涉及的學科:統計學、資料庫系統、數據倉庫、信息檢索、機器學習、應用、模式識別、可視化、演算法、高性能計算、數理統計、機器學習、高性能計算、模式識別、神經網路、數據可視化、信息檢索、圖像與信號處理、空間數據分析等。
數據挖掘是一個比較傳統的研究方向,是從大量的、隨機的、不完全的、有雜訊的、模糊的數據中,提取隱含在其中、人們事先不知道又潛在有用信息和知識的過程。數據挖掘需要根據數據倉庫中的數據信息,選擇合適的分析工具,應用統計方法、事例推理、規則推理、決策樹、模糊集、甚至神經網路、遺傳演算法的方法處理信息,得出有用的分析信息。數據挖掘過程是一個反復循環的過程,每一個步驟如果沒有達到預期的目標,都需要回到前面的步驟,重新調整並執行。數據挖掘需要綜合運用計算機、數學以及統計學的相關知識。在大數據時代,數據挖掘被賦予了更豐富的含義,研究范圍也有了相應的拓展。
想更多了解數據挖掘相關的學科,推薦上CDA數據分析師的課程。課程內容兼顧培養解決數據挖掘流程問題的橫向能力以及解決數據挖掘演算法問題的縱向能力。要求學生具備從數據治理根源出發的思維,通過數字化工作方法來探查業務問題,通過近因分析、宏觀根因分析等手段,再選擇業務流程優化工具還是演算法工具,而非「遇到問題調演算法包」。真正理解商業思維,項目思維,能夠遇到問題解決問題。點擊預約免費試聽課。
D. 什麼是數據挖掘數據挖掘怎麼做啊
數據挖掘(Data Mining)是指通過大量數據集進行分類的自動化過程,以通過數據分析來識別趨勢和模式,建立關系來解決業務問題。換句話說,數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
原則上講,數據挖掘可以應用於任何類型的信息存儲庫及瞬態數據(如數據流),如資料庫、數據倉庫、數據集市、事務資料庫、空間資料庫(如地圖等)、工程設計數據(如建築設計等)、多媒體數據(文本、圖像、視頻、音頻)、網路、數據流、時間序列資料庫等。也正因如此,數據挖掘存在以下特點:
(1)數據集大且不完整
數據挖掘所需要的數據集是很大的,只有數據集越大,得到的規律才能越貼近於正確的實際的規律,結果也才越准確。除此以外,數據往往都是不完整的。
(2)不準確性
數據挖掘存在不準確性,主要是由雜訊數據造成的。比如在商業中用戶可能會提供假數據;在工廠環境中,正常的數據往往會收到電磁或者是輻射干擾,而出現超出正常值的情況。這些不正常的絕對不可能出現的數據,就叫做雜訊,它們會導致數據挖掘存在不準確性。
(3)模糊的和隨機的
數據挖掘是模糊的和隨機的。這里的模糊可以和不準確性相關聯。由於數據不準確導致只能在大體上對數據進行一個整體的觀察,或者由於涉及到隱私信息無法獲知到具體的一些內容,這個時候如果想要做相關的分析操作,就只能在大體上做一些分析,無法精確進行判斷。
而數據的隨機性有兩個解釋,一個是獲取的數據隨機;我們無法得知用戶填寫的到底是什麼內容。第二個是分析結果隨機。數據交給機器進行判斷和學習,那麼一切的操作都屬於是灰箱操作。
E. 數據挖掘的應用領域有哪些
數據挖掘的應用非常廣泛,只要該產業有分析價值與需求的資料庫,皆可利用數據挖掘工具進行有目的的發掘分析。常見的應用案例多發生在零售業、製造業、財務金融保險、通訊及醫療服務:
(1)商場從顧客購買商品中發現一定的關聯規則,提供打折、購物券等促銷手段,提高銷售額;
(2)保險公司通過數據挖掘建立預測模型,辨別出可能的欺詐行為,避免道德風險,減少成本,提高利潤;
(3)在製造業中,半導體的生產和測試中都產生大量的數據,就必須對這些數據進行分析,找出存在的問題,提高質量;
(4)電子商務的作用越來越大,可以用數據挖掘對網站進行分析,識別用戶的行為模式,保留客戶,提供個性化服務,優化網站設計;
一些公司運用數據挖掘的成功案例,顯示了數據挖掘的強大生命力:
美國AutoTrader是世界上最大的汽車銷售站點,每天都會有大量的用戶對網站上的信息點擊,尋求信息,其運用了SAS軟體進行數據挖掘,每天對數據進行分析,找出用戶的訪問模式,對產品的喜歡程度進行判斷,並設特定服務,取得了成功。
Reuteres是世界著名的金融信息服務公司,其利用的數據大都是外部的數據,這樣數據的質量就是公司生存的關鍵所在,必須從數據中檢測出錯誤的成分。Reuteres用SPSS的數據挖掘工具SPSS/Clementine,建立數據挖掘模型,極大地提高了錯誤的檢測,保證了信息的正確和權威性。
Bass Export是世界最大的啤酒進出口商之一,在海外80多個市場從事交易,每個星期傳送23000份定單,這就需要了解每個客戶的習慣,如品牌的喜好等,Bass Export用IBM的Intelligent Miner很好的解決了上述問題。
F. 什麼是數據挖掘,簡述其作用和應用。
數據挖掘是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。
數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統和模式識別等諸多方法來實現上述目標。
人們迫切希望能對海量數據進行深入分析,發現並提取隱藏在其中的信息,以更好地利用這些數據,正是在這樣的條件下,數據挖掘技術應運而生。
數據挖掘有很多合法的用途,例如可以在患者群的資料庫中查出某葯物和其副作用的關系。這種關系可能在1000人中也不會出現一例,但葯物學相關的項目就可以運用此方法減少對葯物有不良反應的病人數量,還有可能挽救生命。
目前數據挖掘的演算法主要包括神經網路法、決策樹法、遺傳演算法、粗糙集法、模糊集法、關聯規則法等。
根據信息存儲格式,用於挖掘的對象有關系資料庫、面向對象資料庫、數據倉庫、文本數據源、多媒體資料庫、空間資料庫、時態資料庫、異質資料庫以及internet等。
數據挖掘過程是一個反復循環的過程,每一個步驟如果沒有達到預期目標,都需要回到前面的步驟,重新調整並執行。不是每件數據挖掘的工作都需要這里列出的每一步。