⑴ 什麼是數據挖掘
數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
數據挖掘流程:
定義問題:清晰地定義出業務問題,確定數據挖掘的目的。
數據准備:數據准備包括:選擇數據–在大型資料庫和數據倉庫目標中 提取數據挖掘的目標數據集;數據預處理–進行數據再加工,包括檢查數據的完整性及數據的一致性、去雜訊,填補丟失的域,刪除無效數據等。
數據挖掘:根據數據功能的類型和和數據的特點選擇相應的演算法,在凈化和轉換過的數據集上進行數據挖掘。
結果分析:對數據挖掘的結果進行解釋和評價,轉換成為能夠最終被用戶理解的知識。
⑵ 數據挖掘建模有哪些步驟
1.定義商業問題,數據挖掘的中心價值主要在於商業問題上,所以初步階段必須對組織的問題與需求深入了解,經過不斷與組織討論與確認之後,擬訂一個詳盡且可達成的方案。
2.數據理解,定義所需要的數據,收集完整數據,並對收集的數據做初步分析,包括識別數據的質量問題、對數據做基本觀察、除去雜訊或不完整的數據,可提升數據預處理的效率,接著設立假設前提。
3.數據預處理,因為數據源不同,常會有格式不一致等問題。因此在建立模型之前必須進行多次的檢查修正,以確保數據完整並得到凈化。
4.建立模型,根據數據形式,選擇最適合的數據挖掘技術並利用不同的數據進行模型測試,以優化預測模型,模型愈精準,有效性及可靠度愈高,對決策者做出正確的決策愈有利。
5.評價和理解,在測試中得到的結果,只對該數據有意義。實際應用中,使用不同的數據集其准確度便會有所差異,因此,此步驟最重要的目的便是了解是否有尚未被考慮到的商業問題盲點。
6.實施,數據挖掘流程通過良性循環,最後將整合過後的模型應用於商業,但模型的完成並非代表整個項目完成,知識的獲得也可以通過組織化、自動化等機制進行預測應用,該階段包含部署計劃、監督、維護、傳承與最後的報告結果,形成整個工作循環。