A. 數據挖掘的六大主要功能
數據挖掘的六大主要功能
數據挖掘的歷史雖然較短,但從20世紀90年代以來,它的發展速度很快,加之它是多學科綜合的產物,目前還沒有一個完整的定義,人們提出了多種數據挖掘的定義,例如:SAS研究所(1997):「在大量相關數據基礎之上進行數據探索和建立相關模型的先進方法」。Hand et al(2000):「數據挖掘就是在大型資料庫中尋找有意義、有價值信息的過程」確切地說,數據挖掘(Data Mining),又稱資料庫中的知識發現(Knowledge Discovery in Database,KDD),是指從大型資料庫或數據倉庫中提取隱含的、未知的、非平凡的及有潛在應用價值的信息或模式,它是資料庫研究中的一個很有應用價值的新領域,融合了資料庫、人工智慧、機器學習、統計學等多個領域的理論和技術。
數據挖掘的主要功能
數據挖掘綜合了各個學科技術,有很多的功能,當前的主要功能如下:
1、數據總結:繼承於數據分析中的統計分析。數據總結目的是對數據進行濃縮,給出它的緊湊描述。傳統統計方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。
2、分類:目的是構造一個分類函數或分類模型(也常常稱作分類器),該模型能把資料庫中的數據項映射到給定類別中的某一個。要構造分類器,需要有一個訓練樣本數據集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:(v1,v2,…,vn;c),其中vi表示欄位值,c表示類別。
例如:銀行部門根據以前的數據將客戶分成了不同的類別,現在就可以根據這些來區分新申請貸款的客戶,以採取相應的貸款方案。
3、聚類:是把整個資料庫分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個群之間的數據盡量相似。這種方法通常用於客戶細分。在開始細分之前不知道要把用戶分成幾類,因此通過聚類分析可以找出客戶特性相似的群體,如客戶消費特性相似或年齡特性相似等。在此基礎上可以制定一些針對不同客戶群體的營銷方案。
例如:將申請人分為高度風險申請者,中度風險申請者,低度風險申請者。
4、關聯分析:是尋找資料庫中值的相關性。兩種常用的技術是關聯規則和序列模式。關聯規則是尋找在同一個事件中出現的不同項的相關性;序列模式與此類似,尋找的是事件之間時間上的相關性,例如:今天銀行利率的調整,明天股市的變化。
5、預測:把握分析對象發展的規律,對未來的趨勢做出預見。例如:對未來經濟發展的判斷。
6、偏差的檢測:對分析對象的少數的、極端的特例的描述,揭示內在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩健經營,就要發現這500例的內在因素,減小以後經營的風險。
以上數據挖掘的各項功能不是獨立存在的,它們在數據挖掘中互相聯系,發揮作用。
B. 運行文件時提示 資料庫連接不成功,錯誤號:-2147024770錯誤描述:Automationerror
automation直接文藝就是;自動化【技術】自動操作;建議您備好數據,重新安裝您的軟體,多半是系統中度受損,缺文件。我的答案您滿意嗎。
C. 數據來源與處理
區域地殼穩定性基礎數據來源於中國地質科學院地質力學研究所主編的《中國區域地殼穩定性圖(1∶500萬)》,1997年由地質出版社出版[19]。基於ArcGIS平台,將中國區域地質穩定性圖數字化,並對柵格化後的數據統計分析。
斷裂活動性基礎數據來源於鄧啟東主編的《中國活動構造圖(1∶400萬)》,2007年由地震出版社出版[20]。
海拔與地表起伏度基礎數據來源於美國太空總署(NASA)和國防部國家測繪局(NIMA)聯合測量的數字地表高程模型SRTM DEM,數據精度為3弧秒(90×90m),由中國科學院資源環境數據中心提供。基於SRTM DEM數據,利用ArcGIS空間分析模塊Spatial Analyst中鄰域統計工具Neighbor-hood Statistics,以4×4像元的矩形作為模版運算元對整個研究區進行遍歷計算,分別提取各區域最高海拔和最低海拔數據,運用柵格計算器calculator,將兩者求差,得到一個新柵格圖層,其每個柵格的值是以這個柵格為中心的確定領域的地形起伏度值。
植被覆蓋度基礎數據來源於2009年全球旬NDVI數據集,空間解析度:0.05°×0.05°,坐標系統:WGS1984,NDVI值域為[-1,+1],由地球系統科學數據共享平台提供。旬NDVI數據均通過國際通用的可以進一步消除雲、大氣、太陽高度角等部分干擾的最大合成法獲得,利用像元二分模型估算植被覆蓋度。
岩溶發育程度基礎數據來源於中國地質調查局發展研究中心「區域地質調查跟蹤與部署研究項目」(121201110)。
地表濕潤指數基礎數據來源於1961~2013年中國地面降水月值0.5°×0.5°格點數據集(V2.0)數據、1961~2013年中國地面氣溫月值0.5°×0.5°格點數據集(V2.0)和日照時數數據,由中國氣象科學數據共享服務網提供。地表濕潤指數計算公式為:
W=P/ET0
式中:W為濕潤指數;P為降水量(mm);ET0為潛在蒸散量(mm)。ET0採用Thornthwaite模型計算。
土壤可蝕性基礎數據來源於世界土壤資料庫(HWSD v1.1),由地球系統科學數據共享平台提供。數據比例尺為1km格網,數據格式為Geotiff,時間為2009年。該資料庫由聯合國糧農組織(FAO)、國際應用系統分析研究所(IIASA)、荷蘭ISRIC-World Soil Information、中國科學院南京土壤研究所(ISSCAS)、歐洲委員會聯合研究中心(JRC)於2009年3月共同發布。資料庫提供了各個格網點的土壤類型(FAO-74、85、90)、土壤相位、土壤(0~100cm)理化性狀(16個指標)等信息。採用在我國廣泛使用的EPIC模型,利用土壤有機質和顆粒組成因子(粘粒、粉粒、砂粒)進行估算土壤可蝕性因子K。
土壤侵蝕強度基礎數據來源於中國1∶10萬土壤侵蝕強度等級圖(1997~2000年),由地球系統科學數據共享平台黃土高原科學數據共享平台提供。數據內容覆蓋1997~2000年1∶10萬各省土壤侵蝕強度等級數據,包括水力侵蝕、風力侵蝕、凍融侵蝕、重力侵蝕、工程侵蝕5個一級類別;微度、輕度、中度、強度、極強度、劇烈6個二級另類別,由第二次全國遙感水土流失普查獲得。
社會經濟數據採用的是全國千米網格GDP分布數據集和全國千米網格人口分布數據集,由國家科技基礎條件平台:地球系統科學數據共享平台(www.geodata.cn)提供。
土地覆被數據採用的是地球系統科學數據共享平台提供的2009年全球1km土地覆被數據集(GlobCover)。GlobCover是歐洲空間局(European Space Agency)建立的全球土地覆被數據集,數據集是根據UNLCCS分類標准,綜合採用監督分類和非監督分類兩種方法對多時相的MERIS L1B數據進行分類而得到的。GlobCover數據集空間解析度5°×5°。根據需要,本書將土地覆被類型合並為耕地、林地、草地、水域、未利用地、城鄉工礦居民用地等6種土地覆被類型。
本書柵格圖層統一重采樣為1km×1km的格網,各圖層投影參數統一設定為:Projection: Albers;False_Easting: 0.000000;False_Northing: 0.000000;Central_Meridian: 105.000000;Standard_Parallel_1:25.000000;Standard_Parallel_2: 47.000000;Latitude_Of_ Origin: 0.000000;Linear Unit: Meter(1.000000);Geographic Coordinate System: GCS_WGS_1984。