① 楂樼淮鏁版嵁鍒嗘瀽甯堜粈涔
鎿嶄綔鍜屽垎鏋愬嶆潅銆侀珮瀹歸噺銆侀珮緇存暟鎹銆傞珮緇存暟鎹鍒嗘瀽甯堟搷浣滃拰鍒嗘瀽澶嶆潅銆侀珮瀹歸噺銆侀珮緇存暟鎹銆傛槸鏁版嵁甯堢殑涓縐嶏紝鎸囩殑鏄涓嶅悓琛屼笟涓錛屼笓闂ㄤ粠浜嬭屼笟鏁版嵁鎼滈泦銆佹暣鐞嗐佸垎鏋愩備富瑕佹槸璁$畻鏁版嵁銆傛牴鎹鍒嗘瀽瑕佹眰錛屾彁鍙栨墍闇瑕佺殑鏁版嵁錛岃$畻鏁版嵁錛屽仛琛ㄣ傝В閲婃暟鎹銆傝В璇繪暟鎹鍚涔夈傚伐璧勯珮錛屽緢杞繪澗銆
② 什麼是高維數據
高維數據挖掘,是基於高維度的一種數據挖掘,和傳統的數據挖掘最主要的區別在於它的高維度。高維數據挖掘已成為數據挖掘的重點和難點。
隨著技術的進步使得數據收集變得越來越容易,導致資料庫規模越來越大、復雜性越來越高,如各種類型的貿易交易數據、Web 文檔、基因表達數據、文檔詞頻數據、用戶評分數據、WEB使用數據及多媒體數據等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。
(2)什麼是高維數據分析擴展閱讀:
數據挖掘的廣義觀點:數據挖掘就是從存放在資料庫,數據倉庫或其他信息庫中的大量的數據中「挖掘」有趣知識的過程。它是計算機技術研究中的一個很有應用價值的新領域,融合了資料庫、人工智慧、機器學習、統計學等多個領域的理論和技術,已成為國際上資料庫和信息決策領域中最前沿的研究方向之一,引起了學術界和工業界的廣泛關注。
隨著數據維數的升高,高維索引結構的性能迅速下降,在低維空間中,我們經常採用歐式距離作為數據之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復存在,這就給高維數據挖掘帶來了很嚴峻的考驗,一方面引起基於索引結構的數據挖掘演算法的性能下降,另一方面很多基於全空間距離函數的挖掘方法也會失效。
解決的方法可以有以下幾種:可以通過降維將數據從高維降到低維,然後用低維數據的處理辦法進行處理;對演算法效率下降問題可以通過設計更為有效的索引結構、採用增量演算法及並行演算法等來提高演算法的性能;對失效的問題通過重新定義使其獲得新生。