A. 數據的預處理包括哪些內容
數據預處理(datapreprocessing)是指在主要的處理以前對數據進行的一些處理。如對大部分地球物理面積性觀測數據在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利於計算機的運算。另外,對於一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
數據預處理的方法:
1、數據清理
數據清理常式通過填寫缺失的值、光滑雜訊數據、識別或刪除離群點並解決不一致性來「清理」數據。主要是達到如下目標:格式標准化,異常數據清除,錯誤糾正,重復數據的清除。
2、數據集成
數據集成常式將多個數據源中的數據結合起來並 統一存儲,建立數據倉庫的過程實際上就是數據集成。
3、數據變換
通過平滑聚集,數據概化,規范化等方式將數據轉換成適用於數據挖掘的形式。
4、數據歸約
數據挖掘時往往數據量非常大,在少量數據上進行挖掘分析需要很長的時間,數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍然接近於保持原數據的完整性,並結果與歸約前結果相同或幾乎相同。
B. 數據預處理包括哪些內容
數據預處理沒有統一的標准,只能說是根據不同類型的分析數據和業務需求,在對數據特性做了充分的理解之後,再選擇相關的數據預處理技術。
通常來說,數據預處理涉及到——
1)數據清理
填寫空缺的值,平滑雜訊數據,識別、刪除孤立點,解決不一致性
2)數據集成
集成多個資料庫、數據立方體或文件
3)數據變換
規范化和聚集
4)數據歸約
得到數據集的壓縮表示,它小得多,但可以得到相同或相近的結果
5)數據離散化
數據歸約的一部分,通過概念分層和數據的離散化來規約數據,對數字型數據特別重要。
C. 數據預處理的流程是什麼
數據預處理的常用流程為:去除唯一屬性、處理缺失值、屬性編碼、數據標准化正則化、特徵選擇、主成分分析。
去除唯一屬性
唯一屬性通常是一些id屬性,這些屬性並不能刻畫樣本自身的分布規律,所以簡單地刪除這些屬性即可。
處理缺失值
缺失值處理的三種方法:直接使用含有缺失值的特徵;刪除含有缺失值的特徵(該方法在包含缺失值的屬性含有大量缺失值而僅僅包含極少量有效值時是有效的);缺失值補全。
常見的缺失值補全方法:均值插補、同類均值插補、建模預測、高維映射、多重插補、極大似然估計、壓縮感知和矩陣補全。
(1)均值插補
如果樣本屬性的距離是可度量的,則使用該屬性有效值的平均值來插補缺失的值;
如果的距離是不可度量的,則使用該屬性有效值的眾數來插補缺失的值。如果使用眾數插補,出現數據傾斜會造成什麼影響?
(2)同類均值插補
首先將樣本進行分類,然後以該類中樣本的均值來插補缺失值。
(3)建模預測
將缺失的屬性作為預測目標來預測,將數據集按照是否含有特定屬性的缺失值分為兩類,利用現有的機器學習演算法對待預測數據集的缺失值進行預測。
該方法的根本的缺陷是如果其他屬性和缺失屬性無關,則預測的結果毫無意義;但是若預測結果相當准確,則說明這個缺失屬性是沒必要納入數據集中的;一般的情況是介於兩者之間。
(4)高維映射
將屬性映射到高維空間,採用獨熱碼編碼(one-hot)技術。將包含K個離散取值范圍的屬性值擴展為K+1個屬性值,若該屬性值缺失,則擴展後的第K+1個屬性值置為1。
這種做法是最精確的做法,保留了所有的信息,也未添加任何額外信息,若預處理時把所有的變數都這樣處理,會大大增加數據的維度。這樣做的好處是完整保留了原始數據的全部信息、不用考慮缺失值;缺點是計算量大大提升,且只有在樣本量非常大的時候效果才好。
(5)多重插補(MultipleImputation,MI)
多重插補認為待插補的值是隨機的,實踐上通常是估計出待插補的值,再加上不同的雜訊,形成多組可選插補值,根據某種選擇依據,選取最合適的插補值。
(6)壓縮感知和矩陣補全
(7)手動插補
插補處理只是將未知值補以我們的主觀估計值,不一定完全符合客觀事實。在許多情況下,根據對所在領域的理解,手動對缺失值進行插補的效果會更好。
D. 大數據的預處理過程包括
大數據採集過程中通常有一個或多個數據源,這些數據源包括同構或異構的資料庫、文件系統、服務介面等,易受到雜訊數據、數據值缺失、數據沖突等影響,因此需首先對收集到的大數據集合進行預處理,以保證大數據分析與預測結果的准確性與價值性。
大數據的預處理環節主要包括數據清理、數據集成、數據歸約與數據轉換等內容,可以大大提高大數據的總體質量,是大數據過程質量的體現。 數據清理技術包括對數據的不一致檢測、雜訊數據的識別、數據過濾與修正等方面,有利於提高大數據的一致性、准確性、真實性和可用性等方面的質量;
數據集成則是將多個數據源的數據進行集成,從而形成集中、統一的資料庫、數據立方體等,這一過程有利於提高大數據的完整性、一致性、安全性和可用性等方面質量;
數據歸約是在不損害分析結果准確性的前提下降低數據集規模,使之簡化,包括維歸約、數據歸約、數據抽樣等技術,這一過程有利於提高大數據的價值密度,即提高大數據存儲的價值性。
數據轉換處理包括基於規則或元數據的轉換、基於模型與學習的轉換等技術,可通過轉換實現數據統一,這一過程有利於提高大數據的一致性和可用性。
總之,數據預處理環節有利於提高大數據的一致性、准確性、真實性、可用性、完整性、安全性和價值性等方面質量,而大數據預處理中的相關技術是影響大數據過程質量的關鍵因素