① 大數據處理之道(預處理方法)
大數據處理之道(預處理方法)
一:為什麼要預處理數據?
(1)現實世界的數據是骯臟的(不完整,含雜訊,不一致)
(2)沒有高質量的數據,就沒有高質量的挖掘結果(高質量的決策必須依賴於高質量的數據;數據倉庫需要對高質量的數據進行一致地集成)
(3)原始數據中存在的問題:
不一致 —— 數據內含出現不一致情況
重復
不完整 —— 感興趣的屬性沒有
含雜訊 —— 數據中存在著錯誤、或異常(偏離期望值)的數據
高維度
二:數據預處理的方法
(1)數據清洗 —— 去雜訊和無關數據
(2)數據集成 —— 將多個數據源中的數據結合起來存放在一個一致的數據存儲中
(3)數據變換 —— 把原始數據轉換成為適合數據挖掘的形式
(4)數據規約 —— 主要方法包括:數據立方體聚集,維度歸約,數據壓縮,數值歸約,離散化和概念分層等。
(5)圖說事實
三:數據選取參考原則
(1)盡可能富餘屬性名和屬性值明確的含義
(2)統一多數據源的屬性編碼
(3)去除唯一屬性
(4)去除重復屬性
(5)去除可忽略欄位
(6)合理選擇關聯欄位
(7)進一步處理:
通過填補遺漏數據、消除異常數據、平滑雜訊數據,以及糾正不一致數據,去掉數據中的噪音、填充空值、丟失值和處理不一致數據
四:用圖說話,(我還是習慣用統計圖說話)
結尾:計算機領域存在一條鄙視鏈的 ---- 學java的鄙視學C++的,有vim的鄙視用IDE的等等。
數據清洗的路子:剛拿到的數據 ----> 和數據提供者討論咨詢 -----> 數據分析(藉助可視化工具)發現臟數據 ---->清洗臟數據(藉助MATLAB或者Java/C++語言) ----->再次統計分析(Excel的data analysis不錯的,最大小值,中位數,眾數,平均值,方差等等,以及散點圖) -----> 再次發現臟數據或者與實驗無關的數據(去除) ----->最後實驗分析 ----> 社會實例驗證 ---->結束。