導航:首頁 > 數據處理 > 現實世界數據怎麼修改

現實世界數據怎麼修改

發布時間:2025-02-13 16:31:07

大數據處理之道(預處理方法)

大數據處理之道(預處理方法)
一:為什麼要預處理數據?
(1)現實世界的數據是骯臟的(不完整,含雜訊,不一致)
(2)沒有高質量的數據,就沒有高質量的挖掘結果(高質量的決策必須依賴於高質量的數據;數據倉庫需要對高質量的數據進行一致地集成)
(3)原始數據中存在的問題:
不一致 —— 數據內含出現不一致情況
重復
不完整 —— 感興趣的屬性沒有
含雜訊 —— 數據中存在著錯誤、或異常(偏離期望值)的數據
高維度
二:數據預處理的方法
(1)數據清洗 —— 去雜訊和無關數據
(2)數據集成 —— 將多個數據源中的數據結合起來存放在一個一致的數據存儲中
(3)數據變換 —— 把原始數據轉換成為適合數據挖掘的形式

(4)數據規約 —— 主要方法包括:數據立方體聚集,維度歸約,數據壓縮,數值歸約,離散化和概念分層等。
(5)圖說事實
三:數據選取參考原則
(1)盡可能富餘屬性名和屬性值明確的含義
(2)統一多數據源的屬性編碼
(3)去除唯一屬性
(4)去除重復屬性
(5)去除可忽略欄位
(6)合理選擇關聯欄位
(7)進一步處理:

通過填補遺漏數據、消除異常數據、平滑雜訊數據,以及糾正不一致數據,去掉數據中的噪音、填充空值、丟失值和處理不一致數據
四:用圖說話,(我還是習慣用統計圖說話)
結尾:計算機領域存在一條鄙視鏈的 ---- 學java的鄙視學C++的,有vim的鄙視用IDE的等等。
數據清洗的路子:剛拿到的數據 ----> 和數據提供者討論咨詢 -----> 數據分析(藉助可視化工具)發現臟數據 ---->清洗臟數據(藉助MATLAB或者Java/C++語言) ----->再次統計分析(Excel的data analysis不錯的,最大小值,中位數,眾數,平均值,方差等等,以及散點圖) -----> 再次發現臟數據或者與實驗無關的數據(去除) ----->最後實驗分析 ----> 社會實例驗證 ---->結束。

閱讀全文

與現實世界數據怎麼修改相關的資料

熱點內容
資料庫欄位對應的實體類怎麼寫 瀏覽:96
連鎖市場規劃如何列名單 瀏覽:403
為什麼給客戶配置存款產品 瀏覽:693
工業信息局是什麼編制 瀏覽:137
小漁市場怎麼樣 瀏覽:871
如何用婉轉的話說老公不回信息 瀏覽:962
淘寶萬寶路怎麼交易 瀏覽:624
華中數控程序如何校驗 瀏覽:847
怎麼樣介紹產品和文字 瀏覽:362
臨沂代理記賬多少一年 瀏覽:416
撫州抖音小程序開發一般多少錢 瀏覽:518
正規人事代理有哪些 瀏覽:382
貓達人微信小程序是什麼 瀏覽:507
華為的接入技術主要有哪些 瀏覽:321
如何規范編輯群信息 瀏覽:188
雲悠悠神秘交易行在哪裡 瀏覽:537
飛機控製程序用什麼編程 瀏覽:308
騰訊文檔怎麼批量篩選數據 瀏覽:735
cmd如何結束一個正在運行的程序 瀏覽:506
solidcam程序編輯後處理在哪裡 瀏覽:755