導航:首頁 > 數據處理 > 如何將原始數據變成維度規約

如何將原始數據變成維度規約

發布時間:2024-07-04 16:28:10

大數據處理之道(預處理方法)

大數據處理之道(預處理方法)
一:為什麼要預處理數據?
(1)現實世界的數據是骯臟的(不完整,含雜訊,不一致)
(2)沒有高質量的數據,就沒有高質量的挖掘結果(高質量的決策必須依賴於高質量的數據;數據倉庫需要對高質量的數據進行一致地集成)
(3)原始數據中存在的問題:
不一致 —— 數據內含出現不一致情況
重復
不完整 —— 感興趣的屬性沒有
含雜訊 —— 數據中存在著錯誤、或異常(偏離期望值)的數據
高維度
二:數據預處理的方法
(1)數據清洗 —— 去雜訊和無關數據
(2)數據集成 —— 將多個數據源中的數據結合起來存放在一個一致的數據存儲中
(3)數據變換 —— 把原始數據轉換成為適合數據挖掘的形式

(4)數據規約 —— 主要方法包括:數據立方體聚集,維度歸約,數據壓縮,數值歸約,離散化和概念分層等。
(5)圖說事實
三:數據選取參考原則
(1)盡可能富餘屬性名和屬性值明確的含義
(2)統一多數據源的屬性編碼
(3)去除唯一屬性
(4)去除重復屬性
(5)去除可忽略欄位
(6)合理選擇關聯欄位
(7)進一步處理:

通過填補遺漏數據、消除異常數據、平滑雜訊數據,以及糾正不一致數據,去掉數據中的噪音、填充空值、丟失值和處理不一致數據
四:用圖說話,(我還是習慣用統計圖說話)
結尾:計算機領域存在一條鄙視鏈的 ---- 學java的鄙視學C++的,有vim的鄙視用IDE的等等。
數據清洗的路子:剛拿到的數據 ----> 和數據提供者討論咨詢 -----> 數據分析(藉助可視化工具)發現臟數據 ---->清洗臟數據(藉助MATLAB或者Java/C++語言) ----->再次統計分析(Excel的data analysis不錯的,最大小值,中位數,眾數,平均值,方差等等,以及散點圖) -----> 再次發現臟數據或者與實驗無關的數據(去除) ----->最後實驗分析 ----> 社會實例驗證 ---->結束。

⑵ 鏁版嵁瑙勭害鏂規硶鏈夊摢浜

涓銆佹暟鎹褰掔害鍩烘湰鐭ヨ瘑錛

瀵逛簬灝忓瀷鎴栦腑鍨鏁版嵁闆錛屼竴鑸鐨鏁版嵁棰勫勭悊姝ラゅ凡緇忚凍澶熴備絾瀵圭湡姝eぇ鍨嬫暟鎹闆嗘潵璁詫紝鍦ㄥ簲鐢鏁版嵁鎸栨帢鎶鏈浠ュ墠錛屾洿鍙鑳介噰鍙栦竴涓涓闂寸殑銆侀濆栫殑姝ラ-鏁版嵁褰掔害銆傛湰姝ラや腑綆鍖栨暟鎹鐨勪富棰樻槸緇村綊綰︼紝涓昏侀棶棰樻槸鏄鍚﹀彲鍦ㄦ病鏈夌壓鐗叉垚鏋滆川閲忕殑鍓嶆彁涓嬶紝涓㈠純榪欎簺宸插噯澶囧拰棰勫勭悊鐨勬暟鎹錛岃兘鍚﹀湪閫傞噺鐨勬椂闂村拰絀洪棿閲屾鏌ュ凡鍑嗗囩殑鏁版嵁鍜屽凡寤虹珛鐨勫瓙闆嗐

瀵規暟鎹鐨勬弿榪幫紝鐗瑰緛鐨勬寫閫夛紝褰掔害鎴栬漿鎹㈡槸鍐沖畾鏁版嵁鎸栨帢鏂規堣川閲忕殑鏈閲嶈侀棶棰樸傚湪瀹炶返涓錛岀壒寰佺殑鏁伴噺鍙杈懼埌鏁扮櫨錛屽傛灉鎴戜滑鍙闇瑕佷笂鐧炬潯鏍鋒湰鐢ㄤ簬鍒嗘瀽錛屽氨闇瑕佽繘琛岀淮褰掔害錛屼互鎸栨帢鍑哄彲闈犵殑妯″瀷錛涘彟涓鏂歸潰錛岄珮緇村害寮曡搗鐨勬暟鎹瓚呰礋錛屼細浣誇竴浜涙暟鎹鎸栨帢綆楁硶涓嶅疄鐢錛屽敮涓鐨勬柟娉曚篃灝辨槸榪涜岀淮褰掔害銆傞勫勭悊鏁版嵁闆嗙殑3涓涓昏佺淮搴﹂氬父浠ュ鉤闈㈡枃浠剁殑褰㈠紡鍑虹幇錛氬垪錛堢壒寰侊級錛岃岋紙鏍鋒湰錛夊拰鐗瑰緛鐨勫礆紝鏁版嵁褰掔害榪囩▼涔熷氨鏄涓変釜鍩烘湰鎿嶄綔錛氬垹闄ゅ垪錛屽垹闄よ岋紝鍑忓皯鍒椾腑鐨勫箋

鍦ㄨ繘琛屾暟鎹鎸栨帢鍑嗗囨椂榪涜屾爣鍑嗘暟鎹褰掔害鎿嶄綔錛屾垜浠闇瑕佺煡閬撲粠榪欎簺鎿嶄綔涓鎴戜滑浼氬緱鍒板拰澶卞幓浠涔堬紝鍏ㄩ潰鐨勬瘮杈冨拰鍒嗘瀽娑夊強鍒板備笅鍑犱釜鏂歸潰鐨勫弬鏁幫細

錛1錛夎$畻鏃墮棿錛氳緝綆鍗曠殑鏁版嵁錛屽嵆緇忚繃鏁版嵁褰掔害鍚庣殑緇撴灉錛屽彲鍑忓皯鏁版嵁鎸栨帢娑堣楃殑鏃墮棿銆

錛2錛夐勬祴/鎻忚堪綺懼害錛氫及閲忎簡鏁版嵁褰掔撼鍜屾傛嫭涓烘ā鍨嬬殑濂藉潖銆

錛3錛夋暟鎹鎸栨帢妯″瀷鐨勬弿榪幫細綆鍗曠殑鎻忚堪閫氬父鏉ヨ嚜鏁版嵁褰掔害錛岃繖鏍鋒ā鍨嬭兘寰楀埌鏇村ソ鐞嗚В銆

鏁版嵁褰掔害綆楁硶鐗瑰緛錛

錛1錛夊彲嫻嬫

錛2錛夊彲璇嗗埆鎬

錛3錛鍗曡皟鎬

錛4錛変竴鑷存

錛5錛夋敹鐩婂炲噺

錛6錛変腑鏂鎬

錛7錛変紭鍏堟潈

浜屻佹暟鎹褰掔害鏂規硶錛

1銆佺壒寰佸綊綰︼細

鐢ㄧ浉搴旂壒寰佹緔㈡暟鎹閫氬父涓嶅彧涓烘暟鎹鎸栨帢鐩鐨勮屾敹闆嗭紝鍗曠嫭澶勭悊鐩稿叧鐗瑰緛鍙浠ユ洿鏈夋晥錛屾垜浠甯屾湜閫夋嫨涓庢暟鎹鎸栨帢搴旂敤鐩稿叧鐨勬暟鎹錛屼互杈懼埌鐢ㄦ渶灝忕殑嫻嬮噺鍜屽勭悊閲忚幏寰楁渶濂界殑鎬ц兘銆傜壒寰佸綊綰﹀勭悊鐨勬晥鏋滐細

錛1錛夋洿灝戠殑鏁版嵁錛屾彁楂樻寲鎺樻晥鐜

錛2錛夋洿楂樼殑鏁版嵁鎸栨帢澶勭悊綺懼害

錛3錛夌畝鍗曠殑鏁版嵁鎸栨帢澶勭悊緇撴灉

錛4錛夋洿灝戠殑鐗瑰緛銆

鍜岀敓鎴愬綊綰﹀悗鐨勭壒寰侀泦鏈夊叧鐨勬爣鍑嗕換鍔℃湁涓や釜錛

錛1錛夌壒寰侀夋嫨錛氬熀浜庡簲鐢ㄩ嗗煙鐨勭煡璇嗗拰鎸栨帢鐩鏍囷紝鍒嗘瀽鑰呭彲浠ラ夋嫨鍒濆嬫暟鎹闆嗕腑鐨勪竴涓鐗瑰緛瀛愰泦銆傜壒寰佹帓鍒楃畻娉曪紝鏈灝忓瓙闆嗙畻娉

錛2錛夌壒寰佹瀯鎴愶細鐗瑰緛鏋勬垚渚濊禆浜庡簲鐢ㄧ煡璇嗐

鐗瑰緛閫夋嫨鐨勭洰鏍囨槸瑕佹壘鍑虹壒寰佺殑涓涓瀛愰泦錛屾ゅ瓙闆嗗湪鏁版嵁鎸栨帢鐨勬ц兘涓婃瘮寰椾笂鏁翠釜鐗瑰緛闆嗐傜壒寰侀夋嫨鐨勪竴縐嶅彲琛屾妧鏈鏄鍩轟簬騫沖潎鍊鍜屾柟宸鐨勬瘮杈冿紝姝ゆ柟娉曠殑涓昏佺己鐐規槸鐗瑰緛鐨勫垎甯冩湭鐭ャ傛渶浼樻柟娉曠殑榪戜技錛

錛1錛夊彧瀵規湁鍓嶆櫙鐨勭壒寰佸瓙闆嗚繘琛屾鏌

錛2錛夌敤璁$畻綆鍗曠殑璺濈誨害閲忔浛鎹㈣宸搴﹂噺

錛3錛夊彧鏍規嵁澶ч噺鏁版嵁鐨勫瓙闆嗛夋嫨鐗瑰緛銆

閱讀全文

與如何將原始數據變成維度規約相關的資料

熱點內容
手游代理有什麼優勢 瀏覽:337
軸類工件有哪些技術要求 瀏覽:108
哪些國家援助武漢疫情最新數據 瀏覽:692
春之堂產品有哪些 瀏覽:852
手機系統錯誤怎麼關閉程序 瀏覽:891
銅陵市市場辦歸哪個單位 瀏覽:226
南陽奶粉代理商多少家 瀏覽:941
1萬個實驗數據如何顯示 瀏覽:601
蒂拉產品怎麼樣 瀏覽:655
qq添加新好友的附加信息怎麼改 瀏覽:358
發票信息錯誤對方已認證怎麼處理 瀏覽:229
湖州製作一個網站資料庫怎麼弄 瀏覽:763
技術水平高超的說明怎麼寫 瀏覽:485
腐蝕性產品含有什麼成分 瀏覽:151
cf哪個公司代理 瀏覽:403
貨幣市場是交易什麼的市場 瀏覽:484
企業上市前如何交易 瀏覽:237
數控車床程序怎麼調用程序段 瀏覽:548
驅動相關程序是什麼意思 瀏覽:399
淘寶利用了哪些信息化手段 瀏覽:927