导航:首页 > 数据处理 > 如何将原始数据变成维度规约

如何将原始数据变成维度规约

发布时间:2024-07-04 16:28:10

大数据处理之道(预处理方法)

大数据处理之道(预处理方法)
一:为什么要预处理数据?
(1)现实世界的数据是肮脏的(不完整,含噪声,不一致)
(2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成)
(3)原始数据中存在的问题:
不一致 —— 数据内含出现不一致情况
重复
不完整 —— 感兴趣的属性没有
含噪声 —— 数据中存在着错误、或异常(偏离期望值)的数据
高维度
二:数据预处理的方法
(1)数据清洗 —— 去噪声和无关数据
(2)数据集成 —— 将多个数据源中的数据结合起来存放在一个一致的数据存储中
(3)数据变换 —— 把原始数据转换成为适合数据挖掘的形式

(4)数据规约 —— 主要方法包括:数据立方体聚集,维度归约,数据压缩,数值归约,离散化和概念分层等。
(5)图说事实
三:数据选取参考原则
(1)尽可能富余属性名和属性值明确的含义
(2)统一多数据源的属性编码
(3)去除唯一属性
(4)去除重复属性
(5)去除可忽略字段
(6)合理选择关联字段
(7)进一步处理:

通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致数据,去掉数据中的噪音、填充空值、丢失值和处理不一致数据
四:用图说话,(我还是习惯用统计图说话)
结尾:计算机领域存在一条鄙视链的 ---- 学java的鄙视学C++的,有vim的鄙视用IDE的等等。
数据清洗的路子:刚拿到的数据 ----> 和数据提供者讨论咨询 -----> 数据分析(借助可视化工具)发现脏数据 ---->清洗脏数据(借助MATLAB或者Java/C++语言) ----->再次统计分析(Excel的data analysis不错的,最大小值,中位数,众数,平均值,方差等等,以及散点图) -----> 再次发现脏数据或者与实验无关的数据(去除) ----->最后实验分析 ----> 社会实例验证 ---->结束。

⑵ 鏁版嵁瑙勭害鏂规硶链夊摢浜

涓銆佹暟鎹褰掔害锘烘湰鐭ヨ瘑锛

瀵逛簬灏忓瀷鎴栦腑鍨鏁版嵁闆锛屼竴鑸镄鏁版嵁棰勫勭悊姝ラゅ凡缁忚冻澶熴备絾瀵圭湡姝eぇ鍨嬫暟鎹闆嗘潵璁诧纴鍦ㄥ簲鐢鏁版嵁鎸栨帢鎶链浠ュ墠锛屾洿鍙鑳介噰鍙栦竴涓涓闂寸殑銆侀濆栫殑姝ラ-鏁版嵁褰掔害銆傛湰姝ラや腑绠鍖栨暟鎹镄勪富棰樻槸缁村綊绾︼纴涓昏侀梾棰樻槸鏄钖﹀彲鍦ㄦ病链夌压鐗叉垚鏋滆川閲忕殑鍓嶆彁涓嬶纴涓㈠纯杩欎簺宸插嗳澶囧拰棰勫勭悊镄勬暟鎹锛岃兘钖﹀湪阃傞噺镄勬椂闂村拰绌洪棿閲屾镆ュ凡鍑嗗囩殑鏁版嵁鍜屽凡寤虹珛镄勫瓙闆嗐

瀵规暟鎹镄勬弿杩帮纴鐗瑰緛镄勬写阃夛纴褰掔害鎴栬浆鎹㈡槸鍐冲畾鏁版嵁鎸栨帢鏂规堣川閲忕殑链閲嶈侀梾棰樸傚湪瀹炶返涓锛岀壒寰佺殑鏁伴噺鍙杈惧埌鏁扮栌锛屽傛灉鎴戜滑鍙闇瑕佷笂锏炬浔镙锋湰鐢ㄤ簬鍒嗘瀽锛屽氨闇瑕佽繘琛岀淮褰掔害锛屼互鎸栨帢鍑哄彲闱犵殑妯″瀷锛涘彟涓鏂归溃锛岄珮缁村害寮曡捣镄勬暟鎹瓒呰礋锛屼细浣夸竴浜涙暟鎹鎸栨帢绠楁硶涓嶅疄鐢锛屽敮涓镄勬柟娉曚篃灏辨槸杩涜岀淮褰掔害銆傞勫勭悊鏁版嵁闆嗙殑3涓涓昏佺淮搴﹂氩父浠ュ钩闱㈡枃浠剁殑褰㈠纺鍑虹幇锛氩垪锛堢壒寰侊级锛岃岋纸镙锋湰锛夊拰鐗瑰緛镄勫硷纴鏁版嵁褰掔害杩囩▼涔熷氨鏄涓変釜锘烘湰镎崭綔锛氩垹闄ゅ垪锛屽垹闄よ岋纴鍑忓皯鍒椾腑镄勫笺

鍦ㄨ繘琛屾暟鎹鎸栨帢鍑嗗囨椂杩涜屾爣鍑嗘暟鎹褰掔害镎崭綔锛屾垜浠闇瑕佺煡阆扑粠杩欎簺镎崭綔涓鎴戜滑浼氩缑鍒板拰澶卞幓浠涔堬纴鍏ㄩ溃镄勬瘆杈冨拰鍒嗘瀽娑夊强鍒板备笅鍑犱釜鏂归溃镄勫弬鏁帮细

锛1锛夎$畻镞堕棿锛氲缉绠鍗旷殑鏁版嵁锛屽嵆缁忚繃鏁版嵁褰掔害钖庣殑缁撴灉锛屽彲鍑忓皯鏁版嵁鎸栨帢娑堣楃殑镞堕棿銆

锛2锛夐勬祴/鎻忚堪绮惧害锛氢及閲忎简鏁版嵁褰掔撼鍜屾傛嫭涓烘ā鍨嬬殑濂藉潖銆

锛3锛夋暟鎹鎸栨帢妯″瀷镄勬弿杩帮细绠鍗旷殑鎻忚堪阃氩父𨱒ヨ嚜鏁版嵁褰掔害锛岃繖镙锋ā鍨嬭兘寰楀埌镟村ソ鐞呜В銆

鏁版嵁褰掔害绠楁硶鐗瑰緛锛

锛1锛夊彲娴嬫

锛2锛夊彲璇嗗埆镐

锛3锛鍗曡皟镐

锛4锛変竴镊存

锛5锛夋敹鐩婂炲噺

锛6锛変腑鏂镐

锛7锛変紭鍏堟潈

浜屻佹暟鎹褰掔害鏂规硶锛

1銆佺壒寰佸綊绾︼细

鐢ㄧ浉搴旂壒寰佹绱㈡暟鎹阃氩父涓嶅彧涓烘暟鎹鎸栨帢鐩镄勮屾敹闆嗭纴鍗旷嫭澶勭悊鐩稿叧鐗瑰緛鍙浠ユ洿链夋晥锛屾垜浠甯屾湜阃夋嫨涓庢暟鎹鎸栨帢搴旂敤鐩稿叧镄勬暟鎹锛屼互杈惧埌鐢ㄦ渶灏忕殑娴嬮噺鍜屽勭悊閲忚幏寰楁渶濂界殑镐ц兘銆傜壒寰佸綊绾﹀勭悊镄勬晥鏋滐细

锛1锛夋洿灏戠殑鏁版嵁锛屾彁楂樻寲鎺樻晥鐜

锛2锛夋洿楂樼殑鏁版嵁鎸栨帢澶勭悊绮惧害

锛3锛夌亩鍗旷殑鏁版嵁鎸栨帢澶勭悊缁撴灉

锛4锛夋洿灏戠殑鐗瑰緛銆

鍜岀敓鎴愬綊绾﹀悗镄勭壒寰侀泦链夊叧镄勬爣鍑嗕换锷℃湁涓や釜锛

锛1锛夌壒寰侀夋嫨锛氩熀浜庡簲鐢ㄩ嗗烟镄勭煡璇嗗拰鎸栨帢鐩镙囷纴鍒嗘瀽钥呭彲浠ラ夋嫨鍒濆嬫暟鎹闆嗕腑镄勪竴涓鐗瑰緛瀛愰泦銆傜壒寰佹帓鍒楃畻娉曪纴链灏忓瓙闆嗙畻娉

锛2锛夌壒寰佹瀯鎴愶细鐗瑰緛鏋勬垚渚濊禆浜庡簲鐢ㄧ煡璇嗐

鐗瑰緛阃夋嫨镄勭洰镙囨槸瑕佹垒鍑虹壒寰佺殑涓涓瀛愰泦锛屾ゅ瓙闆嗗湪鏁版嵁鎸栨帢镄勬ц兘涓婃瘆寰椾笂鏁翠釜鐗瑰緛闆嗐傜壒寰侀夋嫨镄勪竴绉嶅彲琛屾妧链鏄锘轰簬骞冲潎鍊鍜屾柟宸镄勬瘆杈冿纴姝ゆ柟娉旷殑涓昏佺己镣规槸鐗瑰緛镄勫垎甯冩湭鐭ャ傛渶浼樻柟娉旷殑杩戜技锛

锛1锛夊彧瀵规湁鍓嶆櫙镄勭壒寰佸瓙闆呜繘琛屾镆

锛2锛夌敤璁$畻绠鍗旷殑璺濈诲害閲忔浛鎹㈣宸搴﹂噺

锛3锛夊彧镙规嵁澶ч噺鏁版嵁镄勫瓙闆嗛夋嫨鐗瑰緛銆

阅读全文

与如何将原始数据变成维度规约相关的资料

热点内容
癌胚抗原报告数据写合格什么意思 浏览:168
船厂船舶工程技术是什么 浏览:706
在香港做程序员怎么样 浏览:208
不合法的交易怎么打收款条 浏览:38
香港sp交易软件网域是什么 浏览:408
生物技术哪个院系好 浏览:136
沈阳调料市场在什么地方 浏览:781
索尼f554k代理怎么用 浏览:370
微信小程序付款如何备注 浏览:707
nba2k19手机版王朝如何强制交易 浏览:816
如何做诺特兰德代理商 浏览:618
产品手绘用英文怎么说 浏览:734
成都公众信息网是多少 浏览:422
跳单的信息费有哪些 浏览:538
会计代理记账什么价格 浏览:552
经济信息录入有哪些 浏览:813
武汉乙烯产品发展前景如何 浏览:783
南京税务代理如何制作 浏览:957
生化模式怎么提高技术 浏览:722
四川集成墙面如何代理 浏览:128