导航:首页 > 数据处理 > 数据源如何清洗

数据源如何清洗

发布时间:2023-11-13 06:36:07

‘壹’ 数据清洗经验分享:什么是数据清洗 如何做好

如何去整理分析数据,其中一个很重要的工作就是数据清洗。数据清洗是指对“脏”数据进行对应方式的处理,脏在这里意味着数据的质量不够好,会掩盖数据的价值,更会对其后的数据分析带来不同程度的影响。有调查称,一个相关项目的进展,80%的时间都可能会花费在这个工作上面。因为清洗必然意味着要对数据有一定的理解,而这个工作是自动化或者说计算机所解决不了的难题,只能靠人脑对数据进行重新审查和校验,找到问题所在,并通过一些方法去对对应的数据源进行重新整理。
清洗数据的方式大概可以分为以下几类,筛选、清除、补充、纠正,例如:
去除不需要的字段:简单,直接删除即可。但要记得备份。

填充缺失内容:以业务知识或经验推测填充缺失值;以同一指标的计算结果(均值、中位数、众数等)填充缺失值;以不同指标的计算结果填充缺失值。
格式不一致:时间、日期、数值、全半角等显示格式不一致,这种问题通常与输入端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式即可。例如一列当中储存的是时间戳,某些跨国公司的不同部门在时间的格式上有可能存在差别,比如2019-01-12,2019/01/12等,这时候需要将其转换成统一格式。

内容中有不需要的字符:某些情况使得有些数据中包含不需要的字符。例如从网络爬到的数据会包含一些编码解码的字符如%22,这种情况下,需要以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符。

数据提取:例如咱们只有用户身份证的信息,但是需要用户生日一列,这时候我们可以直接从身份证号中按照一定规律将生日信息提取出来。

‘贰’ 如何进行数据清洗

数据清理是有一些步骤的,一般分为缺失值清洗,格式内容清洗,逻辑错误清洗,非需求数据清洗,关联性验证。

缺失值是最常见的数据问题,处理缺失值也有很多方法,我建议按照以下四个步骤进行:1、确定缺失值范围:对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略。

2、去除不需要的字段:这一步很简单,直接删掉即可,但强烈建议清洗每做一步都备份一下,或者在小规模数据上试验成功再处理全量数据。

3、填充缺失内容:某些缺失值可以进行填充。

4、重新取数:如果某些指标非常重要又缺失率高,那就需要和取数人员或业务人员了解,是否有其他渠道可以取到相关数据。

第二步:格式内容清洗
如果数据是由系统日志而来,那么通常在格式和内容方面,会与元数据的描述一致。而如果数据是由人工收集或用户填写而来,则有很大可能性在格式和内容上存在一些问题。

第三步:逻辑错误清洗
这部分的工作是去掉一些使用简单逻辑推理就可以直接发现问题的数据,防止分析结果走偏。

第四步:非需求数据清洗
这一步说起来非常简单:把不要的字段删了。

但实际操作起来,有很多问题。

第五步:关联性验证
如果你的数据有多个来源,那么有必要进行关联性验证。例如,你有汽车的线下购买信息,也有电话客服问卷信息,两者通过姓名和手机号关联,要看一下同一个人线下登记的车辆信息和线上问卷问出来的车辆信息是不是同一辆,如果不是,那么需要调整或去除数据。

阅读全文

与数据源如何清洗相关的资料

热点内容
小程序代理怎么找客 浏览:915
学电子技术专业的笔记本要什么配置 浏览:809
特效生发产品有哪些 浏览:725
国产哪些技术不如国外 浏览:851
朝鲜生产什么农产品 浏览:193
挂什么号可以查到违章信息 浏览:435
钉钉拉人进群能看到多少条信息 浏览:199
中国电子信息类有哪些专业 浏览:155
淘宝的装修市场在哪里 浏览:428
英雄杀微信小程序抽至宝多少钱 浏览:981
汽车二手车市场哪个好 浏览:617
房产交易网签需要多久 浏览:999
山东省哪里有最大的羊市场 浏览:843
哪里学宏程序 浏览:697
知网节页面可以查到作者哪些信息 浏览:708
代理合同无效如何起诉 浏览:377
团队中如何开拓市场 浏览:206
农产品如何做网店 浏览:582
成都摩配市场租金多少 浏览:811
3d技术发展的怎么样了 浏览:150