导航:首页 > 数据处理 > 什么是数据缺失的情况

什么是数据缺失的情况

发布时间:2023-07-20 05:10:39

㈠ ​一文看懂数据清洗:缺失值、异常值和重复值的处理

作者:宋天龙

如需转载请联系华章 科技

数据缺失分为两种:一种是 行记录的缺失 ,这种情况又称数据记录丢失;另一种是 数据列值的缺失 ,即由于各种原因导致的数据记录中某些列的值空缺。

不同的数据存储和环境中对于缺失值的表示结果也不同,例如,数据库中是Null,Python返回对象是None,Pandas或Numpy中是NaN。

在极少数情况下,部分缺失值也会使用空字符串来代替,但空字符串绝对不同于缺失值。从对象的实体来看,空字符串是有实体的,实体为字符串类型;而缺失值其实是没有实体的,即没有数据类型。

丢失的数据记录通常无法找回,这里重点讨论数据列类型缺失值的处理思路。通常有4种思路。

1. 丢弃

这种方法简单明了,直接删除带有缺失值的行记录(整行删除)或者列字段(整列删除),减少缺失数据记录对总体数据的影响。 但丢弃意味着会消减数据特征 ,以下任何一种场景都不宜采用该方法。

2. 补全

相对丢弃而言,补全是更加常用的缺失值处理方式。通过一定的方法将缺失的数据补上,从而形成完整的数据记录,对于后续的数据处理、分析和建模至关重要。常用的补全方法如下。

3. 真值转换法

在某些情况下,我们可能无法得知缺失值的分布规律,并且无法对于缺失值采用上述任何一种补全方法做处理;或者我们认为数据缺失也是一种规律,不应该轻易对缺失值随意处理,那么还有一种缺失值处理思路—真值转换。

该思路的根本观点是, 我们承认缺失值的存在,并且把数据缺失也作为数据分布规律的一部分 ,将变量的实际值和缺失值都作为输入维度参与后续数据处理和模型计算中。但是变量的实际值可以作为变量值参与模型计算,而缺失值通常无法参与运算,因此需要对缺失值进行真值转换。

以用户性别字段为例,很多数据库集都无法对会员的性别进行补足,但又舍不得将其丢弃掉,那么我们将选择将其中的值,包括男、女、未知从一个变量的多个值分布状态转换为多个变量的真值分布状态。

然后将这3列新的字段作为输入维度替换原来的1个字段参与后续模型计算。

4. 不处理

在数据预处理阶段,对于具有缺失值的数据记录不做任何处理,也是一种思路。这种思路主要看后期的数据分析和建模应用, 很多模型对于缺失值有容忍度或灵活的处理方法 ,因此在预处理阶段可以不做处理。

常见的能够自动处理缺失值的模型包括:KNN、决策树和随机森林、神经网络和朴素贝叶斯、DBSCAN(基于密度的带有噪声的空间聚类)等。这些模型对于缺失值的处理思路是:

在数据建模前的数据归约阶段,有一种归约的思路是 降维 ,降维中有一种直接选择特征的方法。假如我们通过一定方法确定带有缺失值(无论缺少字段的值缺失数量有多少)的字段对于模型的影响非常小,那么我们根本就不需要对缺失值进行处理。

因此,后期建模时的字段或特征的重要性判断也是决定是否处理字段缺失值的重要参考因素之一。

对于缺失值的处理思路是先通过一定方法找到缺失值,接着分析缺失值在整体样本中的分布占比,以及缺失值是否具有显着的无规律分布特征,然后考虑后续要使用的模型中是否能满足缺失值的自动处理,最后决定采用哪种缺失值处理方法。

在选择处理方法时,注意投入的时间、精力和产出价值,毕竟,处理缺失值只是整个数据工作的冰山一角而已。

在数据采集时,可在采集端针对各个字段设置一个默认值。以MySQL为例,在设计数据库表时,可通过default指定每个字段的默认值,该值必须是常数。

在这种情况下,假如原本数据采集时没有采集到数据,字段的值应该为Null,虽然由于在建立库表时设置了默认值会导致“缺失值”看起来非常正常,但本质上还是缺失的。对于这类数据需要尤其注意。

异常数据是数据分布的常态,处于特定分布区域或范围之外的数据通常会被定义为异常或“噪音”。产生数据“噪音”的原因很多,例如业务运营操作、数据采集问题、数据同步问题等。

对异常数据进行处理前,需要先辨别出到底哪些是真正的数据异常。从数据异常的状态看分为两种:

大多数数据挖掘或数据工作中,异常值都会在数据的预处理过程中被认为是噪音而剔除,以避免其对总体数据评估和分析挖掘的影响。但在以下几种情况下,我们无须对异常值做抛弃处理。

1. 异常值正常反映了业务运营结果

该场景是由业务部门的特定动作导致的数据分布异常,如果抛弃异常值将导致无法正确反馈业务结果。

例如:公司的A商品正常情况下日销量为1000台左右。由于昨日举行优惠促销活动导致总销量达到10000台,由于后端库存备货不足导致今日销量又下降到100台。在这种情况下,10000台和100台都正确地反映了业务运营的结果,而非数据异常案例。

2. 异常检测模型

异常检测模型是针对整体样本中的异常数据进行分析和挖掘,以便找到其中的异常个案和规律,这种数据应用围绕异常值展开,因此异常值不能做抛弃处理。

异常检测模型常用于客户异常识别、信用卡欺诈、贷款审批识别、药物变异识别、恶劣气象预测、网络入侵检测、流量作弊检测等。在这种情况下,异常数据本身是目标数据,如果被处理掉将损失关键信息。

3. 包容异常值的数据建模

如果数据算法和模型对异常值不敏感,那么即使不处理异常值也不会对模型本身造成负面影响。例如在决策树中,异常值本身就可以作为一种分裂节点。

数据集中的重复值包括以下两种情况:

去重是重复值处理的主要方法,主要目的是保留能显示特征的唯一数据记录。但当遇到以下几种情况时,请慎重(不建议)执行数据去重。

1. 重复的记录用于分析演变规律

以变化维度表为例。例如在商品类别的维度表中,每个商品对应的同1个类别的值应该是唯一的,例如苹果iPhone7属于个人电子消费品,这样才能将所有商品分配到唯一类别属性值中。但当所有商品类别的值重构或升级时(大多数情况下随着公司的发展都会这么做),原有的商品可能被分配了类别中的不同值。如下表所示展示了这种变化。

此时,我们在数据中使用Full join做跨重构时间点的类别匹配时,会发现苹果iPhone7会同时匹配到个人电子消费品和手机数码2条记录。对于这种情况,需要根据具体业务需求处理。

2. 重复的记录用于样本不均衡处理

在开展分类数据建模工作时,样本不均衡是影响分类模型效果的关键因素之一。解决分类方法的一种方法是对少数样本类别做简单过采样,通过随机过采样,采取简单复制样本的策略来增加少数类样本。

经过这种处理方式后,也会在数据记录中产生相同记录的多条数据。此时,我们不能对其中的重复值执行去重操作。

3. 重复的记录用于检测业务规则问题

对于以分析应用为主的数据集而言,存在重复记录不会直接影响实际运营,毕竟数据集主要是用来做分析的。

但对于事务型的数据而言, 重复数据可能意味着重大运营规则问题 ,尤其当这些重复值出现在与企业经营中与金钱相关的业务场景时,例如:重复的订单、重复的充值、重复的预约项、重复的出库申请等。

这些重复的数据记录通常是由于数据采集、存储、验证和审核机制的不完善等问题导致的,会直接反映到前台生产和运营系统。以重复订单为例:

因此,这些问题必须在前期数据采集和存储时就通过一定机制解决和避免。如果确实产生了此类问题,那么数据工作者或运营工作者可以基于这些重复值来发现规则漏洞,并配合相关部门,最大限度地降低由此而带来的运营风险。

本文摘编自《Python数据分析与数据化运营》(第2版),经出版方授权发布。

㈡ 数据丢失是什么意思

在电脑的使用过程中,经常会遇到一些有惊无险的事,譬如软件设置错误、系统感染病毒、文件意外删除等等都会导致我们电脑中的数据损坏或丢失。如果上天还给你一个机会,你知道怎么去拯救这些重要数据吗?来来来,看下面就清楚了。

数据怎么丢失的?

不幸之一:误格式化、误删除引起的数据丢失。

在这种情况下,只要你没有向丢失数据所在的分区上写入新的数据,那么利用数据恢复软件对数据恢复的成功率很高,恢复率接近100%。但如果你最开始是使用的专业的数据删除软件来删除数据,且反复删除覆盖了数据,那么这些数据基本上是无望恢复了。

不幸之二:由病毒引起的数据丢失。

由于病毒破坏硬盘的方式实在太多,而且大部分破坏都无法用一般软件轻易恢复,所以……碰到病毒破坏硬盘的情况你就祈祷吧,恢复数据的成功率大约只有30%。

不幸之三:分区表丢失/出错。

因感染病毒盘符突然消失、无法打开盘符,或被人为操作将分区表丢失,如从新分区、合并、转换、扩缩、工作过程中突然断电导致分区表丢失等等。一般人为操作所导致的数据丢失100%都可以恢复。如果你备份了分区表,那么恢复数据的成功率就会大大地提高了(参见E3、E5)。

不幸之四:系统重装或误“Ghost”后数据丢失。

这类问题一般由于已经写入数据覆盖掉源文件,恢复率不如人意,大约只有30%。

不幸之五:操作时断电引起的数据丢失。

这类的数据恢复要视情况而定,如果数据没有保存,而且所使用的程序不具备自动保存功能,一般难以恢复。像Office XP以上版本的程序,一般会自动备份,自动恢复。

数据丢失了该怎么办?

条件反射之一:如果你没有安装数据恢复软件,那么在数据丢失后,千万不要在硬盘上再进行其他读写操作。不要在硬盘上安装或存储任何文件和程序,否则它们就会把要恢复的文件覆盖掉,给数据的恢复带来很大的难度,也影响到修复的成功率。

特别提醒:在安装Windows系统时就应该安装好数据恢复软件,并在出现文件误删除后立刻执行恢复操作,这样一般可以将删除的文件恢复回来。

条件反射之二:如果丢失的数据在系统分区,那么请立即关机,把硬盘拿下来,挂到别的电脑上作为第二硬盘,在上面进行恢复操作。如果你的数据十分重要,尤其是格式化后又写了数据进去的,最好不要冒险自己修复,还是请专业的数据恢复公司来恢复。

条件反射之三:在修复损坏的数据时,一定要先备份源文件再进行修复。如果是误格式化的磁盘分区、误删除的文件,则建议先用Ghost克隆误格式化的分区和误删除文件所在的分区,把原先的磁盘分区状态给备份下来,以便日后再次进行数据恢复。

数据恢复利器

现在有很多数据恢复软件都各有特点,数据恢复率也有所差异。这里就介绍一些典型的数据恢复软件,供大家各取所需。

软件名:FinalData2.1v

特点:不但能恢复本机误删除文件,还能恢复网络上其他计算机的数据。

软件名:File Scavenger

特点:它是NTFS分区数据恢复高手,还提供了找寻文件类型功能。

软件名:Recover My Files

特点:可以恢复由于冒失删除的文档,甚至是磁盘格式化后的文件恢复工具,它可以自定义搜索的文件夹、文件类型。

软件名:Search and Recover

特点:可以恢复Outlook等邮件程序中删除的邮件信息。附带一个安全删除工具和一个驱动器映像工具,可以对某一驱动器进行克隆。

软件名:OnBelay

特点:是一款多功能的数据拯救工具,能够拯救图像、照片、数字电影等文件。

软件名:Acronis Recovery

特点:除了支持FAT16、FAT32、NTFS分区外,还支持HPFS、Linux Ext2、Ext3、ReiserFS、Linux Swap等分区,支持大硬盘。

软件名:FindBack

特点:能进行数据恢复、被删文件的修复、系统恢复、硬盘恢复、注册表恢复、修改注册表、自动备份并能清除病毒、蠕虫和木马。

软件名:PC Inspector Smart Recovery

特点:独特的数码设备存储器数据恢复工具,支持主流的数码设备存储器,能快速恢复误删的图片、影片和声音文件。

实战数据恢复

1、从格式化的分区中恢复文件

恢复数据的软件很多,有FinalData、EasyRecovery、DataRecovery、PC Inspector File Recovery等,这里笔者推荐EasyRecovery,成功率比较高,扫描速度也快。

软件名:EasyRecovery Professional

启动EasyRecovery Professional,点击“Data Recovery”,在右边的界面点击“FormatRecovery”,然后在弹出的对话框中选择被格式化的分区,按“Next”。硬盘便开始狂读(狂读的时间视你被格式化的分区大小而定,EasyRecovery扫描笔者的一个40GB分区就花了近半小时),扫描搜索完成后,就会罗列出搜索到的文件,你可以在上面找到你要恢复的文件,然后点击“Next”选择你所希望恢复的文件的保存位置(保存的位置千万不要选择被格式化的分区,一定要选择其他的分区,以免覆盖掉源文件)。之后直接点击“Next”,软件就会自动进行恢复了,恢复完成后点击弹出对话框的Done按钮退出。

对于利用Ghost克隆分区时误操作,覆盖错分区的情况,也可以利用此法进行修复,不过修复的成功率很低,读者朋友可要有心理准备。

2、恢复由病毒感染、非正常关机引起的数据损坏

这种情况下,你可以启动EasyRecovery Professional,点击“Data Recovery→Deleted Recovery”选项,在打开的数据恢复对话框中选择丢失/误删除数据所在的分区。

在默认情况下,EasyRecovery Professional将对所选的分区执行一次快速扫描,使用已存在的目录结构查找已删除的目录和文件。如果文件损坏的症状很严重,那么你要选中“Complete Scan”执行完全扫描。扫描完成后,你所要做的就是找到你的数据,尽情恢复就是了。利用这种方法,还可以恢复U盘的数据。

3、修复Office文件、OE邮件

启动EasyRecovery Professional后,点击“File Repair”键。它的内容还挺丰富,有修复Mdb文件的“Access Repair”、修复XLS文件的“Excel Repair”、修复PPT文件的“PowerPoint Repair”、修复DOC文件的“Word Repair”和修复ZIP压缩文件的“Zip Repair”等。

它们的使用方法大同小异。这里就以修复Word的DOC文件为例加以说明,选中“Word Repair”,在弹出的对话框上点击“Browse for File”按钮找到想要修复的DOC文件。然后点击“Next”,稍等一会儿,EasyRecovery Professionaly就会在损坏文件所在目录下生成文件名为“修复的文件的文件名_BAK”的恢复文件。

小贴士:在修复相应的文件前,大家要记住关闭相应的程序。比如修复XLS文件,要记住关闭Excel。同时还要记住备份受损的文件。如果还是修复不了的时候,就可以用别的修复程序来进行修复,如专业的Word文件修复工具DocRepair。

4、误删相片不用愁

随着数码相机的普及,用数码相机拍照带来的问题越来越多,譬如误执行删除操作或者数码相机电池不足等情况就会导致DC中存储卡的相片丢失。鉴于此,这里笔者有必要向大家介绍一味“后悔药”──MediaRecover。

软件名:MediaRecover

MediaRecover的使用很简单,首先将你的存储卡插入读卡器,然后启动MediaRecover,点击Recovery,在右边的界面选择读卡器的盘符,然后点击“Next”按钮进入下一步,设置恢复的相片的存放位置,设置好就点击“Next”进入扫描界面,点击“Start”按钮后,稍等一段时间,它就会帮你把丢失、误删除/格式化的相片给救回来。

小贴士:如果你发现你的相片丢失或者误删除、误格式化,请立即把存储卡从数码相机上取出来,不要使用这张存储卡来存储新拍摄的相片,以免将有用数据的簇占满导致相片的恢复难度加大。

5、拯救光盘中的数据

CD、CD-RW、CD-R、DVD光盘是我们平时最常见、常用的移动存储介质,但如果我们因为保存不当或因为潮湿、划伤造成光盘无法被光驱读取,你可以试试使用BadCopy Pro。

软件名:BadCopy Pro

请将不容易读/拷贝出来的光盘放进去,启动BadCopy Pro后,选中程序主界面左边的“CD-ROM CD-RW/DVD”,然后在左边的驱动器列表中选择相应的光驱,选择文件读取后,将所要读取的数据备份出来就OK。

小贴士:Recovery Mode下拉菜单中有三个选项,如果你的光盘损坏情况不是那么严重,你可以选择第一个选项“Rescue Corrupted Files”,恢复速度快;损坏严重的话可以选择第二或第三个选项。除了拯救光盘的数据外,它还可以拯救软盘、ZIP/JAZ/MO磁盘、数字媒体CF/SM/MMC卡的数据。

㈢ 临床试验,数据统计中的 数据删失 是什么意思指什么情况

指由于某种原因被截断了的数据。

删失(censoring)生物统计学的基本概念之一该词源于心理学,也就是说,当刺激太强时,感觉就没有反应。统计用来描述某些人不太可能观察到的现象。

例如,在临床观察中,病人失去随访或死亡是无关的;工业生命试验对象没有受损,即停止观察等,最常见的是右删失;个人死亡时间为t,删失时间为c,观察值为min(t,c),如果c是随机变量,则称为随机删失;此外,还有左删失和区间删失。

就审查机制而言,审查次数和定时审查次数分别称为第一类和第二类。丢失的数据也可以看作是特殊的截尾,截尾的数据又称为不完全信息。

(3)什么是数据缺失的情况扩展阅读:

审查类型

1、右删失(Rightcensored)

在随访观察中,观察开始时间已知,但终点时间未知,无法获得具体存活时间。只有存活时间比观察时间长,这种生存时间称为正确的审查。

2、左删失(Leftcensored)

假设研究对象在某个观察点开始进入研究,但在此之前,研究所的关注时间点已经出现,但具体时间无法确定,此类型是左删失数据。

阅读全文

与什么是数据缺失的情况相关的资料

热点内容
美团技术服务费折扣系数怎么续 浏览:313
涂料产品检测哪些 浏览:287
亚马逊上传的产品怎么清理 浏览:42
微分子技术用到护肤品中会怎么样 浏览:68
如何找到小程序推送消息 浏览:298
美股没有盘前交易说明什么 浏览:64
地图产品怎么传递 浏览:721
枣庄智慧经营代理哪里有店 浏览:766
制作微信小程序时摄氏度如何表达 浏览:891
数字程序卡哪里有卖 浏览:121
流沙有哪些市场 浏览:624
大数据把多少小企业搞死 浏览:100
apachedruid是什么数据库 浏览:588
手机程序包换了怎么办 浏览:648
如何清除王者荣耀微信数据 浏览:503
网络扶贫产品有哪些 浏览:384
上技术学院需要准备什么 浏览:588
数据类型哪些是字符型 浏览:33
售卖伪造3c的产品怎么判 浏览:11
哪个手机上的小程序能看电视剧 浏览:251