⑴ 數據分析中如何清洗數據
在數據分析中我們重點研究的是數據,但是不是每個數據都是我們需要分析的,這就需要我們去清洗數據,通過清洗數據,這樣我們就能夠保證數據分析出一個很好的結果,所以說一個干凈的數據能夠提高數據分析的效率,因此,數據清洗是一個很重要的工作,通過數據的清洗,就能夠統一數據的格式,這樣才能夠減少數據分析中存在的眾多問題,從而提高數據的分析的效率。但是清洗數據需要清洗什麼數據呢?一般來說,清洗數據的對象就是缺失值、重復值、異常值等。
首先給大家說明一下什麼是重復值,所謂重復值,顧名思義,就是重復的數據,數據中存在相同的數據就是重復數據,重復數據一般有兩種情況,第一種就是數據值完全相同的多條數據記錄。另一種就是數據主體相同但匹配到的唯一屬性值不同。這兩種情況復合其中的一種就是重復數據。那麼怎麼去除重復數據呢?一般來說,重復數據的處理方式只有去重和去除兩種方式,去重就是第一種情況的解決方法,去除就是第二種情況的解決方法。
其次給大家說一下什麼是異常值,這里說的異常值就是指一組測試值中宇平均數的偏差超過了兩倍標准差的測定值。而與平均值的偏差超過三倍標准差的測定值則被稱為高度異常值。對於異常值來說,我們一般不作處理,當然,這前提條件就是演算法對異常值不夠敏感。如果演算法對異常值敏感了怎麼處理異常值呢?那麼我們就需要用平均值進行替代,或者視為異常值去處理,這樣可以降低數據異常值的出現。
而缺失值也是數據分析需要清理的對象,所謂缺失值就是數據中由於缺少信息導致數據的分組、缺失被稱為缺失值,存在缺失值的數據中由於某個或者某些數據不是完整的,對數據分析有一定的影響。所以,我們需要對缺失值進行清理,那麼缺失值怎麼清理呢?對於樣本較大的缺失值,我們可以直接刪除,如果樣本較小,我們不能夠直接刪除,因為小的樣本可能會影響到最終的分析結果。對於小的樣本,我們只能通過估算進行清理。
關於數據分析需要清楚的數據就是這篇文章中介紹的重復值、異常值以及缺失值,這些無用的數據大家在清理數據的時候一定要注意,只有這樣才能夠做好數據分析。最後提醒大家的是,大家在清理數據之前一定要保存好自己的原始數據,這樣我們才能夠做好數據的備份。切記切記。