㈠ 大數據時代,為什麼要對數據進行清洗
數據意味著什麼
在計算機這門科學中被經常談論到的是對資源的管理。最典型的資源就是時間、空間、能量。數據在以前並沒有被認為是一種資源,而是被認為成一種使用資源的事物。現在觀念中,數據已被廣泛認為是一種資源,是我們可以利用並從中獲得價值和知識的一種資源。將數據資源進行分析挖掘,從而使我們做出適時的、節約成本、高質量的決定和結論。
為什麼要整理數據
企業認識了數據的價值,但是數據本身存在的一些特點,使得每個企業又對其頭疼不已。這里想提到的其中一個特點Variety(雜)- 數據來源多種多樣,數據的形式更是千奇百怪。
當與各種數據打交道的時候,通常會發現,數據本身真的不是那麼友好。打個比方,如果企業想直接從業務資料庫提取數據用來分析,會面臨的問題是,業務資料庫通常是根據業務操作的需要進行設計的,遵循3NF範式,盡可能減少數據冗餘,但同時也帶來的負擔是,表與表之間關系錯綜復雜。
在分析業務狀況時,儲存業務數據的表,與儲存想要分析的角度表,很可能不會直接關聯,而是需要通過多層關聯來達到,這為分析增加了很大的復雜度,同時因為業務資料庫會接受大量用戶的輸入,如果業務系統沒有做好足夠的數據校驗,就會產生一些錯誤數據,比如不合法的身份證號,或者不應存在的Null值,空字元串等。
此外,隨著NoSQL資料庫的進一步發展,有許多數據儲存在諸如MongoDB等NoSQL資料庫中,多種多樣的數據儲存方式,也給取數帶來了困難,沒法簡單地用一條SQL完成數據查詢。就更別提機器的源日誌和靠爬蟲扒到的數據了。
所以整理數據的目的就是從以上大量的、結構復雜、雜亂無章、難以理解的數據中抽取並推導出對解決問題有價值、有意義的數據和數據結構。清洗後、保存下來真正有價值、有條理的數據,為後面做數據分析減少分析障礙。
什麼是數據清洗
如何去整理分析數據,其中一個很重要的工作就是數據清洗。數據清洗是指對「臟」數據進行對應方式的處理,臟在這里意味著數據的質量不夠好,會掩蓋數據的價值,更會對其後的數據分析帶來不同程度的影響。有調查稱,一個相關項目的進展,80%的時間都可能會花費在這個工作上面。因為清洗必然意味著要對數據有一定的理解,而這個工作是自動化或者說計算機所解決不了的難題,只能靠人腦對數據進行重新審查和校驗,找到問題所在,並通過一些方法去對對應的數據源進行重新整理。
MicroStrategy通過長期思考和解決企業面對的眾多復雜應用場景,深入開發各種輔助功能幫助用戶去深度體驗連接數據和整理數據,使其模型可以支持一站式連接各種類型數據資源,包括各類型文本文件,超過 70 個 RDBMS、多維表達式 (MDX) 多維數據集源、Hadoop 系統和雲端數據源。MicroStrategy憑借開箱即用數據連接和本機驅動,同時也提供將不同數據源數據進行融合,清除用戶和數據源之間的障礙。
㈡ 網路大數據什麼時候可以清除
網路大數據不會清除,因為網路大數據是雲儲存的,即使伺服器壞了,仍然有另一個伺服器儲存著數據,因此大數據只會越來越多,越來越精準。