導航:首頁 > 數據處理 > 為什麼要大數據預處理

為什麼要大數據預處理

發布時間:2023-07-24 05:59:34

大數據的預處理過程包括

大數據採集過程中通常有一個或多個數據源,這些數據源包括同構或異構的資料庫、文件系統、服務介面等,易受到雜訊數據、數據值缺失、數據沖突等影響,因此需首先對收集到的大數據集合進行預處理,以保證大數據分析與預測結果的准確性與價值性。

大數據的預處理環節主要包括數據清理、數據集成、數據歸約與數據轉換等內容,可以大大提高大數據的總體質量,是大數據過程質量的體現。 數據清理技術包括對數據的不一致檢測、雜訊數據的識別、數據過濾與修正等方面,有利於提高大數據的一致性、准確性、真實性和可用性等方面的質量;

數據集成則是將多個數據源的數據進行集成,從而形成集中、統一的資料庫、數據立方體等,這一過程有利於提高大數據的完整性、一致性、安全性和可用性等方面質量;

數據歸約是在不損害分析結果准確性的前提下降低數據集規模,使之簡化,包括維歸約、數據歸約、數據抽樣等技術,這一過程有利於提高大數據的價值密度,即提高大數據存儲的價值性。

數據轉換處理包括基於規則或元數據的轉換、基於模型與學習的轉換等技術,可通過轉換實現數據統一,這一過程有利於提高大數據的一致性和可用性。

總之,數據預處理環節有利於提高大數據的一致性、准確性、真實性、可用性、完整性、安全性和價值性等方面質量,而大數據預處理中的相關技術是影響大數據過程質量的關鍵因素

㈡ 大數據預處理包含哪些

一、數據清理


並不一定的數據全是有使用價值的,一些數據並不是大家所關注的內容,一些乃至是徹底不正確的影響項。因而要對數據過濾、去噪,進而獲取出合理的數據。


數據清理關鍵包括忽略值解決(缺乏很感興趣的屬性)、雜訊數據解決(數據中存有著不正確、或偏移期待值的數據)、不一致數據解決。


忽略數據能用全局性變數定義、屬性平均值、將會值填充或是立即忽視該數據等方式;雜訊數據能用分箱 (對初始數據開展排序,隨後對每一組內的數據開展平滑處理)、聚類演算法、電子計算機人工服務定期檢查重歸等方式 除去雜訊。


二、數據集成與轉換


數據集成就是指把好幾個數據源中的數據融合並儲存到一個一致的資料庫文件。這一全過程中必須主要處理三個難題:模式匹配、數據冗餘、數據值沖突檢測與解決。


因為來源於好幾個數據結合的數據在取名上存有差別,因而等額的的實體線常具備不一樣的名字。數據集成中最後一個關鍵難題就是數據值矛盾難題,具體表現為來源於不一樣的統一實體線具備不一樣的數據值。


三、數據規約


數據規約關鍵包含:數據方集聚、維規約、數據縮小、標值規約和定義層次等。


倘若依據業務流程要求,從資料庫房中獲得了剖析所必須的數據,這一數據集將會十分巨大,而在大量數據上開展數據剖析和數據發掘的成本費又非常高。應用數據規約技術性則能夠 完成數據集的規約表明,促使數據集縮小的另外依然趨於維持原數據的一致性。在規約後的數據集在開展發掘,仍然可以獲得與應用原數據集幾近同樣的剖析結果。


關於大數據預處理包含哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。

㈢ 數據預處理

在數據挖掘中,海量的原始數據中存在大量不完整(有缺失值)、不一致、有異常的數據,會嚴重影響到數據挖掘建模的執行效果,甚至會導致挖掘結果的偏差,進而數據清洗就變得尤為重要。在數據清洗完成後接著甚至同時進行數據集成、變換、規約等一系列的處理,而整個過程稱之為 數據預處理 。在整個數據挖掘過程中,數據預處理工作大致占據整個過程的 60%
一般來說,數據預處理的主要包括如下內容: 數據清洗、數據集成、數據變換、數據規約。
接下來的內容,我們也是從這幾方面闡述。

常見的缺失值處理方法: 刪除法、替換法、插補法等
(1)、刪除法: 最簡單的缺失值處理方法。從不同角度進行數據處理劃分:

<code>
缺失值的處理
inputfile$date=as.numeric(inputfile$date)#將日期轉換成數值型變數
sub=which(is.na(inputfile$sales))#識別缺失值所在行數
inputfile1=inputfile[-sub,]#將數據集分成完整數據和缺失數據兩部分
inputfile2=inputfile[sub,]
行刪除法處理缺失,結果轉存
result1=inputfile1
</code>
(2)、替換法
一般根據屬性將變數分:數值型和非數值型

在數據挖掘過程中,可能會存在數據分布在不同的數據源中,而這個時候需要將多個數據源合並存放在一個一致的數據存儲(如數據倉庫),整個過程稱之為 數據集成

數據倉庫:
關於數據倉庫構思
漫談數據倉庫之維度建模
漫談數據倉庫之拉鏈表(原理、設計以及在Hive中的實現)

在R中,通過將存儲在兩個數據框中的數據以關鍵字為依據,以行為單位做列向合並,直接通過merge()函數完成。
merge(數據框1,數據框2,by="關鍵字"),而合並後的新數據自動按照關鍵字取值大小升序排列。不過在數據集成過程中存在表達形式不一樣,導致不能直接完成匹配,就需要我們進行加以轉換、提煉、集成等操作。具體從如下幾方面:
(1)、實體識別
從不同數據源識別出現實世界的實體,來完成統一不同源的數據矛盾之處。

實體識別承擔著檢測和解決這些沖突的任務

(2)、冗餘屬性識別

數據變換主要對數據進行規范化處理、連續變數的離散化以及屬性屬性的構造,將數據轉換成「適當的」形式,來滿足挖掘任務及演算法的需要。
(1)、簡單函數變換
對原始數據進行某些數學函數變換,常見平方、開方、取對數、差分運算等等
主要來完成不具有正態分布變換服從正態分布;非平穩序列變為平穩序列等等
(2)、數據規范化
為了清除指標之間的量綱和取值范圍差異的影響,需要進行標准化處理,將數據按照比例進行縮放,使之落入一個特定區域,便於進行綜合分析。
常見方法如下:

<code>
讀取數據
data=read.csv('./data/normalization_data.csv',he=F)
最小-最大規范化
b1=(data[,1]-min(data[,1]))/(max(data[,1])-min(data[,1]))
b2=(data[,2]-min(data[,2]))/(max(data[,2])-min(data[,2]))
b3=(data[,3]-min(data[,3]))/(max(data[,3])-min(data[,3]))
b4=(data[,4]-min(data[,4]))/(max(data[,4])-min(data[,4]))
data_scatter=cbind(b1,b2,b3,b4)
零-均值規范化
data_zscore=scale(data)
小數定標規范化
i1=ceiling(log(max(abs(data[,1])),10))#小數定標的指數
c1=data[,1]/10^i1
i2=ceiling(log(max(abs(data[,2])),10))
c2=data[,2]/10^i2
i3=ceiling(log(max(abs(data[,3])),10))
c3=data[,3]/10^i3
i4=ceiling(log(max(abs(data[,4])),10))
c4=data[,4]/10^i4
data_dot=cbind(c1,c2,c3,c4)
</code>

(3)、連續屬性離散化
在數據的取值范圍內設定若干個離散的劃分點,將取值范圍劃分為不同的離散化的區間,最後使用不同的符號或數值代表落在不同區間的數據值。
常見離散方法:

(4)、屬性構造
利用已有的屬性構造出新的屬性
(5)、小波變換(本次不進行闡述)

數據規約在大數據集上產生更小的且保持原數據完整性的新數據集,提升在數據集合上進行分析和挖掘的效率。
意義如下:

閱讀全文

與為什麼要大數據預處理相關的資料

熱點內容
籃球技術不到位怎麼辦 瀏覽:930
集體土地確權怎麼交易 瀏覽:492
美團技術服務費折扣系數怎麼續 瀏覽:313
塗料產品檢測哪些 瀏覽:287
亞馬遜上傳的產品怎麼清理 瀏覽:42
微分子技術用到護膚品中會怎麼樣 瀏覽:68
如何找到小程序推送消息 瀏覽:298
美股沒有盤前交易說明什麼 瀏覽:64
地圖產品怎麼傳遞 瀏覽:721
棗庄智慧經營代理哪裡有店 瀏覽:766
製作微信小程序時攝氏度如何表達 瀏覽:891
數字程序卡哪裡有賣 瀏覽:122
流沙有哪些市場 瀏覽:625
大數據把多少小企業搞死 瀏覽:101
apachedruid是什麼資料庫 瀏覽:589
手機程序包換了怎麼辦 瀏覽:650
如何清除王者榮耀微信數據 瀏覽:503
網路扶貧產品有哪些 瀏覽:384
上技術學院需要准備什麼 瀏覽:589
數據類型哪些是字元型 瀏覽:35