導航:首頁 > 數據處理 > 大數據工作者如何做

大數據工作者如何做

發布時間:2024-09-14 01:13:16

大數據工程師的工作內容是什麼

1、數據採集:


業務系統的埋點代碼時刻會產生一些分散的原始日誌,可以用Flume監控接收這些分散的日誌,實現分散日誌的聚合,即採集。


2、數據清洗:


一些欄位可能會有異常取值,即臟數據。為了保證數據下游的"數據分析統計"能拿到比較高質量的數據,需要對這些記錄進行過濾或者欄位數據回填。


一些日誌的欄位信息可能是多餘的,下游不需要使用到這些欄位做分析,同時也為了節省存儲開銷,需要刪除這些多餘的欄位信息。


一些日誌的欄位信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用'*'字元替換。


3、數據存儲:


清洗後的數據可以落地入到數據倉庫(Hive),供下游做離線分析。如果下游的"數據分析統計"對實時性要求比較高,則可以把日誌記錄入到kafka。


4、數據分析統計:


數據分析是數據流的下游,消費來自上游的數據。其實就是從日誌記錄里頭統計出各種各樣的報表數據,簡單的報表統計可以用sql在kylin或者hive統計,復雜的報表就需要在代碼層面用Spark、Storm做統計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。


5、數據可視化:


用數據表格、數據圖等直觀的形式展示上游"數據分析統計"的數據。一般公司的某些決策會參考這些圖表裡頭的數據。

❷ 大數據處理的第一步需要做什麼

「大數據」已經無時無刻的在影響我們的工作,很多人想知道大數據到底是怎樣知道來工作的,今天就和大家分享一下大數據處理的基本過程。

閱讀全文

與大數據工作者如何做相關的資料

熱點內容
華為手機電池健康數據怎麼恢復 瀏覽:887
兌換商城信息哪裡發來的怎麼攔截 瀏覽:760
農產品不好賣是什麼原因 瀏覽:106
小米盒子怎麼安裝當貝市場國際版 瀏覽:136
自製吊牌需要什麼數據 瀏覽:756
外匯交易價格怎麼樣 瀏覽:995
物流單據運用什麼技術 瀏覽:848
北海螃蟹批發市場哪裡便宜 瀏覽:7
學遍程序要看什麼書 瀏覽:905
花鳥魚蟲市場坐什麼公交車 瀏覽:41
攜程大數據有哪些隱憂 瀏覽:84
從事安全技術防範需要什麼條件 瀏覽:328
上海富眾鋼材市場什麼時間開門 瀏覽:746
如果用時間交易地球會變成什麼 瀏覽:83
蘋果通知一般多久收到信息 瀏覽:152
濮陽期貨交易所哪個好 瀏覽:956
三打三犯規多少次技術犯規 瀏覽:119
如何把產品放大亮點 瀏覽:85
服裝裁剪需要什麼技術 瀏覽:573
什麼是e幣幣交易 瀏覽:138