导航:首页 > 数据处理 > 大数据工作者如何做

大数据工作者如何做

发布时间:2024-09-14 01:13:16

大数据工程师的工作内容是什么

1、数据采集:


业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。


2、数据清洗:


一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。


一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息。


一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。如用户姓名只保留姓,名字用'*'字符替换。


3、数据存储:


清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高,则可以把日志记录入到kafka。


4、数据分析统计:


数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。


5、数据可视化:


用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据。

❷ 大数据处理的第一步需要做什么

“大数据”已经无时无刻的在影响我们的工作,很多人想知道大数据到底是怎样知道来工作的,今天就和大家分享一下大数据处理的基本过程。

阅读全文

与大数据工作者如何做相关的资料

热点内容
华为手机电池健康数据怎么恢复 浏览:887
兑换商城信息哪里发来的怎么拦截 浏览:760
农产品不好卖是什么原因 浏览:106
小米盒子怎么安装当贝市场国际版 浏览:136
自制吊牌需要什么数据 浏览:756
外汇交易价格怎么样 浏览:995
物流单据运用什么技术 浏览:848
北海螃蟹批发市场哪里便宜 浏览:7
学遍程序要看什么书 浏览:905
花鸟鱼虫市场坐什么公交车 浏览:41
携程大数据有哪些隐忧 浏览:84
从事安全技术防范需要什么条件 浏览:328
上海富众钢材市场什么时间开门 浏览:746
如果用时间交易地球会变成什么 浏览:83
苹果通知一般多久收到信息 浏览:152
濮阳期货交易所哪个好 浏览:956
三打三犯规多少次技术犯规 浏览:119
如何把产品放大亮点 浏览:85
服装裁剪需要什么技术 浏览:573
什么是e币币交易 浏览:138