A. 想轉行到大數據開發需要學習哪些技術
如果要學習大數據,不管你是零基礎,還是有一定的基礎,都是要懂至少一種計算機編程語言,因為大數據的開發離不開編程語言,不僅要懂,還要精通!但這門編程語言不一定是java。
比如說,如果你主攻Hadoop開發方向,是一定要學習java的,因為Hadoop是由java來開發的。
如果你想要主攻spark方向,是要學習Scala語言的,每個方向要求的編程語言是不同的。
如果你是想要走數據分析方向,那你就要從python編程語言下手,這個也是看自己未來的需求的。
大數據是需要一定的編程基礎的,但具體學習哪一門編程,自己可以選擇的。其實只要學會了一門編程語言,其他編程語言也是不在話下的。
B. java轉行大數據要學習哪些技術
對於Java程序員,大數據的主流平台hadoop是基於Java開發的,所以Java程序員往大數據開發方向轉行從語言環境上更為順暢,另外很多基於大數據的應用框架也是Java的,所以在很多大數據項目里掌握Java語言是有一定優勢的。
當然,hadoop核心價值在於提供了分布式文件系統和分布式計算引擎,對於大部分公司而言,並不需要對這個引擎進行修改。這時候除了熟悉編程,你通常還需要學習數據處理和數據挖掘的一些知識。尤其是往數據挖掘工程師方向發展,則你需要掌握更多的演算法相關的知識。
對於數據挖掘工程師而言,雖然也需要掌握編程工具,但大部分情況下是把hadoop當做平台和工具,藉助這個平台和工具提供的介面使用各種腳本語言進行數據處理和數據挖掘。因此,如果你是往數據挖掘工程方向發展,那麼,熟練掌握分布式編程語言如scala、spark-mllib等可能更為重要。
Java程序員轉大數據工程師的學習路線圖:
第一步:分布式計算框架
掌握hadoop和spark分布式計算框架,了解文件系統、消息隊列和Nosql資料庫,學習相關組件如hadoop、MR、spark、hive、hbase、redies、kafka等;
第二步:演算法和工具
學習了解各種數據挖掘演算法,如分類、聚類、關聯規則、回歸、決策樹、神經網路等,熟練掌握一門數據挖掘編程工具:Python或者Scala。目前主流平台和框架已經提供了演算法庫,如hadoop上的Mahout和spark上的Mllib,你也可以從學習這些介面和腳本語言開始學習這些演算法。
第三步:數學
補充數學知識:高數、概率論和線代
第四步:項目實踐
1)開源項目:tensorflow:Google的開源庫,已經有40000多個star,非常驚人,支持移動設備;
2)參加數據競賽
3)通過企業實習獲取項目經驗
如果你僅僅是做大數據開發和運維,則可以跳過第二步和第三步,如果你是側重於應用已有演算法進行數據挖掘,那麼第三步也可以先跳過。