導航:首頁 > 軟體知識 > 程序員如何做大數據

程序員如何做大數據

發布時間：2023-03-10 00:30:26

1、技術日漸成熟，應用空間得以拓展

大數據技術，最早於1980年被首次提及，卻在近幾年才獲得突飛猛進的發展。相較於幾十年前神經網路演算法捉襟見肘的計算能力，如今處理器對大規模數據的高速處理能力無疑發揮了關鍵性的作用。藉助於處理器的高性能，使我們短時間內完成PB 級數據的機器學習和模型訓練成為可能，由此為高度依賴深度學習的圖像、語音識別產品的快速迭代奠定基礎，大數據應用空間得以拓展，也由此催生了提供相關產品與服務的技術公司。

2、重視數據資產，數據挖掘已成必然

現代信息技術使每日產生的數據量呈指數級增長，企業發展再也無法迴避對數據價值的挖掘與利用。電商平台利用畫像做個性化推薦，互聯網金融公司利用高危識別技術管控金融風險，滴滴出行利用交易數據通過實時定價優化利潤……這些都是對大數據價值的發掘和利用。隨著數據資產意識的加強，數據挖掘也將獲得越來越多結合具體行業場景的重視。

3、技術催生業務新模式，蘊含創業新契機

大數據產業鏈，催生出針對不同版塊提供產品和服務的業務組合新模式，無論是利用推薦演算法做內容服務的今日頭條，還是基於數據整合提供監測服務的 TalkingData，或者是提供底層架構支持的阿里雲，無不是發覺了大數據產業鏈條所蘊含的創業先機。

大數據創業，時至今日熱度不減，雖難出BAT那樣巨頭獨大的局面，其提供的相對公平的競爭機會，依然在吸引著新的創業公司加入。

4、市場供不應求，崗位挑戰空間大

翻看大數據相關招聘崗位，一方面是供不應求的招聘局面，另一方面是騰訊、華為等大牌互聯網公司開出的誘惑薪資，都讓普通崗位的程序員躍躍欲試。

再加上這些崗位相比於傳統的軟體工程，有更高的挑戰空間和更大的難度，自然引得更多人才進入到這個領域。

大數據相關崗位有哪些？

1. 偏技術的「演算法工程師」

利用演算法手段，構建機器學習模型，解決諸如「人臉識別」、「支付風險管控」等高難度問題。它往往既需要工程師在具體問題上有足夠的專注力，也需要對相關的演算法有足夠深度的了解。

2. 偏業務的「數據挖掘工程師」

結合計算機知識，重點攻克復雜業務的演算法化和模型化難題。與演算法工程師的要求不同，它往往不需要工程師在演算法上探索得足夠深入，卻對知識的廣度和技能的交叉度有較高的要求，還需要工程師具備相當和快速的業務理解能力。當然了，對數據的高敏感性也必不可少。

技術 Leader 最想要什麼樣的人？

1、最好，你是個獨當一面的全才

基礎條件：扎實的計算機基礎、邏輯能力、英文等素質

保障條件：聰明、學習能力強

加分條件：大規模集群開發經驗；上層數據應用優化經歷；熟悉聚類、分類、推薦、

NLP、神經網路等常見演算法；會數據處理，還熟悉聚類、分類、推薦、NLP、神經網路等各種常見演算法……

2、退而求其次，有配合團隊的長板優勢

全才難得，退而求其次，針對不同崗位吸收具有不同特長的人才，以追求團隊整體配合的平衡，也不失為一個策略。

計算機視覺領域的大數據公司，往往需要自己的團隊中同時具備如下特長的成員。比如精通演算法的人才：把圖像識別相關演算法模型調整到極致；工程實力型人才：高性能實現訓練好的演算法模型，或者幫團隊搭建一整套視頻圖像數據採集、標注、機器學習、自動化測試、產品實現的平台。

即便同一演算法工程團隊內部，成員的技能側重點也要合理搭配，以互為補充。比如，有人專注核心演算法研究，就要有人擅長業務分析，專注業務演算法模型的實現。

因此，對於想轉型大數據的普通程序猿來說，梳理清楚自己現有技能對於新團隊的價值非常重要，這是促使新團隊決定吸收自己的關鍵。比如，發揮硬體和底層系統工作經歷在演算法高速實現上的優勢，一旦通過自身擅長的技能切入新團隊之後，就有了更多橫向發展的機會，幫助自己在大數據相關領域建立更強競爭力。

3、相較當前技能水平，扎實的基礎和成長空間更被看重

當前技能水平好比是術，而扎實的計算機基礎則處於道的層面，諸如Spark等工具性知識通過後期學習便能輕易掌握，而如果缺少了C++/Java基礎想進步卻絕非易事。比如，如果演算法、數據結構比較強，編程語言上對 C++ 理解較深入，在應用層的學習上，就可能會比其他人快很多。

有人將程序猿能力抽象為一個金字塔模型，雖然對計算機語言的精通是每個工程師都注重的能力，但越基礎的素養越蘊含了更多的發展潛力。相比單純苛責當前技能，能利用基礎素養勝任一部分基礎工作，然後通過1-2年鍛煉接受更復雜問題的程序猿，反而更受企業青睞。

TalkingData 大數據招聘負責人曾直言道，相比於對 Spark 了解更多的人，他們更願意招收那些 Java 學得好的人。因為 Spark 的介面學習起來相對容易，但是要想精通 Java 是一件很難的事情。如果把 Java 或者 C++ 學透了，那麼對計算機技術的認識將很不一樣。

轉型大數據，要點歸納

1、重視基礎

2、發揮專長

3、准備充分

4、首選公司內部轉崗

2. 程序員如何轉型成為大數據工程師

主要是從兩者所要求的能力上來分析。首先，編碼能力越強的程序員，越有可能成為，優秀的大數據工程師。

其次，大數據工程師需要統計學、與應用數學相關的能力背景，數據挖掘與分析，是需要設計數據模型和演算法的，應該說程序員，是有這個基礎的，厲害的程序員，一般都不是科班出來的，通常是數學專業，因此提高演算法設計能力，是程序員轉型大數據工程師的關鍵因素。

第三，大數據工程師需要具備某一行業的業務知識。大數據的挖掘與分析，最終都要服務於市場，並對產品的銷售與企業的發展，起到重大推動作用，那才是有價值的大數分析。

在美國，大數據工程師平均年薪，達 17.5 萬美元(摺合人民幣大概 105 萬左右)，在中國頂尖的互聯網公司里，大數據工程師的薪酬，比同級別的其他職位高出 30% 以上。

DT 時代來得太突然了，國內發展勢頭很猛，而大數據相關的人才，卻非常的有限，在未來若干年內，都會是供不應求的狀況，指望大學培養出合格的大數據人才，有如天方夜譚，因此程序員們，你們的春天到了!

關於程序員如何轉型成為大數據工程師，青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣，希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容，可以點擊本站的其他文章進行學習。

3. 作為一個Java程序員，該怎麼轉行做大數據分析師

我也做過好多年Java，去年開始也接觸了些大數據的架構。跟你情況類似。我的觀點是你可以去動手搭建一下，玩玩，其實並不像你想像的那樣高深莫測。都是些工具，我不太喜歡學如何用這些工具，只要能解決我要解決的問題，去用就是了。如果工具的實現感興趣就去看看代碼。工具本身怎麼用就是個fact，只是知道和不知道的區別。不要覺得做Java就比別人低一等。你一樣可以做的很出色。會用那些大數據工具也並不代表能力有多強

4. 如何運用大數據

1.可視化分析
大數據分析的使用者有大數據分析專家，同時還有普通用戶，但是他們二者對於大數據分析最基本的要求就是可視化分析，因為可視化分析能夠直觀的呈現大數據特點，同時能夠非常容易被讀者所接受，就如同看圖說話一樣簡單明了。
2. 數據挖掘演算法

大數據分析的理論核心就是數據挖掘演算法，各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點，也正是因為這些被全世界統
計
學家所公認的各種統計方法（可以稱之為真理）才能深入數據內部，挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據，如
果一個演算法得花上好幾年才能得出結論，那大數據的價值也就無從說起了。
3. 預測性分析
大數據分析最終要的應用領域之一就是預測性分析，從大數據中挖掘出特點，通過科學的建立模型，之後便可以通過模型帶入新的數據，從而預測未來的數據。
4. 語義引擎
非結構化數據的多元化給數據分析帶來新的挑戰，我們需要一套工具系統的去分析，提煉數據。語義引擎需要設計到有足夠的人工智慧以足以從數據中主動地提取信息。
5.數據質量和數據管理。大數據分析離不開數據質量和數據管理，高質量的數據和有效的數據管理，無論是在學術研究還是在商業應用領域，都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面，當然更加深入大數據分析的話，還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。

大數據的技術
數據採集： ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成，最後載入到數據倉庫或數據集市中，成為聯機分析處理、數據挖掘的基礎。
數據存取：關系資料庫、NOSQL、SQL等。
基礎架構：雲存儲、分布式文件存儲等。
數
據處理：自然語言處理(NLP，Natural Language
Processing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機」理解」自然語言，所以自然語言處理又叫做自然語言理
解也稱為計算語言學。一方面它是語言信息處理的一個分支，另一方面它是人工智慧的核心課題之一。
統計分析：
假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、
卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、
因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析（最優尺度分析）、bootstrap技術等等。
數
據挖掘：分類
（Classification）、估計（Estimation）、預測（Prediction）、相關性分組或關聯規則（Affinity
grouping or association rules）、聚類（Clustering）、描述和可視化、Description and
Visualization）、復雜數據類型挖掘(Text, Web ,圖形圖像，視頻，音頻等)
模型預測：預測模型、機器學習、建模模擬。
結果呈現：雲計算、標簽雲、關系圖等。

大數據的處理
1. 大數據處理之一：採集
大
數據的採集是指利用多個資料庫來接收發自客戶端（Web、App或者感測器形式等）的
數據，並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如，電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據，除
此之外，Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中，其主要特點和挑戰是並發數高，因為同時
有可能會有成千上萬的用戶
來進行訪問和操作，比如火車票售票網站和淘寶，它們並發的訪問量在峰值時達到上百萬，所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間
進行負載均衡和分片的確是需要深入的思考和設計。
2. 大數據處理之二：導入/預處理
雖然採集端本身會有很多資料庫，但是如果要對這些
海量數據進行有效的分析，還是應該將這
些來自前端的數據導入到一個集中的大型分布式資料庫，或者分布式存儲集群，並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使
用來自Twitter的Storm來對數據進行流式計算，來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大，每秒鍾的導入量經常會達到百兆，甚至千兆級別。
3. 大數據處理之三：統計/分析
統
計與分析主要利用分布式資料庫，或者分布式計算集群來對存儲於其內的海量數據進行普通
的分析和分類匯總等，以滿足大多數常見的分析需求，在這方面，一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata，以及基於
MySQL的列式存儲Infobright等，而一些批處理，或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大，其對系統資源，特別是I/O會有極大的佔用。
4. 大數據處理之四：挖掘
與
前面統計和分析過程不同的是，數據挖掘一般沒有什麼預先設定好的主題，主要是在現有數
據上面進行基於各種演算法的計算，從而起到預測（Predict）的效果，從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於

統計學習的SVM和用於分類的NaiveBayes，主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜，並
且計算涉及的數據量和計算量都很大，常用數據挖掘演算法都以單線程為主。

整個大數據處理的普遍流程至少應該滿足這四個方面的步驟，才能算得上是一個比較完整的大數據處理。

5. java 大數據怎麼做

Java是編程語言；
大數據是一個概念，包含的技術較多，比如Hadoop、Spark、Storm等；
學習大數據先要學習Java，Java是基礎，而大數據比較核心的兩個課程是HADOOP、SPARK。

6. Java工程師轉大數據難度高嗎

Java程序員轉大數據工程師有很好的基礎條件
對於Java程序員，大數據的主流平台hadoop是基於Java開發的，所以Java程序員往大數據開發方向轉行從語言環境上更為順暢，另外很多基於大數據的應用框架也是Java的，所以在很多大數據項目里Java語言的確是可以派上用場的。所以，Java程序員轉大數據工程師是具備很好的基礎條件的。當然，hadoop核心價值在於提供了分布式文件系統和分布式計算引擎，對於大部分公司而言，並不需要對這個引擎進行修改。這時候除了熟悉編程，你通常還需要學習數據處理和數據挖掘的一些知識。尤其是往數據挖掘工程師方向發展，則你需要掌握更多的工具和知識。
Java程序員轉大數據職位的學習路線圖：
第一步：分布式計算框架
掌握hadoop和spark分布式計算框架，了解文件系統、消息隊列和Nosql資料庫，學習相關組件如hadoop、MR、spark、hive、hbase、redies、kafka等;
第二步：演算法和工具
學習了解各種數據挖掘演算法，如分類、聚類、關聯規則、回歸、決策樹、神經網路等，熟練掌握一門數據挖掘編程工具：Python或者Scala。目前主流平台和框架已經提供了演算法庫，如hadoop上的Mahout和spark上的Mllib，你也可以從學習這些介面和腳本語言開始學習這些演算法。
第三步：數學
補充數學知識：高數、概率論和線代
第四步：項目實踐
1)開源項目：tensorflow：Google的開源庫，已經有40000多個star，非常驚人，支持移動設備;
2)參加數據競賽：Kaggle和國內天池數據競賽
3)通過企業實習獲取項目經驗
如果你僅僅是做大數據開發和運維，則可以跳過第二步和第三步，如果你是側重於應用已有演算法進行數據挖掘，那麼第三步也可以先跳過。
總結：
Java工程師可以更容易理解hadoop的框架和生態，很多大數據saas級產品也是Java開發的，因此Java基礎是轉行大數據的一個很好的起點。但大數據是一個更為寬廣的領域，具有跨界知識和能力的人才會更受企業青睞。隨著人工智慧時代的到來，大數據將迎來黃金發展的10年，如果你已經做好准備，那麼就立即開始行動吧！

7. 小白想轉行做大數據，怎麼入行

大數據現在這么火，想往大數據方面發展，但是英文、數學不好的可以嗎？？學習大數據該學哪些技術？？大數據和程序員比哪個要好學點？？等等。。。很多人學大數據的原因就是大數據找工作好找，薪資很高，，當然，為了這個原因也是可以的，畢竟這個時代就業壓力確實很大，為了一個好的工作學一門技術，，但是我想問下你，你的專業是什麼呢？？對於計算機/軟體，你的興趣是什麼？是計算機專業，對操作系統、硬體、網路、伺服器感興趣？是軟體專業，對軟體開發、編程、寫代碼感興趣？還是數學、統計學專業，對數據和數字特別感興趣。。

二、更高效的WordCount

首先，你得先學習SQL，訪問、查詢資料庫的基本語言還是要懂的。。然後SQL On Hadoop之Hive，Hive是數據倉庫工具，數據倉庫是邏輯上的概念，底層使用的是資料庫，數據倉庫的特點：數據全（海量）、穩定；所謂穩定，比如資料庫的數據經常要更新，而數據倉庫的數據是不會被更新，只會被查詢，所以說Hive適合做數據倉庫。最後就是了解hive的工作原理，學會Hive的工作命令。

三、把別處的數據搞到Hadoop上

四、把Hadoop上的數據搞到別處去

五、實例分析

六、實時數據

七、更新查詢數據

八、高大上的機器學習

完成了第一、二，說明你已經快步入大數據的行列了，寫的不好也請多多包涵。

詳細了解可登錄網址：網頁鏈接

閱讀全文

與程序員如何做大數據相關的資料

熱點內容

商業產品的照片怎麼調色發布：2025-03-19 11:47:00 瀏覽：267

男生沒回信息一般在干什麼發布：2025-03-19 11:46:55 瀏覽：244

通用技術作品思路怎麼寫發布：2025-03-19 11:40:47 瀏覽：418

想做葯品代理怎麼辦發布：2025-03-19 11:39:08 瀏覽：131

四室住宅產權證未滿五年如何交易發布：2025-03-19 11:27:05 瀏覽：203

測你是什麼嘴型小程序發布：2025-03-19 11:27:03 瀏覽：862

遼陽做小程序多少錢發布：2025-03-19 11:15:23 瀏覽：355

調料新手怎麼去市場了解價格質量發布：2025-03-19 11:13:07 瀏覽：698

南陽現貨交易市場怎麼樣發布：2025-03-19 11:12:19 瀏覽：68

肉雞技術員待遇怎麼樣發布：2025-03-19 11:11:32 瀏覽：398

買貓產品怎麼搜發布：2025-03-19 11:07:16 瀏覽：201

哪些手游可以交易裝備的發布：2025-03-19 10:55:45 瀏覽：865

申通代理商什麼時候拿到錢發布：2025-03-19 10:53:32 瀏覽：815

串口通信數據出錯是什麼原因發布：2025-03-19 10:47:53 瀏覽：500

重要信息修改什麼意思發布：2025-03-19 10:45:29 瀏覽：152

蘋果手錶顯示信息能顯示多少發布：2025-03-19 10:38:15 瀏覽：280

環境質量數據來自哪裡發布：2025-03-19 10:33:57 瀏覽：566

廣東番禺哪裡有人才市場發布：2025-03-19 10:26:41 瀏覽：792

騷擾罪多少條信息夠判刑發布：2025-03-19 10:25:15 瀏覽：857

捷達電子轉向怎麼刷數據發布：2025-03-19 10:23:32 瀏覽：380