導航:首頁 > 數據處理 > 大數據技術平台怎麼選

大數據技術平台怎麼選

發布時間:2023-01-12 13:35:38

⑴ 現在企業里用企業里用的比較多的大數據框架是什麼主要是哪些業務場景會用到

主流的大數據框架,Hadoop、Spark普遍,然後Flink也越來越流行。應用在大數據平台的etl輔助過程。

隨著汽車市場逐步飽和,競爭加劇,車企希望通過擁抱大數據實現精細化經營,領先一步。但是大數據化的過程並非一蹴而就,也不是簡單的大數據技術選擇,更應該看成一個企業級系統工程。本文結合大數據項目實踐和行業理解。

著重闡述了如何系統看待大數據建設和關鍵問題解決思路。背景隨著汽車普及的不斷深入,中國汽車市場逐漸飽和增速放緩,我國車企已邁入了競爭運營的階段。隨著近年大數據的興起,越來越多的車企也選擇投身大數據潮流。

希望通過擁抱大數據,實現更加精細化的業務運營,營銷模式變化,乃至企業轉型,提高自身運營競爭力。如國際頂級車企大眾、寶馬、賓士,還有國內車企長城、吉利等都紛紛開啟了自己的大數據之路。

圖1車企大數據典型案例然而,在大數據化進程中,車企卻發現演變過程並不是那麼一帆風順,在和車企交流中,往往能聽到業務部門的抱怨。

1.數據質量怎麼這么差,用戶姓名一看就是隨便輸入的,手機號碼居然只有9位。

2.銷量統計錯了,把提車數統計到實銷數里了。

3.你做的分析功能我們不需要,對了,我們庫存預測到底能不能做。信息化部門卻會感覺到困惑。

4.我們已經採用先進的大數據技術平台了,但是該做些什麼業務。

5.我們哪裡知道業務部門對應計算口徑是什麼,業務需求不清楚。

6.你這個業務需求,我們心裡沒數。由此可見,如何構建一個高效大數據平台,不僅僅是簡單的IT系統建設,更不是簡單購買了大數據平台就能實現大數據分析。企業大數據化更應該是一個系統,要貫穿管理-業務-系統-數據。

逐步規劃,逐步建設,而不是一蹴而就。因此,基於大數據思考、實踐模式,聯想總結出企業大數據建設框架,針對其中關鍵問題提出思考和分析。

⑵ 進行大數據分析 需選擇合適技術

進行大數據分析 需選擇合適技術
對於企業而言,大數據不僅是個熱門話題,更是真切的需求所在。許多企業開始著手於大數據分析項目,但是現在,越來越多的企業存儲的信息量就算不是PB級,起碼也有TB量級……
大數據的能量和其為企業帶來的競爭力優勢已經逐漸顯現,現在大數據已經成為商業智能、分析和數據管理市場領域中討論度最高的話題之一,當然也是最熱門的流行語之一。此外,企業已經看到了將大數據與雲計算綁定所帶來的好處。雲計算提供可擴展性,使得其成為大數據分析的實踐之車。
對於企業而言,大數據不僅是個熱門話題,更是真切的需求所在。許多企業開始著手於大數據分析項目,但是現在,越來越多的企業存儲的信息量就算不是PB級,起碼也有TB量級。這些企業可能希望每天能分析幾次關鍵數據,甚至是實現實時分析;而傳統BI流程對歷史數據進行分析的頻率是以周或月為單位的。
此外,越來越多復雜查詢的處理帶來了各種不同的數據集,其中有可能包含來自企業資源計劃(ERP)系統和客戶關系管理(CRM)系統交易數據、社交媒介和地理空間數據,還有內部文檔和其它格式信息等等。
要進行大數據分析,選擇合適的技術是規劃的第一部分,企業選擇了資料庫軟體、分析工具以及相關的技術架構後,才可以進行下一步並開發一個真正成功的大數據平台。技術供應商處理這些需求的方式是多種多樣的。許多資料庫和數據倉庫供應商都在關注及時處理大量復雜數據的能力。有的用列式數據存儲來實現更快速的查詢,有的提供內建的查詢優化器,有的增加對Hadoop和MapRece這類開源技術的支持功能。
內存分析工具可能對分析處理速度的提升有所幫助,因為它能減少磁碟數據轉換的需求;而數據虛擬化軟體和其它實時數據集成技術可對運行中不同數據源的信息進行收集。對於垂直市場而言,現成的分析應用程序都是專門為其定製的,因為諸如電信、金融服務和網路游戲這些行業都必須處理大數據。當公司管理人員和業務經理需要查看大數據分析查詢結果時,數據可視化工具可以簡化其流程。
企業在在制定實施方案、對大數據基礎設施進行選型之前,還需要考慮一些問題,比如數據及時性,因為並不是所有資料庫都支持實時數據可用性。各種數據源需要與數據關聯性和業務規則復雜度進行鏈接,以獲得一個包含企業績效、銷售機會、客戶行為、風險因素和其它業務指標的全面視圖。由於分析的需要,歷史數據的數量也需考慮在內。如果我們需要五年的數據,而一個數據源只包含兩年的信息,那麼該怎麼辦呢?然,這些因素並不能從根本上影響需求的規劃,但是它們可以幫助企業部署大數據分析系統、選擇最為合適的技術。
大數據正在以穩定的步伐滲透到各行各業,未來我們的生活中大數據的應用會越來越多,而對於企業而言,其整個企業的信息質量會變得更好,而且信息能夠更高效的得到利用。

⑶ 大數據培訓機構該如何選擇

一、品牌口碑


現在我們不管幹什麼首先看的就是口碑,如:去某個飯店吃飯,要不就是朋友推薦這家味道很好去吃,要不就是在美團等平台通過互聯網了解它的味道怎樣,買衣服也是一樣,我們在逛淘寶時,買衣服肯定是要看好評率的,這也相當是口碑,好評率好的我們才會買,所以,選擇大數據培訓機構也是一樣的,看口碑,口碑好的大致方向就會沒錯。


二、教學質量、環境


機構的教學質量、環境直接關乎學員學習的質量,這里的教學質量不僅是教學管理制度,還包括教師教學質量,因為,學員要想學習的好,不僅要老師教的好,還需要一套完整的教學體系配合老師共同完成。因為濃厚的學習氛圍,才會促使參加培訓的學員好好學習。


三、課程設置


只要談到學習,就離不開課程,也就是我們所要學習的知識和技術。課程是否合理直接決定了學生的知識結構和學習成果。一般的課程設置在機構的官網就能夠看見,或者可以直接讓機構負責人發一份。


四、就業率


培訓機構基本都會披露以往學生的就業信息,我們不能排除其有作假的可能性,但我們依然可以作為一個參考對其進行評測,也可以在一些問答平台,如:知乎、網路知道,貼吧等平台進行了解,同時也可以了解該行業的整體薪資水平和就業競爭大小。


五、實訓項目


目前一些中小型企業堆大數據人才的需求量特別大,但是這些中小企業一般沒有內培大數據人才的時間和精力,並且他們還需要有豐富項目經驗的人才進入企業,直接參與開發工作。


關於大數據培訓機構該如何選擇,青藤小編就和您分享到這里了。如果你對大數據工程有濃厚的興趣,希望這篇文章能夠對你有所幫助。如果您還想了解更多數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。

⑷ 大數據技術平台有哪些

Java:只要了解一些基礎即可,做大數據不需要很深的Java 技術,學java SE 就相當於有學習大數據。基礎

Linux:因為大數據相關軟體都是在Linux上運行的,所以Linux要學習的扎實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置,能少踩很多坑,學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。

好說完基礎了,再說說還需要學習哪些大數據技術,可以按我寫的順序學下去。

Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapRece、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警並能幫你重試程序,最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。

Hbase:這是Hadoop生態體系中的NOSQL資料庫,他的數據是按照key和value的形式存儲的並且key是唯一的,所以它能用來做數據的排重,它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。

Kafka:這是個比較好用的隊列工具,隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來,你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰溜溜的去優化他的程序去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數據進行簡單處理,並寫到各種數據接收方(比如Kafka)的。

Spark:它是用來彌補基於MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。

⑸ 大數據解決方案選擇哪一家

隨著「大數據時代」的來臨,企業越來越重視數據的作用,數據給企業帶來的價值也越來越多。本文檔將介紹大數據給企業帶來的機遇與挑戰以及企業的大數據解決方案。

第三、大數據結論的解讀和應用。

大數據可以從數據分析的層面上揭示各個變數之間可能的關聯,但是數據層面上的關聯如何具象到行業實踐中?如何制定可執行方案應用大數據的結論?這些問題要求執行者不但能夠解讀大數據,同時還需深諳行業發展各個要素之間的關聯。這一環節基於大數據技術的發展但又涉及到管理和執行等各方面因素。在這一環節中,人的因素成為制勝關鍵。從技術角度,執行人需要理解大數據技術,能夠解讀大數據分析的結論;從行業角度,執行人要非常了解行業各個生產環節的流程的關系、各要素之間的可能關聯,並且將大數據得到的結論和行業的具體執行環節一一對應起來;從管理的角度,執行人需要制定出可執行的解決問題的方案,並且確保這一方案和管理流程沒有沖突,在解決問題的同時,沒有製造出新的問題。這些需求,不但要求執行人深諳技術,同時應當是一個卓越的管理者,有系統論的思維,能夠從復雜系統的角度關聯地看待大數據與行業的關系。此類人才的稀缺性將制約大數據的發展。

⑹ 大數據實時分析平台是未來趨勢如何如何選擇

PetaBase-V作為Vertica基於億信分析產品的定製版,提供面向大數據的實時分析服務,採用無共享大規模並行架構(MPP),可線性擴展集群的計算能力和數據處理容量,基於列式資料庫技術,使 PetaBase-V 擁有高性能、高擴展性、高壓縮率、高健壯性等特點,可完美解決報表計算慢和明細數據查詢等性能問題。

當前的大數據技術的研究可以分為幾個方向:結構化數據分析、文本數據分析、多媒體數據分析、Web數據分析、網路數據分析和移動數據分析。

未來,大數據10個主要發展趨勢:

大數據與人工智慧的融合;

跨學科領域交叉的數據分析應用;

數據科學帶動多學科融合;

深度學習成為大數據智能分析的核心技術;

利用大數據構建大規模、有序化開放式的知識體系;

大數據的安全持續令人擔憂;

開源繼續成為大數據技術的主流;大數據與雲計算、移動互聯網等的綜合應用;

大數據提升政府治理能力,數據資源化、私有化、商品化成為持續的趨勢;

大數據技術課程體系建設和人才培養快速發展。大數據發展趨勢預測總結為「融合、跨界、基礎、突破」。

1.結合智能計算的大數據分析成為熱點,包括大數據與神經計算、深度學習、語義計算以及人工智慧其他相關技術結合。得益於以雲計算、大數據為代表的計算技術的快速發展,使得信息處理速度和質量大為提高,能快速、並行處理海量數據。

2.跨學科領域交叉的數據融合分析與應用將成為今後大數據分析應用發展的重大趨勢。

由於現有的大數據平台易用性差,而垂直應用行業的數據分析又涉及領域專家知識和領域建模,目前在大數據行業分析應用與通用的大數據技術之間存在很大的鴻溝,缺少相互的交叉融合。

因此,迫切需要進行跨學科和跨領域的大數據技術和應用研究,促進和推動大數據在典型和重大行業中的應用和落地,尤其是與物聯網、移動互聯、雲計算、社會計算等熱點技術領域相互交叉融合。

3.大數據安全和隱私。大數據時代,各網站均不同程度地開放其用戶所產生的實時數據,一些監測數據的市場分析機構可通過人們在社交網站中寫入的信息、智能手機顯示的位置信息等多種數據組合進行分析挖掘。

然而,大數據時代的數據分析不能保證個人信息不被其他組織非法使用,用戶隱私安全問題的解決迫在眉睫。

安全智能更加強調將過去分散的安全信息進行集成與關聯,獨立的分析方法和工具進行整合形成交互,最終實現智能化的安全分析與決策。

4.各種可視化技術和工具提升大數據分析。進行分析之前,需要對數據進行探索式地考查。

在此過程中,可視化將發揮很大的作用。對大數據進行分析以後,為了方便用戶理解結果,也需要把結果展示出來。尤其是可視化移動數據分析工具,能追蹤用戶行為,讓應用開發者得以從用戶角度評估自己的產品,通過觀察用戶與一款應用的互動方式,開發者將能理解用戶為何執行某些特定行為,從而為自己完善和改進應用提供依據。

將來,企業用戶會選擇更加可靠、安全、易用的一站式大數據處理平台。

大數據一站式平台包括:虛擬化平台、數據融合平台、大數據管理平台、可視化平台。

致力於為客戶提供企業及的大數據平台服務,幫助企業輕松構建出獨屬於自己的數據智能解決方案,從傳統應用向大數據應用轉型,借力大數據優勢深化自身業務價值體系。

⑺ 大數據平台的軟體有哪些

一、Phoenix
簡介:這是一個Java中間層,可以讓開發者在Apache HBase上執行SQL查詢。Phoenix完全使用Java編寫,代碼位於GitHub上,並且提供了一個客戶端可嵌入的JDBC驅動。
Phoenix查詢引擎會將SQL查詢轉換為一個或多個HBase scan,並編排執行以生成標準的JDBC結果集。直接使用HBase API、協同處理器與自定義過濾器,對於簡單查詢來說,其性能量級是毫秒,對於百萬級別的行數來說,其性能量級是秒
二、Stinger
簡介:原叫Tez,下一代Hive,Hortonworks主導開發,運行在YARN上的DAG計算框架。
某些測試下,Stinger能提升10倍左右的性能,同時會讓Hive支持更多的SQL,其主要優點包括:
❶讓用戶在Hadoop獲得更多的查詢匹配。其中包括類似OVER的字句分析功能,支持WHERE查詢,讓Hive的樣式系統更符合SQL模型。
❷優化了Hive請求執行計劃,優化後請求時間減少90%。改動了Hive執行引擎,增加單Hive任務的被秒處理記錄數。
❸在Hive社區中引入了新的列式文件格式(如ORC文件),提供一種更現代、高效和高性能的方式來儲存Hive數據。
三、Presto
簡介:Facebook開源的數據查詢引擎Presto ,可對250PB以上的數據進行快速地互動式分析。該項目始於 2012 年秋季開始開發,目前該項目已經在超過 1000 名 Facebook 雇員中使用,運行超過 30000 個查詢,每日數據在 1PB 級別。Facebook 稱 Presto 的性能比諸如 Hive 和 Map*Rece 要好上 10 倍有多。
Presto 當前支持 ANSI SQL 的大多數特效,包括聯合查詢、左右聯接、子查詢以及一些聚合和計算函數;支持近似截然不同的計數(DISTINCT COUNT)等。

⑻ 數據分析師如何選擇合適的數據分析工具

其實題主需要搞清楚以下幾個問題,搞清楚了,其實問題的答案也就有了:
1、是從個人學習成長的角度想搭建平台自學?還是現在的公司需要大數據技術進行分析?——如果是從個人學習成長的角度,建議直接按照Hadoop或者Spark的官網教程安裝即可,建議看官網(英文),在大數據技術領域,英語的掌握是非常重要的,因為涉及到組件選型、日後的安裝、部署、運維,所有的任務運行信息、報錯信息都是英文的,包括遇到問題的解答,所以還是非常重要的。如果是公司需要進行大數據分析,那麼還要研究以下幾個問題:為什麼需要搭建大數據分析平台?要解決什麼業務問題?需要什麼樣的分析?數據量有多少?是否有實時分析的需求?是否有BI報表的需求?——這里舉一個典型的場景:公司之前採用Oracle或MySQL搭建的業務資料庫,而且有簡單的數據分析,或者可能采購了BI系統,就是直接用業務系統資料庫進行支持的,現在隨著數據量越來越大,那麼就需要採用大數據技術進行擴容。
搞清楚需求之後,按照以下的步驟進行:
1、整體方案設計;整體方案設計時需要考慮的因素:數據量有多少:幾百GB?幾十TB?數據存儲在哪裡:存儲在MySQL中?Oracle中?或其他資料庫中?數據如何從現在的存儲系統進入到大數據平台中?如何將結果數據寫出到其他存儲系統中?分析主題是什麼:只有幾個簡單指標?還是說有很多統計指標,需要專門的人員去梳理,分組,並進行產品設計;是否需要搭建整體數倉?是否需要BI報表:業務人員有無操作BI的能力,或團隊組成比較簡單,不需要前後端人員投入,使用BI比較方便;是否需要實時計算?
2、組件選型;架構設計完成後就需要組件選型了,這時候最好是比較資深的架構師參與設計,選型包括:離線計算引擎:Hadoop、Spark、Tez……實時計算引擎:Storm、Flink、Samza、Spark
Streaming……BI軟體:Tableau、QlikView、帆軟……
3、安裝部署;選型完成後,就可以進行安裝部署了,這部分其實是最簡單的,直接按照每個組件的部署要求安裝即可。
4、另一種選擇:採用商用軟體如果是企業需要搭建大數據平台,那麼還有一種選擇是直接採用商用的數據平台。市面上有很多成熟的商用大數據平台,Cloudera、星環、華為、亞信等等,都有對應的產品線,像我們袋鼠雲就有一款非常優秀的大數據平台產品:數棧。主要有以下幾個特點:
1.一站式。一站式數據開發產品體系,滿足企業建設數據中台過程中的多樣復雜需求。
2.兼容性強。支持對接多種計算引擎,使更多企業「半路上車」。
3.開箱即用。基於Web的圖形化操作界面,開箱即用,快速上手。
4.性價比高。滿足中小企業數據中台建設需求,降低企業投入成本。
可以了解下。

⑼ 怎麼開發大數據平台

開發數據大平台的操作方法具體如下。
1、操作體系的挑選。操作體系一般使用開源版的RedHat、Centos或許Debian作為底層的構建渠道,要根據大數據渠道所要建立的數據剖析東西能夠支撐的體系,正確的挑選操作體系的版本。
2、建立Hadoop集群。Hadoop作為一個開發和運行處理大規模數據的軟體渠道,實現了在大量的廉價計算機組成的集群中對海量數據進行分布式計算。Hadoop結構中最核心的規劃是HDFS和MapRece,HDFS是一個高度容錯性的體系,合適布置在廉價的機器上,能夠供給高吞吐量的數據訪問,適用於那些有著超大數據集的應用程序;MapRece是一套能夠從海量的數據中提取數據最終回來成果集的編程模型。在生產實踐應用中,Hadoop非常合適應用於大數據存儲和大數據的剖析應用,合適服務於幾千台到幾萬台大的伺服器的集群運行,支撐PB級別的存儲容量。
3、挑選數據接入和預處理東西。面臨各種來源的數據,數據接入便是將這些零散的數據整合在一起,歸納起來進行剖析。數據接入首要包括文件日誌的接入、資料庫日誌的接入、關系型資料庫的接入和應用程序等的接入,數據接入常用的東西有Flume,Logstash,NDC(網易數據運河體系),sqoop等。
4、數據存儲。除了Hadoop中已廣泛應用於數據存儲的HDFS,常用的還有分布式、面向列的開源資料庫Hbase,HBase是一種key、value體系,布置在HDFS上,與Hadoop一樣,HBase的目標首要是依靠橫向擴展,通過不斷的添加廉價的商用伺服器,添加計算和存儲才能。同時hadoop的資源管理器Yarn,能夠為上層應用供給統一的資源管理和調度,為集群在利用率、資源統一等方面帶來巨大的優點。
5、挑選數據挖掘東西。Hive能夠將結構化的數據映射為一張資料庫表,並供給HQL的查詢功能,它是建立在Hadoop之上的數據倉庫根底架構,是為了削減MapRece編寫工作的批處理體系,它的出現能夠讓那些通曉SQL技術、可是不熟悉MapRece、編程才能較弱和不擅長Java的用戶能夠在HDFS大規模數據集上很好的利用SQL言語查詢、匯總、剖析數據。
6、數據的可視化以及輸出API。關於處理得到的數據能夠對接主流的BI體系,比如國外的Tableau、Qlikview、PowrerBI等,國內的SmallBI和新興的網易有數(可免費試用)等,將成果進行可視化,用於決策剖析;或許迴流到線上,支撐線上業務的開展。

⑽ 如何創建一個大數據平台

所謂的大數據平台不是獨立存在的,比如網路是依賴搜索引擎獲得大數據並開展業務的,阿里是通過電子商務交易獲得大數據並開展業務的,騰訊是通過社交獲得大數據並開始業務的,所以說大數據平台不是獨立存在的,重點是如何搜集和沉澱數據,如何分析數據並挖掘數據的價值。

我可能還不夠資格回答這個問題,沒有經歷過一個公司大數據平台從無到有到復雜的過程。不過說說看法吧,也算是梳理一下想法找找噴。
這是個需求驅動的過程。
曾經聽過spotify的分享,印象很深的是,他們分享說,他們的hadoop集群第一次故障是因為,機器放在靠窗的地方,太陽曬了當機了(笑)。從簡單的沒有機房放在自家窗前的集群到一直到現在復雜的數據平台,這是一個不斷演進的過程。
對小公司來說,大概自己找一兩台機器架個集群算算,也算是大數據平台了。在初創階段,數據量會很小,不需要多大的規模。這時候組件選擇也很隨意,Hadoop一套,任務調度用腳本或者輕量的框架比如luigi之類的,數據分析可能hive還不如導入RMDB快。監控和部署也許都沒時間整理,用腳本或者輕量的監控,大約是沒有ganglia、nagios,puppet什麼的。這個階段也許算是技術積累,用傳統手段還是真大數據平台都是兩可的事情,但是為了今後的擴展性,這時候上Hadoop也許是不錯的選擇。
當進入高速發展期,也許擴容會跟不上計劃,不少公司可能會遷移平台到雲上,比如AWS阿里雲什麼的。小規模高速發展的平台,這種方式應該是經濟實惠的,省了運維和管理的成本,擴容比較省心。要解決的是選擇平台本身提供的服務,計算成本,打通數據出入的通道。整個數據平台本身如果走這條路,可能就已經基本成型了。走這條路的比較有名的應該是netflix。
也有一個階段,你發現雲服務的費用太高,雖然省了你很多事,但是花錢嗖嗖的。幾個老闆一合計,再玩下去下個月工資發布出來了。然後無奈之下公司開始往私有集群遷移。這時候你大概需要一群靠譜的運維,幫你監管機器,之前兩三台機器登錄上去看看狀態換個磁碟什麼的也許就不可能了,你面對的是成百上千台主機,有些關鍵服務必須保證穩定,有些是數據節點,磁碟三天兩頭損耗,網路可能被壓得不堪重負。你需要一個靠譜的人設計網路布局,設計運維規范,架設監控,值班團隊走起7*24小時隨時准備出台。然後上面再有平台組真的大數據平台走起。
然後是選型,如果有技術實力,可以直接用社區的一整套,自己管起來,監控部署什麼的自己走起。這個階段部署監控和用戶管理什麼的都不可能像兩三個節點那樣人肉搞了,配置管理,部署管理都需要專門的平台和組件;定期Review用戶的作業和使用情況,決定是否擴容,清理數據等等。否則等機器和業務進一步增加,團隊可能會死的很慘,疲於奔命,每天事故不斷,進入惡性循環。
當然有金錢實力的大戶可以找Cloudera,Hortonworks,國內可以找華為星環,會省不少事,適合非互聯網土豪。當然互聯網公司也有用這些東西的,比如Ebay。
接下去你可能需要一些重量的組件幫你做一些事情。
比如你的數據接入,之前可能找個定時腳本或者爬log發包找個伺服器接收寫入HDFS,現在可能不行了,這些大概沒有高性能,沒有異常保障,你需要更強壯的解決方案,比如Flume之類的。
你的業務不斷壯大,老闆需要看的報表越來越多,需要訓練的數據也需要清洗,你就需要任務調度,比如oozie或者azkaban之類的,這些系統幫你管理關鍵任務的調度和監控。
數據分析人員的數據大概可能漸漸從RDBMS搬遷到集群了,因為傳統資料庫已經完全hold不住了,但他們不會寫代碼,所以你上馬了Hive。然後很多用戶用了Hive覺得太慢,你就又上馬交互分析系統,比如Presto,Impala或者SparkSQL。
你的數據科學家需要寫ML代碼,他們跟你說你需要Mahout或者Spark MLLib,於是你也部署了這些。
至此可能數據平台已經是工程師的日常工作場所了,大多數業務都會遷移過來。這時候你可能面臨很多不同的問題。
比如各個業務線數據各種數據表多的一塌糊塗,不管是你還是寫數據的人大概都不知道數據從哪兒來,接下去到哪兒去。你就自己搞了一套元數據管理的系統。
你分析性能,發現你們的數據都是上百Column,各種復雜的Query,裸存的Text格式即便壓縮了也還是慢的要死,於是你主推用戶都使用列存,Parquet,ORC之類的。
又或者你發現你們的ETL很長,中間生成好多臨時數據,於是你下狠心把pipeline改寫成Spark了。
再接下來也許你會想到花時間去維護一個門戶,把這些零散的組件都整合到一起,提供統一的用戶體驗,比如一鍵就能把數據從資料庫chua一下拉到HDFS導入Hive,也能一鍵就chua一下再搞回去;點幾下就能設定一個定時任務,每天跑了給老闆自動推送報表;或者點一下就能起一個Storm的topology;或者界面上寫幾個Query就能查詢Hbase的數據。這時候你的數據平台算是成型了。
當然,磕磕碰碰免不了。每天你都有新的問題和挑戰,否則你就要失業了不是?
你發現社區不斷在解決你遇到過的問題,於是你們架構師每天分出很多時間去看社區的進展,有了什麼新工具,有什麼公司發布了什麼項目解決了什麼問題,興許你就能用上。
上了這些亂七八糟的東西,你以為就安生了?Hadoop平台的一個大特點就是坑多。尤其是新做的功能新起的項目。對於平台組的人,老闆如果知道這是天然坑多的平台,那他也許會很高興,因為跟進社區,幫忙修bug,一起互動其實是很提升公司影響力的實情。當然如果老闆不理解,你就自求多福吧,招幾個老司機,出了問題能馬上帶路才是正道。當然團隊的技術積累不能不跟上,因為數據平台還是亂世,三天不跟進你就不知道世界是什麼樣了。任何一個新技術,都是坑啊坑啊修啊修啊才完善的。如果是關鍵業務換技術,那需要小心再小心,技術主管也要有足夠的積累,能夠駕馭,知道收益和風險。

閱讀全文

與大數據技術平台怎麼選相關的資料

熱點內容
巴寶莉燈飾代理怎麼說 瀏覽:63
cpi數據圖在哪裡看 瀏覽:599
瑪麗黛佳哪些產品好用 瀏覽:750
交易失敗是怎麼回事 瀏覽:408
宜昌有哪些好的職業技術學校 瀏覽:285
換手機後多多自走棋怎麼同步數據 瀏覽:625
微信小程序申請的etc是哪裡的卡 瀏覽:934
海富通電子信息產業股票有哪些 瀏覽:960
網購香港的東西需要什麼程序 瀏覽:675
美團小程序如何聯系商家 瀏覽:777
資料庫版本如何進行迭代更新 瀏覽:855
淘寶怎麼不代理房產了 瀏覽:165
如何辦保險代理人 瀏覽:72
騰訊mot什麼產品好 瀏覽:786
成都舊銅交易市場在哪裡 瀏覽:239
非實時信息交流什麼意思 瀏覽:591
計算機存儲設備負責哪些數據 瀏覽:403
天線原理和微波技術基礎哪個難 瀏覽:813
戰時用什麼接收信息 瀏覽:259
家庭醫生產品如何銷售 瀏覽:304