A. 大數據應該怎麼學有哪些要求
「大數據」就是一些把我們需要觀察的對象數據化,然後把數據輸入計算機,讓計算機對這些大量的數據進行分析之後,給出我們一些結論。
①JavaSE核心技術;
②Hadoop平台核心技術、Hive開發、HBase開發;
③Spark相關技術、Scala基本編程;
④掌握Python基本使用、核心庫的使用、Python爬蟲、簡單數據分析;理解Python機器學習;
⑤大數據項目開發實戰,大數據系統管理優化等。
你可以考察對比一下南京課工場、北大青鳥、中博軟體學院等開設有大數據專業的學校。祝你學有所成,望採納。
北大青鳥中博軟體學院大數據畢業答辯
B. 零基礎學習大數據怎麼學
【導語】如今大數據發展得可謂是如日中天,各行各業對於大數據的需求也是與日俱增,越來越多的決策、建議、規劃和報告,都要依靠大數據的支撐,學習大數據成了不少人提升或轉行的機會,那麼零基礎學習大數據怎麼學呢?
1、學習大數據我們就要認識大數據,大數據(big
data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實性)。
2、學習有關大數據課程的內容:
第一階段:Java語言基礎(只只需要學習Java的標准版JavaSE就可以了,做大數據不需要很深的Java
技術,當然Java怎麼連接資料庫還是要知道);
第二階段:Linux精講(因為大數據相關軟體都是在Linux上運行的,所以Linux要學習的扎實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置,能少踩很多坑);
第三階段:Hadoop生態系統(這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞,所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN,HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面,MapRece是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。)
第四階段:strom實時開發(torm是一個免費並開源的分布式實時計算系統。利用Storm可以很容易做到可靠地處理無限的數據流,像Hadoop批量處理大數據一樣,Storm可以實時處理數據。Storm簡單,可以使用任何編程語言。)
第五階段:Spark生態體系(它是用來彌補基於MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用scala編寫的。);
第六階段:大數據項目實戰(大數據實戰項目可以幫助大家對大數據所學知識更加深刻的了解、認識,提高大數據實踐技術)。
關於零基礎學習大數據怎麼學,就給大家介紹到這里了,其實想要學好大數據,成為優秀的大數據工程師,還是需要大家多多進行自我技能提升,多多進行日常問題處理,加油!
C. 大數據怎麼學
其實簡單的來說,大數據就是通過分析和挖掘全量的非抽樣的數據輔助決策。
大數據可以實現的應用可以概括為兩個方向,一個是精準化定製,第二個是預測。比如像通過搜索引擎搜索同樣的內容,每個人的結果卻是大不相同的。再比如精準營銷、網路的推廣、淘寶的喜歡推薦,或者你到了一個地方,自動給你推薦周邊的消費設施等等。
很多新手剛開始會考慮自學大數據,時間安排自由,但是新手如何自學大數據是個相當嚴峻的問題,看視頻學大數據可以嗎?可以,但問題的關鍵在於你要找出優質的大數據視頻教程,然後要確保自己在學習中無遺漏,並且最好是伴隨著你相應的筆記。
新手自學大數據中,特別注意的是要進行項目練習,大數據在剛接觸時會有些新鮮感,但是接下來就是一些乏味感,一味的只看不練,那麼學起來更乏味,大數據本身也是門需要大量項目練習鞏固知識的專業,不多多進行項目練習,那麼很大程度上就等於白學,學不能致用。
新手自學大數據難嗎?其實相當有難度,大數據知識學習起來其實還滿雜的,既得學大數據基礎,又得掌握很多統計學等等的知識,自學大數據一個人的視野也畢竟有限,遇到難題時,想找個人一起商討如何解決,難,想證明自己所做的數據分析正確全面,但是無人可證。
沒有基礎的,我是建議去找一個專業的學習去學習,會大大的縮減學習時間以及提高學習效率
D. 初學者如何高效學習大數據技術
大數據相比大家一定都不陌生,很多小夥伴一定也想學習大數據技術,從事這方面的工作。因為近些年大數據是非常火爆的一個行業,之未來的發展前景也被大家所看好,所以也吸引了很多人前來學習大數據技術。
那麼,大數據怎麼學習比較好呢?
首先,小編認為大家需要做的就是去選擇一個比較適合自己的學習方式,目前市面上主要是自學和培訓倆種方式。
自學,相對來說是比較適合有一定的編程基礎的小夥伴的,並且自律性也要比較強才行,否則是很那堅持學習下去的,很多人都是因為沒有自律性導致後期逐漸的放棄學習。
培訓,不管是有基礎還是零基礎的都比較適合,只要想學習都是可以的,但前提是你必須要滿足年齡和學歷的一個要求才行。
其次,就是在學習的過中應該如何對待,小編這里一共總結了下邊幾個方面的,希望可以幫助大家。
1、遇到問題一定要及時解決,在解決的過程中先自己試著去解決,如果解決不了就去多問問老師,看看是怎麼解決的;
2、多和同學之間進行交流,在學習中有什麼疑問和同學多進行交流,這樣不僅可以互相幫忙學習,還可以不斷體系學習效率;
3、多敲代碼,多練習。編程學習主要是動手能力,所以大家一定要多去練習,只有練習之後你才能更好的發現問題並解決。
E. 怎麼自學大數據
自學大數據學習路線:(前提:以Java語言為基礎)
總共分為四個模塊:
大數據基礎
大數據框架
大數據項目
其他
第一模塊:大數據基礎
Java基礎:集合,IO流
JVM:重點是項目調優
多線程:理論和項目應用
Linux:最基本的操作
這一個模塊的重點是為了面試做准備,個人根據自己的情況去復習,復習的時候理論部分建議看書和博客資料,應用部分建議看視頻和Demo調試。
下面分別去詳細的介紹一下:
Java基礎:集合,IO流
主要是理論部分,可以看書或者博客總結,這一塊沒什麼推薦的,網上很多資料可以找到。
JVM:重點是項目調優
多線程:理論和項目應用
這兩塊重點要結合到項目中,通過項目中的實際使用,然後反饋到對應的理論基礎,這一塊建議在B站上看對應的視頻。B站」尚矽谷「官網上的視頻很詳細。
Linux:最基本的操作
這一塊有時間,先把《鳥哥的Linux私房菜》這本書看一遍,然後裝個Linux系統自己玩玩,對應的最常使用的命令自己敲敲。
如果沒時間,就把最常用的命令自己敲敲,網上有對應的總結,自己很容易搜到。一定要自己敲敲。
第二模塊:大數據框架
Hadoop:重點學,畢竟大數據是以Hadoop起家的,裡面就HDFS,MapReces,YARN三個模塊。
Hive:先學會怎麼用,當作一個工具來學習。
Spark:重點學,用來替代Hadoop的MapReces的,裡面重點有三塊:Spark Core,Spark SQL,Spark Streaming。
Flink:我還沒學。
Hbase:當作一個工具來學習,先學習怎麼用。
Kafka:先學怎麼用,其實裡面的模塊可以先理解成兩部分:生產者和消費者。所有的核心都是圍繞這兩個展開的。
Flume:當作一個工具來學習,先學習怎麼用。
Sqoop:當作一個工具來學習,先學習怎麼用。
Azkaban:當作一個工具來學習,先學習怎麼用。
Scala:這個是一門編程語句,基於Java 而來的,可以工作後在學習。
Zookeeper:當作一個工具來學習,先學習怎麼用。
以上的學習視頻和資料可以在B站的」尚矽谷「和」若澤大數據「里找到,很詳細。資料目前最詳細的資料就是各個框架對應的官網。視頻里也是對著官網一步一步講的。官網都是英文的,可以用Google瀏覽器的翻譯插件,翻譯成中文後在看。
第三模塊:大數據項目
B站的」尚矽谷「和」若澤大數據「。
第四模塊:其他
分布式:知道最基本的概念,有個分布式項目的經驗。分布式項目可以在B站的」尚矽谷「里找到。
演算法:網上有詳細的總結,書:推薦《劍指Offer》和《演算法4》,看演算法的目的是先掌握實現演算法的思路然後才是實現方式。
SQL:主要是調優,網上有很詳細的總結。
除此之外:Storm框架不要學了。
很多准備前期都是為了面試,例如:JVM和多線程,SQL調優和演算法。這些東西真正使用的過程中千差萬別,但核心知識不變,所以面試的時候總是會問,這一塊的前期以通過面試為主要點。
學習了差不多了,例如:Hadoop,Hive 和Spark學完了,就去面試面試,通過面試的情況在來調整自己的學習。
F. 怎樣學習大數據
首先我們要了解Java語言和Linux操作系統,這兩個是學習大數據的基礎,學習的順序不分前後。
Java :只要了解一些基礎即可,做大數據不需要很深的Java 技術,學java SE 就相當於有學習大數據基礎。
Linux:因為大數據相關軟體都是在Linux上運行的,所以Linux要學習的扎實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置,能少踩很多坑,學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。
Hadoop:這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞,所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN,HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面,MapRece是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。
Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以後的Hbase也會用到它。它一般用來存放一些相互協作的信息,這些信息比較小一般不會超過1M,都是使用它的軟體對它有依賴,對於我們個人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學習完大數據的處理了,接下來學習學習小數據的處理工具mysql資料庫,因為一會裝hive的時候要用到,mysql需要掌握到什麼層度那?你能在Linux上把它安裝好,運行起來,會配置簡單的許可權,修改root的密碼,創建資料庫。這里主要的是學習SQL的語法,因為hive的語法和這個非常相似。
Sqoop:這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個,直接把Mysql數據表導出成文件再放到HDFS上也是一樣的,當然生產環境中使用要注意Mysql的壓力。
Hive:這個東西對於會SQL語法的來說就是神器,它能讓你處理大數據變的很簡單,不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。
Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapRece、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警並能幫你重試程序,最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
Hbase:這是Hadoop生態體系中的NOSQL資料庫,他的數據是按照key和value的形式存儲的並且key是唯一的,所以它能用來做數據的排重,它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。
Kafka:這是個比較好用的隊列工具,隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來,你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去優化他的程序去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數據進行簡單處理,並寫到各種數據接受方(比如Kafka)的。
Spark:它是用來彌補基於MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。
G. 零基礎應該如何學習大數據
首先,學習大數據我們就要認識大數據,大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。 大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實性)。
其次,學習有關大數據課程的內容,第一階段:Java語言基礎(只只需要學習Java的標准版JavaSE就可以了,做大數據不需要很深的Java 技術,當然Java怎麼連接資料庫還是要知道);
第二階段:Linux精講(因為大數據相關軟體都是在Linux上運行的,所以Linux要學習的扎實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置,能少踩很多坑);
第三階段:Hadoop生態系統(這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞,所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN,HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面,MapRece是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。)
第四階段:strom實時開發(torm是一個免費並開源的分布式實時計算系統。利用Storm可以很容易做到可靠地處理無限的數據流,像Hadoop批量處理大數據一樣,Storm可以實時處理數據。Storm簡單,可以使用任何編程語言。)
第五階段:Spark生態體系(它是用來彌補基於MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用scala編寫的。);
第六階段:大數據項目實戰(大數據實戰項目可以幫助大家對大數據所學知識更加深刻的了解、認識,提高大數據實踐技術)。
關於零基礎應該如何學習大數據,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
H. 學大數據需要什麼基礎
說到大數據,肯定少不了分析軟體,這應該是大數據工作的根基,但市面上很多各種分析軟體,如果不是過來人,真的很難找到適合自己或符合企業要求的。小編通過各大企業對大數據相關行業的崗位要求,總結了以下幾點:
(1)SQL資料庫的基本操作,會基本的數據管理
(2)會用Excel/SQL做基本的數據分析和展示
(3)會用腳本語言進行數據分析,Python or R
(4)有獲取外部數據的能力,如爬蟲
(5)會基本的數據可視化技能,能撰寫數據報告
(6)熟悉常用的數據挖掘演算法:回歸分析、決策樹、隨機森林、支持向量機等
對於學習大數據,總體來說,先學基礎,再學理論,最後是工具。基本上,每一門語言的學習都是要按照這個順序來的。
1、學習數據分析基礎知識,包括概率論、數理統計。基礎這種東西還是要掌握好的啊,基礎都還沒扎實,知識大廈是很容易倒的哈。
2、你的目標行業的相關理論知識。比如金融類的,要學習證券、銀行、財務等各種知識,不然到了公司就一臉懵逼啦。
3、學習數據分析工具,軟體結合案列的實際應用,關於數據分析主流軟體有(從上手度從易到難):Excel,SPSS,stata,R,Python,SAS等。
4、學會怎樣操作這些軟體,然後是利用軟體從數據的清洗開始一步步進行處理,分析,最後輸出結果,檢驗及解讀數據。
當然,學習數學與應用數學、統計學、計算機科學與技術等理工科專業的人確實比文科生有著客觀的優勢,但能力大於專業,興趣才會決定你走得有多遠。畢竟數據分析不像編程那樣,需要你天天敲代碼,要學習好多的編程語言,數據分析更注重的是你的實操和業務能力。如今的軟體學習都是非常簡單便捷的,我們真正需要提升的是自己的邏輯思維能力,以及敏銳的洞察能力,還得有良好的溝通表述能力。這些都是和自身的努力有關,而不是單純憑借理工科背景就可以啃得下來的。相反這些能力更加傾向於文科生,畢竟好奇心、創造力也是一個人不可或缺的。
I. 想要學習大數據,應該怎麼入門
記住學到這里可以作為你學大數據的一個節點。
Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以後的Hbase也會用到它。它一般用來存放一些相互協作的信息,這些信息比較小一般不會超過1M,都是使用它的軟體對它有依賴,對於我們個人來講只需要把它安裝正確,讓它正常的run起來就可以了。
Mysql:我們學習完大數據的處理了,接下來學習學習小數據的處理工具mysql資料庫,因為一會裝hive的時候要用到,mysql需要掌握到什麼層度那?你能在Linux上把它安裝好,運行起來,會配置簡單的許可權,修改root的密碼,創建資料庫。這里主要的是學習SQL的語法,因為hive的語法和這個非常相似。
Sqoop:這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個,直接把Mysql數據表導出成文件再放到HDFS上也是一樣的,當然生產環境中使用要注意Mysql的壓力。
Hive:這個東西對於會SQL語法的來說就是神器,它能讓你處理大數據變的很簡單,不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。
Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapRece、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警並能幫你重試程序,最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。
Hbase:這是Hadoop生態體系中的NOSQL資料庫,他的數據是按照key和value的形式存儲的並且key是唯一的,所以它能用來做數據的排重,它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。
Kafka:這是個比較好用的隊列工具,隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來,你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去優化他的程序去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數據進行簡單處理,並寫到各種數據接受方(比如Kafka)的。
Spark:它是用來彌補基於MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。
J. 大數據怎麼學習
第一階段:大數據技術入門
1大數據入門:介紹當前流行大數據技術,數據技術原理,並介紹其思想,介紹大數據技術培訓課程,概要介紹。
2Linux大數據必備:介紹Lniux常見版本,VMware虛擬機安裝Linux系統,虛擬機網路配置,文件基本命令操作,遠程連接工具使用,用戶和組創建,刪除,更改和授權,文件/目錄創建,刪除,移動,拷貝重命名,編輯器基本使用,文件常用操作,磁碟基本管理命令,內存使用監控命令,軟體安裝方式,介紹LinuxShell的變數,控制,循環基本語法,LinuxCrontab定時任務使用,對Lniux基礎知識,進行階段性實戰訓練,這個過程需要動手操作,將理論付諸實踐。
3CM&CDHHadoop的Cloudera版:包含Hadoop,HBase,Hiva,Spark,Flume等,介紹CM的安裝,CDH的安裝,配置,等等。
第二階段:海量數據高級分析語言
Scala是一門多範式的編程語言,類似於java,設計的初衷是實現可伸縮的語言,並集成面向對象編程和函數式編程的多種特性,介紹其優略勢,基礎語句,語法和用法, 介紹Scala的函數,函數按名稱調用,使用命名參數函數,函數使用可變參數,遞歸函數,默認參數值,高階函數,嵌套函數,匿名函數,部分應用函數,柯里函數,閉包,需要進行動手的操作。
第三階段:海量數據存儲分布式存儲
1HadoopHDFS分布式存儲:HDFS是Hadoop的分布式文件存儲系統,是一個高度容錯性的系統,適合部署在廉價的機器上,HDFS能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用,介紹其的入門基礎知識,深入剖析。
2HBase分布式存儲:HBase-HadoopDatabase是一個高可靠性,高性能,面向列,可伸縮的分布式存儲系統,利用HBase技術可在廉價PC上搭建起大規模結構化存儲集群,介紹其入門的基礎知識,以及設計原則,需實際操作才能熟練。
第四階段:海量數據分析分布式計算
1HadoopMapRece分布式計算:是一種編程模型,用於打過莫數據集的並行運算。
2Hiva數據挖掘:對其進行概要性簡介,數據定義,創建,修改,刪除等操作。
3Spare分布式計算:Spare是類MapRece的通用並行框架。
第五階段:考試
1技術前瞻:對全球最新的大數據技術進行簡介。
2考前輔導:自主選擇報考工信部考試,對通過者發放工信部大數據技能認證書。
上面的內容包含了大數據學習的所有的課程,所以,如果有想學大數據的可以從這方面下手,慢慢的了解大數據。