㈠ 現在大數據分析的發展前景怎麼樣
隨著大數據技術在各行各業應用的越來越廣,數據驅動智能產品和精細化運營已經成為企業經營的制勝法寶,相應地,數據分析師這個崗位也越來越受到關注,越來越多的小夥伴也轉行做數據分析,因為大家不僅看到的是未來數據分析的發展前景,而且數據分析師的薪資待遇也很不錯!
崗位缺口大,就業薪資高,而且這個崗位對學歷的要求不是特別高,對經驗的要求也不算嚴格,從而數據分析師,在大數據時代,迎來了黃金就業期。
通過搜索BOSS直聘和領英,發現其上面有上有10萬+個數據分析師職位空缺,其中絕大部分是互聯網行業的需求。值得注意的是,雖然國內現有很多數據分析師員工,但其數量佔比依舊很少,職位空缺卻佔到了市場的50%之多。大多數熱門崗位都會在招聘JD中,給出「具備數據分析能力」這樣的招聘條件。
2019年全國大數據人才需求是2015年的12倍,從數據可以看出,2020年乃至未來,數據分析師將是職業發展的一個重要方向。
從銷售、市場,到運營、產品經理、用戶研究等,都試圖從各種繁雜數據中看出點門道,獲得對市場、產品、消費者等方面的洞見。
㈡ 大數據分析:如今的大數據到底發展到了什麼階段
大數據泛指無法在可容忍的時間內用傳統信息技術和軟硬體工具對其進行獲取、管理和處理的巨量數據集合,具有海量性、多樣性、時效性及可變性等特徵,需要可伸縮的計算體系結構以支持其存儲、處理和分析。
經過多年發展,人們對大數據已經形成基本共識:大數據現象源於互聯網及其延伸所帶來的無處不在的信息技術應用以及信息技術的不斷低成本化。
大數據相關技術、產品、應用和標准不斷發展,逐漸形成了包括數據資源與API、開源平台與工具、數據基礎設施、數據分析、數據應用等板塊構成的大數據生態系統,並持續發展和不斷完善,其發展熱點呈現了從技術向應用、再向治理的逐漸遷移。
㈢ 大數據概述及基本概念
大數據的定義首先,還是要重新審視大數據的定義。
行業里對大數據的定義有很多,有廣義的定義,也有狹義的定義。
廣義的定義,有點哲學味道——大數據,是指物理世界到數字世界的映射和提煉。通過發現其中的數據特徵,從而做出提升效率的決策行為。
狹義的定義,是技術工程師給的——大數據,是通過獲取、存儲、分析,從大容量數據中挖掘價值的一種全新的技術架構。
相比較而言,我還是喜歡技術定義,哈哈。
大家注意,關鍵詞我都在上面原句加粗了哈!
要做什麼?——獲取數據、存儲數據、分析數據
對誰做?——大容量數據
目的是什麼?——挖掘價值
獲取數據、存儲數據、分析數據,這一系列的行為,都不算新奇。我們每天都在用電腦,每天都在干這個事。
例如,每月的月初,考勤管理員會獲取每個員工的考勤信息,錄入Excel表格,然後存在電腦里,統計分析有多少人遲到、缺勤,然後扣TA工資。
但是,同樣的行為,放在大數據身上,就行不通了。換言之,傳統個人電腦,傳統常規軟體,無力應對的數據級別,才叫「大數據」。
2.大數據,到底有多大?
我們傳統的個人電腦,處理的數據,是GB/TB級別。例如,我們的硬碟,現在通常是1TB/2TB/4TB的容量。
TB、GB、MB、KB的關系,大家應該都很熟悉了:
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
而大數據是什麼級別呢?PB/EB級別。
大部分人都沒聽過。其實也就是繼續翻1024倍:
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。
1TB,只需要一塊硬碟可以存儲。容量大約是20萬張照片或20萬首MP3音樂,或者是671部《紅樓夢》小說。
1PB,需要大約2個機櫃的存儲設備。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽1900年。
1EB,需要大約2000個機櫃的存儲設備。如果並排放這些機櫃,可以連綿1.2公里那麼長。如果擺放在機房裡,需要21個標准籃球場那麼大的機房,才能放得下。
阿里、網路、騰訊這樣的互聯網巨頭,數據量據說已經接近EB級。
EB還不是最大的。目前全人類的數據量,是ZB級。
1 ZB = 1024 EB (ZB - zettabyte)
2011年,全球被創建和復制的數據總量是1.8ZB。
而到2020年,全球電子設備存儲的數據,將達到35ZB。如果建一個機房來存儲這些數據,那麼,這個機房的面積將比42個鳥巢體育場還大。
數據量不僅大,增長還很快——每年增長50%。也就是說,每兩年就會增長一倍。
目前的大數據應用,還沒有達到ZB級,主要集中在PB/EB級別。
大數據的級別定位:1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
1 ZB = 1024 EB (ZB - zettabyte)
3.數據的來源
數據的增長,為什麼會如此之快?
說到這里,就要回顧一下人類社會數據產生的幾個重要階段。
大致來說,是三個重要的階段。
第一個階段,就是計算機被發明之後的階段。尤其是資料庫被發明之後,使得數據管理的復雜度大大降低。各行各業開始產生了數據,從而被記錄在資料庫中。
這時的數據,以結構化數據為主(待會解釋什麼是「結構化數據」)。數據的產生方式,也是被動的。如果你對大數據開發感興趣,想系統學習大數據的話,可以戳我加入大數據技術學習交流群,私信管理員即可免費領取開發工具以及入門學習資料
第二個階段,是伴隨著互聯網2.0時代出現的。互聯網2.0的最重要標志,就是用戶原創內容。
隨著互聯網和移動通信設備的普及,人們開始使用博客、facebook、youtube這樣的社交網路,從而主動產生了大量的數據。
第三個階段,是感知式系統階段。隨著物聯網的發展,各種各樣的感知層節點開始自動產生大量的數據,例如遍布世界各個角落的感測器、攝像頭。
經過了「被動-主動-自動」這三個階段的發展,最終導致了人類數據總量的極速膨脹。
4.大數據的4Vs
行業里對大數據的特點,概括為4個V。前面所說的龐大數據體量,就是Volume(海量化)。除了Volume之外,剩下三個,分別是Variety、Velocity、Value。
我們一個一個來介紹。
Variety(多樣化)
數據的形式是多種多樣的,包括數字(價格、交易數據、體重、人數等)、文本(郵件、網頁等)、圖像、音頻、視頻、位置信息(經緯度、海拔等),等等,都是數據。
數據又分為結構化數據和非結構化數據。
從名字可以看出,結構化數據,是指可以用預先定義的數據模型表述,或者,可以存入關系型資料庫的數據。
例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結構化數據。
而網頁文章、郵件內容、圖像、音頻、視頻等,都屬於非結構話數據。
在互聯網領域里,非結構化數據的佔比已經超過整個數據量的80%。
大數據,就符合這樣的特點:數據形式多樣化,且非結構化數據佔比高。
Velocity(時效性)
大數據還有一個特點,那就是時效性。從數據的生成到消耗,時間窗口非常小。數據的變化速率,還有處理過程,越來越快。例如變化速率,從以前的按天變化,變成現在的按秒甚至毫秒變化。
我們還是用數字來說話:
就在剛剛過去的這一分鍾,數據世界裡發生了什麼?
Email:2.04億封被發出
Google:200萬次搜索請求被提交
Youtube:2880分鍾的視頻被上傳
Facebook:69.5萬條狀態被更新
Twitter:98000條推送被發出
12306:1840張車票被賣出
……
怎麼樣?是不是瞬息萬變?
Value(價值密度)
最後一個特點,就是價值密度。
大數據的數據量很大,但隨之帶來的,就是價值密度很低,數據中真正有價值的,只是其中的很少一部分。
例如通過監控視頻尋找犯罪分子的相貌,也許幾TB的視頻文件,真正有價值的,只有幾秒鍾。