『壹』 大數據的數量級是幾位元組
大數據的數量級有 MB (兆位元組),GB(吉位元組),TB,PB,EB,它們之間的進率都是1024,即2^10。所以大數據的數量級多以TB或PB為單位,GB量級偏小。
普通個人電腦所能存儲的數據,一般是幾百個GB到幾個TB的級別。例如,常見的固態硬碟,512GB就已經比較大了;常見的機械硬碟,可達1TB/2TB/4TB的容量。
而大數據是PB/EB級別。其實就是在TB的基礎上每一級接著乘以1024。
PB(Peta Byte)— 皮位元組,也就是1024TB
EB(Exa Byte)— 艾位元組,也就是1024PB
ZB(Zetta Byte)— 澤位元組,也就是1024EB
YB(Yotta Byte)— 堯位元組,也就是1024ZB
上述的這些大的單位在日常生活中幾乎接觸不到,而且常人也已經無法直觀地感受到這些單位能大到什麼讓人吃驚的程度。
『貳』 什麼是大數據 大數據單位 如何理解
大數據(big data)(巨量數據集合(IT行業術語))
指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,
是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、
高增長率和多樣化的信息資產。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它們按照進率1024(2的十次方)來計算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
『叄』 大數據概述及基本概念
大數據的定義首先,還是要重新審視大數據的定義。
行業里對大數據的定義有很多,有廣義的定義,也有狹義的定義。
廣義的定義,有點哲學味道——大數據,是指物理世界到數字世界的映射和提煉。通過發現其中的數據特徵,從而做出提升效率的決策行為。
狹義的定義,是技術工程師給的——大數據,是通過獲取、存儲、分析,從大容量數據中挖掘價值的一種全新的技術架構。
相比較而言,我還是喜歡技術定義,哈哈。
大家注意,關鍵詞我都在上面原句加粗了哈!
要做什麼?——獲取數據、存儲數據、分析數據
對誰做?——大容量數據
目的是什麼?——挖掘價值
獲取數據、存儲數據、分析數據,這一系列的行為,都不算新奇。我們每天都在用電腦,每天都在干這個事。
例如,每月的月初,考勤管理員會獲取每個員工的考勤信息,錄入Excel表格,然後存在電腦里,統計分析有多少人遲到、缺勤,然後扣TA工資。
但是,同樣的行為,放在大數據身上,就行不通了。換言之,傳統個人電腦,傳統常規軟體,無力應對的數據級別,才叫「大數據」。
2.大數據,到底有多大?
我們傳統的個人電腦,處理的數據,是GB/TB級別。例如,我們的硬碟,現在通常是1TB/2TB/4TB的容量。
TB、GB、MB、KB的關系,大家應該都很熟悉了:
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
而大數據是什麼級別呢?PB/EB級別。
大部分人都沒聽過。其實也就是繼續翻1024倍:
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。
1TB,只需要一塊硬碟可以存儲。容量大約是20萬張照片或20萬首MP3音樂,或者是671部《紅樓夢》小說。
1PB,需要大約2個機櫃的存儲設備。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽1900年。
1EB,需要大約2000個機櫃的存儲設備。如果並排放這些機櫃,可以連綿1.2公里那麼長。如果擺放在機房裡,需要21個標准籃球場那麼大的機房,才能放得下。
阿里、網路、騰訊這樣的互聯網巨頭,數據量據說已經接近EB級。
EB還不是最大的。目前全人類的數據量,是ZB級。
1 ZB = 1024 EB (ZB - zettabyte)
2011年,全球被創建和復制的數據總量是1.8ZB。
而到2020年,全球電子設備存儲的數據,將達到35ZB。如果建一個機房來存儲這些數據,那麼,這個機房的面積將比42個鳥巢體育場還大。
數據量不僅大,增長還很快——每年增長50%。也就是說,每兩年就會增長一倍。
目前的大數據應用,還沒有達到ZB級,主要集中在PB/EB級別。
大數據的級別定位:1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
1 ZB = 1024 EB (ZB - zettabyte)
3.數據的來源
數據的增長,為什麼會如此之快?
說到這里,就要回顧一下人類社會數據產生的幾個重要階段。
大致來說,是三個重要的階段。
第一個階段,就是計算機被發明之後的階段。尤其是資料庫被發明之後,使得數據管理的復雜度大大降低。各行各業開始產生了數據,從而被記錄在資料庫中。
這時的數據,以結構化數據為主(待會解釋什麼是「結構化數據」)。數據的產生方式,也是被動的。如果你對大數據開發感興趣,想系統學習大數據的話,可以戳我加入大數據技術學習交流群,私信管理員即可免費領取開發工具以及入門學習資料
第二個階段,是伴隨著互聯網2.0時代出現的。互聯網2.0的最重要標志,就是用戶原創內容。
隨著互聯網和移動通信設備的普及,人們開始使用博客、facebook、youtube這樣的社交網路,從而主動產生了大量的數據。
第三個階段,是感知式系統階段。隨著物聯網的發展,各種各樣的感知層節點開始自動產生大量的數據,例如遍布世界各個角落的感測器、攝像頭。
經過了「被動-主動-自動」這三個階段的發展,最終導致了人類數據總量的極速膨脹。
4.大數據的4Vs
行業里對大數據的特點,概括為4個V。前面所說的龐大數據體量,就是Volume(海量化)。除了Volume之外,剩下三個,分別是Variety、Velocity、Value。
我們一個一個來介紹。
Variety(多樣化)
數據的形式是多種多樣的,包括數字(價格、交易數據、體重、人數等)、文本(郵件、網頁等)、圖像、音頻、視頻、位置信息(經緯度、海拔等),等等,都是數據。
數據又分為結構化數據和非結構化數據。
從名字可以看出,結構化數據,是指可以用預先定義的數據模型表述,或者,可以存入關系型資料庫的數據。
例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結構化數據。
而網頁文章、郵件內容、圖像、音頻、視頻等,都屬於非結構話數據。
在互聯網領域里,非結構化數據的佔比已經超過整個數據量的80%。
大數據,就符合這樣的特點:數據形式多樣化,且非結構化數據佔比高。
Velocity(時效性)
大數據還有一個特點,那就是時效性。從數據的生成到消耗,時間窗口非常小。數據的變化速率,還有處理過程,越來越快。例如變化速率,從以前的按天變化,變成現在的按秒甚至毫秒變化。
我們還是用數字來說話:
就在剛剛過去的這一分鍾,數據世界裡發生了什麼?
Email:2.04億封被發出
Google:200萬次搜索請求被提交
Youtube:2880分鍾的視頻被上傳
Facebook:69.5萬條狀態被更新
Twitter:98000條推送被發出
12306:1840張車票被賣出
……
怎麼樣?是不是瞬息萬變?
Value(價值密度)
最後一個特點,就是價值密度。
大數據的數據量很大,但隨之帶來的,就是價值密度很低,數據中真正有價值的,只是其中的很少一部分。
例如通過監控視頻尋找犯罪分子的相貌,也許幾TB的視頻文件,真正有價值的,只有幾秒鍾。