A. 大數據的定義是什麼
大數據首先是一個非常大的數據集,可以達到TB(萬億位元組)甚至ZB(十萬億億位元組)。這裡面的數據可能既有結構化的數據,也有半結構化和非結構化的數據,而且來自於不同的數據源。
結構化的數據是什麼呢?對於接觸過關系型資料庫的小夥伴來說,應該一點都不陌生。對了,就是我們關系型資料庫中的一張表,每行都具有相同的屬性。如下面的一張表:
(子標簽的次序和個數不一定完全一致)
那什麼又是非結構化數據呢?這類數據沒有預定義完整的數據結構,在我們日常工作生活中可能更多接觸的就是這類數據,比如,圖片、圖像、音頻、視頻、辦公文檔等等。
知道了這三類結構的數據,我們再來看看大數據的數據源有哪些呢?歸納起來大致有五種數據源。
一是社交媒體平台。如有名氣的Facebook、Twitter、YouTube和Instagram等。媒體是比較受歡迎的大數據來源之一,因為它提供了關於消費者偏好和變化趨勢的寶貴依據。並且因為媒體是自我傳播的,可以跨越物理和人口障礙,因此它是企業深入了解目標受眾、得出模式和結論、增強決策能力的方式。
二是雲平台。公有的、私有的和第三方的雲平台。如今,越來越多的企業將數據轉移到雲上,超越了傳統的數據源。雲存儲支持結構化和非結構化數據,並為業務提供實時信息和隨需應變的依據。雲計算的主要特性是靈活性和可伸縮性。由於大數據可以通過網路和伺服器在公共或私有雲上存儲和獲取,因此雲是一種高效、經濟的數據源。
三是Web資源。公共網路構成了廣泛且易於訪問的大數據,個人和公司都可以從網上或「互聯網」上獲得數據。此外,國內的大型購物網站,淘寶、京東、阿里巴巴,更是雲集了海量的用戶數據。
四是IoT(Internet of Things)物聯網數據源。物聯網目前正處於迅猛發展勢頭。有了物聯網,我們不僅可以從電腦和智能手機獲取數據,還可以從醫療設備、車輛流程、視頻游戲、儀表、相機、家用電器等方面獲取數據。這些都構成了大數據寶貴的數據來源。
五是來自於資料庫的數據源。現今的企業都喜歡融合使用傳統和現代資料庫來獲取相關的大數據。這些數據都是企業驅動業務利潤的寶貴資源。常見的資料庫有MS Access、DB2、Oracle、MySQL以及大數據的資料庫Hbase、MongoDB等。
我們再來總結一下,什麼樣的數據就屬於大數據呢?通常來大數據有4個特點,這就是業內人士常說的4V,volume容量、 variety多樣性、velocity速度和veracity准確性。
B. 什麼是大數據,大數據為什麼重要,如何應用大數據
大數據:
大數據(big data),是指無法在可承受的時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據進行分析處理。大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
對於「大數據」(Big data)研究機構Gartner給出了這樣的定義。「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
根據維基網路的定義,大數據是指無法在可承受的時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
從技術上看,大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分布式架構。它的特色在於對海量數據進行分布式數據挖掘,但它必須依託雲計算的分布式處理、分布式資料庫和雲存儲、虛擬化技術。[1]
隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。《著雲台》的分析師團隊認為,大數據(Big data)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型資料庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapRece一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)資料庫、數據挖掘電網、分布式文件系統、分布式資料庫、雲計算平台、互聯網和可擴展的存儲系統。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
意義:
有人把數據比喻為蘊[4] 藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在「大」,而在於「有用」。價值含量、挖掘成本比數量更為重要。對於很多行業而言,如何利用這些大規模數據是成為贏得競爭的關鍵。
大數據的價值體現在以下幾個方面:
1)對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷;
2) 做小而美模式的中長尾企業可以利用大數據做服務轉型;
3) 面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。
C. 大數據是什麼
大數據是指那些數據量特別大、數據類別特別復雜的數據集,這種數據集不能用傳統的資料庫進行轉存、管理和處理,是需要新處理模式才能具有更強大的決策力、洞察發現力和流程優化能力的海量、高增差率和多樣化的信息資產。
而大數據的主要特點就是數據量大、數據處理速度快、數據真實性高、數據類別復雜等,它們合起來被稱為4V。
大數據也可以應用在警察預測犯罪的發生、預測選舉結果,同時還能通過手機定位數據和交通數據建立城市規劃,現在醫療行業也在做大數據的分析。
現在社會發展速度非常快,科技也很發達,信息的流通和人們之間的交流也非常密切,而大數據就是這個時代高科技的產物。
對於大部分行業而言,怎麼運用這些大規模數據是贏得競爭的關鍵,但同時,大數據在經濟發展中的意義不能取代一切對於社會問題的理性思考。
現在大數據行業非常的受歡迎,人才需要求量也非常大,而且企業給大數據工程師的薪資比一般工程師的薪資也要高很多。