導航:首頁 > 數據處理 > 大數據的盡頭是什麼

大數據的盡頭是什麼

發布時間:2024-06-04 06:03:45

大數據時代發展歷程是什麼

大數據技術發展史:大數據的前世今生

今天我們常說的大數據技術,其實起源於Google在2004年前後發表的三篇論文,也就是我們經常聽到的「三駕馬車」,分別是分布式文件系統GFS、大數據分布式計算框架MapRece和NoSQL資料庫系統BigTable。

你知道,搜索引擎主要就做兩件事情,一個是網頁抓取,一個是索引構建,而在這個過程中,有大量的數據需要存儲和計算。這「三駕馬車」其實就是用來解決這個問題的,你從介紹中也能看出來,一個文件系統、一個計算框架、一個資料庫系統。

現在你聽到分布式、大數據之類的詞,肯定一點兒也不陌生。但你要知道,在2004年那會兒,整個互聯網還處於懵懂時代,Google發布的論文實在是讓業界為之一振,大家恍然大悟,原來還可以這么玩。

因為那個時間段,大多數公司的關注點其實還是聚焦在單機上,在思考如何提升單機的性能,尋找更貴更好的伺服器。而Google的思路是部署一個大規模的伺服器集群,通過分布式的方式將海量數據存儲在這個集群上,然後利用集群上的所有機器進行數據計算。 這樣,Google其實不需要買很多很貴的伺服器,它只要把這些普通的機器組織到一起,就非常厲害了。

當時的天才程序員,也是Lucene開源項目的創始人Doug Cutting正在開發開源搜索引擎Nutch,閱讀了Google的論文後,他非常興奮,緊接著就根據論文原理初步實現了類似GFS和MapRece的功能。

兩年後的2006年,Doug Cutting將這些大數據相關的功能從Nutch中分離了出來,然後啟動了一個獨立的項目專門開發維護大數據技術,這就是後來赫赫有名的Hadoop,主要包括Hadoop分布式文件系統HDFS和大數據計算引擎MapRece。

當我們回顧軟體開發的歷史,包括我們自己開發的軟體,你會發現,有的軟體在開發出來以後無人問津或者寥寥數人使用,這樣的軟體其實在所有開發出來的軟體中佔大多數。而有的軟體則可能會開創一個行業,每年創造數百億美元的價值,創造百萬計的就業崗位,這些軟體曾經是Windows、Linux、Java,而現在這個名單要加上Hadoop的名字。

如果有時間,你可以簡單瀏覽下Hadoop的代碼,這個純用Java編寫的軟體其實並沒有什麼高深的技術難點,使用的也都是一些最基礎的編程技巧,也沒有什麼出奇之處,但是它卻給社會帶來巨大的影響,甚至帶動一場深刻的科技革命,推動了人工智慧的發展與進步。

我覺得,我們在做軟體開發的時候,也可以多思考一下,我們所開發軟體的價值點在哪裡?真正需要使用軟體實現價值的地方在哪裡?你應該關注業務、理解業務,有價值導向,用自己的技術為公司創造真正的價值,進而實現自己的人生價值。而不是整天埋頭在需求說明文檔里,做一個沒有思考的代碼機器人。

Hadoop發布之後,Yahoo很快就用了起來。大概又過了一年到了2007年,網路和阿里巴巴也開始使用Hadoop進行大數據存儲與計算。

2008年,Hadoop正式成為Apache的頂級項目,後來Doug Cutting本人也成為了Apache基金會的主席。自此,Hadoop作為軟體開發領域的一顆明星冉冉升起。

同年,專門運營Hadoop的商業公司Cloudera成立,Hadoop得到進一步的商業支持。

這個時候,Yahoo的一些人覺得用MapRece進行大數據編程太麻煩了,於是便開發了Pig。Pig是一種腳本語言,使用類SQL的語法,開發者可以用Pig腳本描述要對大數據集上進行的操作,Pig經過編譯後會生成MapRece程序,然後在Hadoop上運行。

編寫Pig腳本雖然比直接MapRece編程容易,但是依然需要學習新的腳本語法。於是Facebook又發布了Hive。Hive支持使用SQL語法來進行大數據計算,比如說你可以寫個Select語句進行數據查詢,然後Hive會把SQL語句轉化成MapRece的計算程序。

這樣,熟悉資料庫的數據分析師和工程師便可以無門檻地使用大數據進行數據分析和處理了。Hive出現後極大程度地降低了Hadoop的使用難度,迅速得到開發者和企業的追捧。據說,2011年的時候,Facebook大數據平台上運行的作業90%都來源於Hive。

隨後,眾多Hadoop周邊產品開始出現,大數據生態體系逐漸形成,其中包括:專門將關系資料庫中的數據導入導出到Hadoop平台的Sqoop;針對大規模日誌進行分布式收集、聚合和傳輸的Flume;MapRece工作流調度引擎Oozie等。

在Hadoop早期,MapRece既是一個執行引擎,又是一個資源調度框架,伺服器集群的資源調度管理由MapRece自己完成。但是這樣不利於資源復用,也使得MapRece非常臃腫。於是一個新項目啟動了,將MapRece執行引擎和資源調度分離開來,這就是Yarn。2012年,Yarn成為一個獨立的項目開始運營,隨後被各類大數據產品支持,成為大數據平台上最主流的資源調度系統。

同樣是在2012年,UC伯克利AMP實驗室(Algorithms、Machine和People的縮寫)開發的Spark開始嶄露頭角。當時AMP實驗室的馬鐵博士發現使用MapRece進行機器學習計算的時候性能非常差,因為機器學習演算法通常需要進行很多次的迭代計算,而MapRece每執行一次Map和Rece計算都需要重新啟動一次作業,帶來大量的無謂消耗。還有一點就是MapRece主要使用磁碟作為存儲介質,而2012年的時候,內存已經突破容量和成本限制,成為數據運行過程中主要的存儲介質。Spark一經推出,立即受到業界的追捧,並逐步替代MapRece在企業應用中的地位。

一般說來,像MapRece、Spark這類計算框架處理的業務場景都被稱作批處理計算,因為它們通常針對以「天」為單位產生的數據進行一次計算,然後得到需要的結果,這中間計算需要花費的時間大概是幾十分鍾甚至更長的時間。因為計算的數據是非在線得到的實時數據,而是歷史數據,所以這類計算也被稱為大數據離線計算。

而在大數據領域,還有另外一類應用場景,它們需要對實時產生的大量數據進行即時計算,比如對於遍布城市的監控攝像頭進行人臉識別和嫌犯追蹤。這類計算稱為大數據流計算,相應地,有Storm、Flink、Spark Streaming等流計算框架來滿足此類大數據應用的場景。 流式計算要處理的數據是實時在線產生的數據,所以這類計算也被稱為大數據實時計算。

在典型的大數據的業務場景下,數據業務最通用的做法是,採用批處理的技術處理歷史全量數據,採用流式計算處理實時新增數據。而像Flink這樣的計算引擎,可以同時支持流式計算和批處理計算。

除了大數據批處理和流處理,NoSQL系統處理的主要也是大規模海量數據的存儲與訪問,所以也被歸為大數據技術。 NoSQL曾經在2011年左右非常火爆,涌現出HBase、Cassandra等許多優秀的產品,其中HBase是從Hadoop中分離出來的、基於HDFS的NoSQL系統。

我們回顧軟體發展的歷史會發現,差不多類似功能的軟體,它們出現的時間都非常接近,比如Linux和Windows都是在90年代初出現,Java開發中的各類MVC框架也基本都是同期出現,Android和iOS也是前腳後腳問世。2011年前後,各種NoSQL資料庫也是層出不群,我也是在那個時候參與開發了阿里巴巴自己的NoSQL系統。

事物發展有自己的潮流和規律,當你身處潮流之中的時候,要緊緊抓住潮流的機會,想辦法脫穎而出,即使沒有成功,也會更加洞悉時代的脈搏,收獲珍貴的知識和經驗。而如果潮流已經退去,這個時候再去往這個方向上努力,只會收獲迷茫與壓抑,對時代、對自己都沒有什麼幫助。

但是時代的浪潮猶如海灘上的浪花,總是一浪接著一浪,只要你站在海邊,身處這個行業之中,下一個浪潮很快又會到來。你需要敏感而又深刻地去觀察,略去那些浮躁的泡沫,抓住真正潮流的機會,奮力一搏,不管成敗,都不會遺憾。

正所謂在歷史前進的邏輯中前進,在時代發展的潮流中發展。通俗的說,就是要在風口中飛翔。

上面我講的這些基本上都可以歸類為大數據引擎或者大數據框架。而大數據處理的主要應用場景包括數據分析、數據挖掘與機器學習。數據分析主要使用Hive、Spark SQL等SQL引擎完成;數據挖掘與機器學習則有專門的機器學習框架TensorFlow、Mahout以及MLlib等,內置了主要的機器學習和數據挖掘演算法。

此外,大數據要存入分布式文件系統(HDFS),要有序調度MapRece和Spark作業執行,並能把執行結果寫入到各個應用系統的資料庫中,還需要有一個大數據平台整合所有這些大數據組件和企業應用系統。

圖中的所有這些框架、平台以及相關的演算法共同構成了大數據的技術體系,我將會在專欄後面逐個分析,幫你能夠對大數據技術原理和應用演算法構建起完整的知識體系,進可以專職從事大數據開發,退可以在自己的應用開發中更好地和大數據集成,掌控自己的項目。

希望對您有所幫助!~

⑵ 大數據的局限性是什麼

計算機數據分析擅長於衡量社會交往的“數量”而不是“質量”。網路科學家可以在76%的時間里測量你與6個同事的社交互動,但他們不太可能捕捉到你對你一年只見兩次的兒時朋友內心深處的感覺,更不用說但丁對比阿特麗斯的感覺了。所以,不要愚蠢到放棄你在社會決策中頭腦中的神奇機器,而在工作中信任它。


1、大數據的局限性——大數據不理解背景


人類的決策不是離散的事件,而是根植於時間序列和環境中。經過數百萬年的進化,人類的大腦已經適應了這個現實。人們擅長講故事,有很多原因,也有很多場景。數據分析不知道如何講故事,也不知道思維是如何浮現的。即使在一本普通的小說中,這種想法也無法用數據分析來解釋。


2、大數據的局限性——大數據將創造更大的乾草垛


這個想法是由著名商業思想家Nassim Taleb提出的,他是《黑天鵝:如何應對不可知的未來》一書的作者。我們擁有的數據越多,我們就能發現更顯著的統計相關性。很多這樣的關系都是毫無意義的,在解決問題時還會讓人誤入歧途。隨著越來越多的數據可用,作弊行為呈指數級增長。在大海撈針的過程中,我們要找的針埋得越來越深。大數據時代的一個特徵是,“重大”發現的數量被數據擴張的噪音淹沒了。


3、大數據的局限性——大數據不能解決大問題


如果你只是想分析哪些郵件產生了最多的競選捐款,你可以做一個隨機對照試驗。但如果目標是在衰退期間刺激經濟,你不會找到一個平行世界社會作為對照組。最好的刺激方案是什麼?關於這個問題有很多爭論,盡管數據泛濫,但據我所知,這場辯論中沒有一個主要的辯手根據統計分析改變了立場。


4、大數據的局限性——大數據往往是一種趨勢,而不是傑作


當大量的個人迅速對一種文化產品產生興趣時,數據分析可以對這種趨勢敏感。但是一些重要的(有利可圖的)產品一開始就從數據中被丟棄了,僅僅是因為它們的怪癖不為人所知。


5、大數據的局限性——大數據掩蓋了價值


“原始數據”的意義在於,它永遠不可能是“原始的”;它總是根據一個人的傾向和價值觀來構建的。數據分析的結果看似客觀公正,但實際上,價值選擇貫穿於從構建到解讀的全過程。


這篇文章並不是要批評大數據不是一個偉大的工具。但是,像任何工具一樣,大數據也有它的長處和弱點。正如耶魯大學(Yale University)的愛德華•塔夫特(Edward Tufte)所說:“世界比任何其他學科都更有趣。”


大數據的局限性有哪些?這才是大數據工程師必須了解的內容,計算機數據分析擅長於衡量社會互動的“數量”而不是“質量”。網路科學家可以在76%的時間里測量你與6個同事的社交互動,你能處理好嗎?如果您還擔心自己入門不順利,可以點擊本站其他文章進行學習。

⑶ 大數據發展的根基是什麼

大數據發展的根基是什麼

大數據活在「雲端」!唯有雲計算能讓大數據找到自己的軌跡和存在的真正價值;但大數據不是無根的浮雲,它有自己的根,源源不斷輸送數據的根。

那麼,大數據的「根」在哪裡?日前國務院出台的《促進大數據發展行動綱要》(以下簡稱《行動綱要》)或許可以讓我們找到答案。

《行動綱要》明確提出了促進大數據發展的三大重點任務和十項工程。三大重點任務之首即加快政府數據開放共享,推動資源整合;十項工程前四大工程涉及政府信息,即:政府數據資源共享開放工程、國家大數據資源統籌發展工程、政府治理大數據工程、公共服務大數據工程。不難發現,三大重點任務、十項工程的關鍵詞就是共享,而政府數據的開放共享是核心。

共享是大數據的「根」

大數據與雲計算,或許就像一枚神奇的金幣之正反面,讓許多人感覺「雲里霧里」、亦真亦幻,卻又能真切地感受到金幣的光芒。

什麼是大數據?按照維基網路的定義,大數據是指無法在可承受時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合。大數據的基本特點可以概括為「4V」:大量化(Volume)多樣化(Variety)、快速化(Velocity)、價值化(Value),即海量的數據規模、快速的數據流動和動態的數據體系、多樣的數據類型、巨大的數據價值。

而《大數據時代》的作者維克托·邁爾·舍恩伯格給出的解釋或許更易於理解,他認為,「大數據」並不是很大或者很多數據,並不是一部分數據樣本,而是關於某個現象的所有數據。比如說關於一家企業的數據信息,除了企業名稱、法定代表人、注冊資本、經營范圍等基本信息外,還包括財務信息、經營信息、外部關聯關系、誠信狀況等信息。大量、多維、立體、交織信息的匯集,就可以為不同主體、基於不同需求分析企業提供數據基礎。

如果將單個或局部領域的數據及其挖掘處理視為小數據,那麼關於某一主體的大數據就是由成千上萬、相互關聯、相互交織的小數據匯聚而成的。小數據的充分融合,就是大數據形成的根基。譬如一滴水,唯有與別的水滴融合在一起,才能形成水流,才能匯成江河、海洋,才能發揮水的價值。這種融合就是共享。沒有小數據的共享,就沒有大數據生長的「根」。

要從海量的數據中快速地分析、挖掘出有用的信息,單台計算機已難以勝任,必須採用分布式架構,依託雲計算的分布式處理、分布式數據和雲存儲、虛擬化技術,即透過網路將龐大的計算處理程序自動分拆成無數個較小的子程序,再交由多部伺服器所組成的龐大系統經搜尋、計算、分析之後將處理結果回傳給用戶。這就是與大數據相依相存的雲計算。顯然,如果沒有數據的共享,雲計算也是「無米之炊」。

當然,數據能否共享,涉及到數據的開放性、法律邊界、數據價值實現等問題,還面臨諸多現實障礙。

誰阻礙了數據共享?

當我們沉醉於大數據的奇妙與魔法無邊的時候,現實世界卻給了我們一記響亮的耳光!我們會沮喪地發現,許多政府公共信息仍處於零散、分割、封閉狀態!

各級政府部門在履職過程中掌握了大量的數據信息,其中涉及企業(個人)的數據最為豐富。目前普遍認為比較有用的企業信息大致包括四個方面。

一是反映企業基本情況的信息。包括:工商部門提供的企業注冊登記信息,注冊資本、股東及高管變更情況等;環保部門提供的企業環境違法處罰信息、環評審批、排污許可證和排污權抵押登記情況等;質監、安監、食品葯監、衛生等部門提供的各項資質信息。

二是反映企業真實經營狀況的信息。包括:稅務部門提供的企業應稅銷售額,納稅、退稅情況等;人力社保部門提供的企業社保繳納、勞動爭議情況、勞動保障書面審查信息等;海關部門提供的進出口信息、企業報關情況等;水、電、氣部門提供的繳費及欠費情況等。

三是反映企業及企業主資信狀況及守法情況的信息。包括:公安、法院等部門提供的企業或企業主的司法訴訟、執行、查封信息等;工商、環保、人社、稅務、質監、安監、食品葯監、衛生、海關等部門提供的處罰信息。

四是反映企業融資、財產抵質押、對外擔保等情況的信息。包括:人民銀行[微博]徵信系統提供的貸款、質押信息,工商部門提供的股權轉讓、抵押、查封信息等;房產部門提供的房地產權屬、抵押、查封、租賃信息等。

這些涉及企業的各種信息資源散落在不同的政府管理部門,總體處於彼此分割、孤立、封閉狀態,沒有實現數據之間的共享、連接和融合,更談不上大數據價值的體現。

盡管近年來,各級政府都在積極搭建公共信用信息平台,推動社會徵信體系建設,特別是《國務院關於印發社會信用體系建設規劃綱要(2014—2020年)的通知》出台後,步伐進一步加快,各部門也大多建立了自身的信息管理系統,但部門之間信息不共享或共享不充分仍是常態。即使有一些全國性、地區性的統一信息平台,如「全國企業信用信息公示系統」「信用浙江」等,所含企業信息也非常有限,且不完整、不及時。

這種信息割裂的狀態,不僅不利於大數據的發展,從眼前看,則對具體運用大數據的相關主體的發展形成阻礙。比如,銀行業在服務實體經濟特別是小微企業過程中,面臨的突出瓶頸之一,就是信息瓶頸。銀行業開展小微企業信貸業務面臨的最大困惑是信息不對稱。信息的不對稱使銀行在發放小微企業貸款時難免「如履薄冰」,顧忌甚多。因此,能否切實掌握和了解反映企業真實經營狀況、企業及企業主資信狀況等相關信息,在很大程度上決定了銀行對小微企業放貸的意願以及介入小微企業信貸領域的深度。

目前客觀存在的企業信息難共享之格局,根源在於部門利益。相關政府部門在參與公共信用信息平台建設時,出於種種原因,往往叫得響、做得少。一些部門出於自身商業利益,將自身所擁有的大量公共信息視為「私有財產」,以有償作為提供信息的條件;或以維護商業秘密、涉及部門機密為由,不願將擁有的、本屬於公共資源的企業信息與其他部門共享,或者象徵性地扔幾根「骨頭」,人為造成了企業信息的分割、殘缺,也造就了許多「僵屍」信息平台;有些信息的共享按說不應存在障礙,只因為一些數據擁有的部門感覺「吃力不討好」,缺乏主動提供數據的動力。

當然,也不排除個別地方政府從局部利益出發,對可能影響當地企業發展的行政處罰類負面、失信信息的公開加以阻擾,影響信息數據的共享。深層的原因,則是社會信用體系建設法制化步伐緩慢,公共信息徵集機制不健全,對相關部門提供、公開相關政務信息缺乏有效的約束,以及信用信息使用在公開與保密之間的法律邊界不清晰。

怎樣走向數據共享?

《行動綱要》把加快政府數據開放共享、推動資源整合列為首要任務,把推動政府數據資源共享開放工程、國家大數據資源統籌發展工程、政府治理大數據工程、公共服務大數據工程等工程建設作為促進大數據發展的基礎設施工程。說明政府高層對信息共享問題的高度關注。

顯然,推動數據共享的起點是政府部門間的信息共享,而這恰恰是難點所在。這是一個系統性艱巨工程,也是一個漸進的過程,既需要加快社會徵信體系的法制化進程,更需要政府及相關部門創新思維。

搭建統一、公開、透明的社會信用信息共享平台,有效整合政府各部門信息。對於擁有各種管理資源的政府而言,搭建一個比較完備的信息平台框架似乎並不難,難就難在能否實現信息的充分共享。如何讓信息平台所涉及的政府部門主動、及時、充分地將自身所擁有、可公開的數據信息共享到統一的信息平台,關鍵是要強化信息徵集的行政約束力,建立公共信息共享平台的保障機制。

在現行體制下,筆者以為政績考核「指揮棒」或是推動信息共享之「神器」。應以推動《社會信用體系建設規劃綱要(2014—2020年)》實施、落實政務公開制度為抓手,將公共信用信息共享系統數據信息的報送納入政府對相關部門的考核,前提是要充分研究和界定各類信息公開的法律邊界,特別是在對各類違法違規信息、不誠信行為信息的公開方面,應明確可以採取的共享方式和程度,以打消信息發布各方的顧慮。在此基礎上,制定清晰的公共信息共享清單,明確相應的責任與義務。

小數據不能共享,大數據必是空談。所以,看大勢、顧大局、破本位,推進小數據共享,是政府部門在大數據時代應有的思維。

以上是小編為大家分享的關於大數據發展的根基是什麼的相關內容,更多信息可以關注環球青藤分享更多干貨

⑷ 什麼是大數據時代

世界包含的多得難以想像的數字化信息變得更多更快……從商業到科學,從政府到藝術,這種影響無處不在。科學家和計算機工程師們給這種現象創造了一個新名詞:「大數據」。大數據時代什麼意思?大數據概念什麼意思?大數據分析什麼意思?所謂大數據,那到底什麼是大數據,他的來源在哪裡,定義究竟是什麼呢?

七:最後北京開運聯合給您總結一下

不管大數據的核心價值是不是預測,但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。

1、從大數據的價值鏈條來分析,存在三種模式:

1)手握大數據,但是沒有利用好;比較典型的是金融機構,電信行業,政府機構等。

2)沒有數據,但是知道如何幫助有數據的人利用它;比較典型的是IT咨詢和服務企業,比如,埃森哲,IBM,Oracle等。

3)既有數據,又有大數據思維;比較典型的是Google,Amazon,Mastercard等。

2、未來在大數據領域最具有價值的是兩種事物:

1)擁有大數據思維的人,這種人可以將大數據的潛在價值轉化為實際利益;

2)還未有被大數據觸及過的業務領域。這些是還未被挖掘的油井,金礦,是所謂的藍海。

大數據是信息技術與專業技術、信息技術產業與各行業領域緊密融合的典型領域,有著旺盛的應用需求、廣闊的應用前景。為把握這一新興領域帶來的新機遇,需要不斷跟蹤研究大數據,不斷提升對大數據的認知和理解,堅持技術創新與應用創新的協同共進,加快經濟社會各領域的大數據開發與利用,推動國家、行業、企業對於數據的應用需求和應用水平進入新的階段。

閱讀全文

與大數據的盡頭是什麼相關的資料

熱點內容
數據未備份會有什麼後果 瀏覽:360
word狀態欄的信息不包括什麼 瀏覽:969
刑事案簡易程序要多久 瀏覽:211
各視頻會員怎麼代理 瀏覽:423
北京怎麼運作會計代理記賬 瀏覽:794
微信小程序有什麼游戲經營類 瀏覽:725
代理市長什麼時候出現 瀏覽:813
三流產品怎麼引流 瀏覽:340
人口遷移數據為什麼不能查詢 瀏覽:101
手游如何交易安全 瀏覽:85
去南方人才市場需要准備什麼 瀏覽:931
南昌廉租房信息在哪裡查 瀏覽:275
吉林普洱茶葉如何代理 瀏覽:100
主機入侵檢測系統利用哪些信息 瀏覽:994
怎麼教孩子壘球技術 瀏覽:352
朝陽附近工商代理多少錢 瀏覽:555
所有程序菜單中標黃色是什麼意思 瀏覽:129
單行道逆行多少天信息 瀏覽:593
伽思珂護發素怎麼代理 瀏覽:761
三甲基鋁產品有什麼用 瀏覽:680