A. 大數據技術有哪些
簡單以永洪科技的技術說下,有四方面,其實也代表了部分通用大數據底層技術:
Z-Suite具有高性能的大數據分析能力,她完全摒棄了向上升級(Scale-Up),全面支持橫向擴展(Scale-Out)。Z-Suite主要通過以下核心技術來支撐PB級的大數據:
跨粒度計算(In-DatabaseComputing)
Z-Suite支持各種常見的匯總,還支持幾乎全部的專業統計函數。得益於跨粒度計算技術,Z-Suite數據分析引擎將找尋出最優化的計算方案,繼而把所有開銷較大的、昂貴的計算都移動到數據存儲的地方直接計算,我們稱之為庫內計算(In-Database)。這一技術大大減少了數據移動,降低了通訊負擔,保證了高性能數據分析。
並行計算(MPP Computing)
Z-Suite是基於MPP架構的商業智能平台,她能夠把計算分布到多個計算節點,再在指定節點將計算結果匯總輸出。Z-Suite能夠充分利用各種計算和存儲資源,不管是伺服器還是普通的PC,她對網路條件也沒有嚴苛的要求。作為橫向擴展的大數據平台,Z-Suite能夠充分發揮各個節點的計算能力,輕松實現針對TB/PB級數據分析的秒級響應。
列存儲 (Column-Based)
Z-Suite是列存儲的。基於列存儲的數據集市,不讀取無關數據,能降低讀寫開銷,同時提高I/O 的效率,從而大大提高查詢性能。另外,列存儲能夠更好地壓縮數據,一般壓縮比在5 -10倍之間,這樣一來,數據佔有空間降低到傳統存儲的1/5到1/10 。良好的數據壓縮技術,節省了存儲設備和內存的開銷,卻大大了提升計算性能。
內存計算
得益於列存儲技術和並行計算技術,Z-Suite能夠大大壓縮數據,並同時利用多個節點的計算能力和內存容量。一般地,內存訪問速度比磁碟訪問速度要快幾百倍甚至上千倍。通過內存計算,CPU直接從內存而非磁碟上讀取數據並對數據進行計算。內存計算是對傳統數據處理方式的一種加速,是實現大數據分析的關鍵應用技術。
B. 中國大數據的十大商業應用
中國大數據的十大商業應用
在未來的幾十年裡,大數據都將會是一個重要都話題。大數據影響著每一個人,並在可以預見的未來繼續影響著。大數據沖擊著許多主要行業,包括零售業、金融行業、醫療行業等,大數據也在徹底地改變著我們的生活。現在我們就來看看大數據給中國帶來的十商業應用場景,未來大數據產業將會是一個萬億市場。
1、智慧城市
如今,世界超過一半的人口生活在城市裡,到2050年這一數字會增長到75%。政府需要利用一些技術手段來管理好城市,使城市裡的資源得到良好配置。既不出現由於資源配置不平衡而導致的效率低下以及騷亂,又要避免不必要的資源浪費而導致的財政支出過大。大數據作為其中的一項技術可以有效幫助政府實現資源科學配置,精細化運營城市,打造智慧城市。
城市的道路交通,完全可以利用GPS數據和攝像頭數據來進行規劃,包括道路紅綠燈時間間隔和關聯控制,包括直行和左右轉彎車道的規劃、單行道的設置。利用大數據技術實施的城市交通智能規劃,至少能夠提高30%左右的道路運輸能力,並能夠降低交通事故率。在美國,政府依據某一路段的交通事故信息來增設信號燈,降低了50%以上的交通事故率。機場的航班起降依靠大數據將會提高航班管理的效率,航空公司利用大數據可以提高上座率,降低運行成本。鐵路利用大數據可以有效安排客運和貨運列車,提高效率、降低成本。
城市公共交通規劃、教育資源配置、醫療資源配置、商業中心建設、房地產規劃、產業規劃、城市建設等都可以藉助於大數據技術進行良好規劃和動態調整。
大數據技術可以了解經濟發展情況,各產業發展情況,消費支出和產品銷售情況,依據分析結果,科學地制定宏觀政策,平衡各產業發展,避免產能過剩,有效利用自然資源和社會資源,提高社會生產效率。大數據技術也能幫助政府進行支出管理,透明合理的財政支出將有利於提高公信力和監督財政支出。大數據及大數據技術帶給政府的不僅僅是效率提升、科學決策、精細管理,更重要的是數據治國、科學管理的意識改變,未來大數據將會從各個方面來幫助政府實施高效和精細化管理,具有極大的想像空間。
2、金融行業
大數據在金融行業應用范圍較廣,典型的案例有花旗銀行利用IBM沃森電腦為財富管理客戶推薦產品,美國銀行利用客戶點擊數據集為客戶提供特色服務。中國金融行業大數據應用開展的較早,但都是以解決大數據效率問題為主,很多金融行業建立了大數據平台,對金融行業的交易數據進行採集和處理。
金融行業過去的大數據應用以分析自身財務數據為主,以提供動態財務報表為主,以風險管理為主。在大數據價值變現方面,開展的不夠深入,這同金融行業每年上萬億的凈利潤相比是不匹配的。現在已經有一些銀行和證券開始和移動互聯網公司合作,一起進行大數據價值變現,其中招商銀行、平安集團、興業銀行、國信證券、海通證券和TalkingData在移動大數據精準營銷、獲客、用戶體驗等方面進行了不少的嘗試,大數據價值變現效果還不錯,大數據正在幫助金融行業進行價值變現。大數據在金融行業的應用可以總結為以下五個方面:
(1)精準營銷:依據客戶消費習慣、地理位置、消費時間進行推薦
(2)風險管控:依據客戶消費和現金流提供信用評級或融資支持,利用客戶社交行為記錄實施信用卡反欺詐
(3)決策支持:利用抉策樹技術進抵押貸款管理,利用數據分析報告實施產業信貸風險控制
(4)效率提升:利用金融行業全局數據了解業務運營薄弱點,利用大數據技術加快內部數據處理速度
(5)產品設計:利用大數據計算技術為財富客戶推薦產品,利用客戶行為數據設計滿足客戶需求的金融產品
3、醫療行業
醫療行業擁有大量病例、病理報告、醫療方案、葯物報告等。如果這些數據進行整理和分析,將會極大地幫助醫生和病人。在未來,藉助於大數據平台我們可以收集疾病的基本特徵、病例和治療方案,建立針對疾病的資料庫,幫助醫生進行疾病診斷。
如果未來基因技術發展成熟,可以根據病人的基因序列特點進行分類,建立醫療行業的病人分類資料庫。在醫生診斷病人時可以參考病人的疾病特徵、化驗報告和檢測報告,參考疾病資料庫來快速幫助病人確診。在制定治療方案時,醫生可以依據病人的基因特點,調取相似基因、年齡、人種、身體情況相同的有效治療方案,制定出適合病人的治療方案,幫助更多人及時進行治療。同時這些數據也有利於醫葯行業開發出更加有效的葯物和醫療器械。
醫療行業的數據應用一直在進行,但是數據沒有打通,都是孤島數據,沒有辦法起大規模應用。未來需要將這些數據統一收集起來,納入統一的大數據平台,為人類健康造福。政府是推動這一趨勢的重要動力,未來市場將會超過幾千億元。
4、農牧業
農產品不容易保存,合理種植和養殖農產品對農民非常重要。藉助於大數據提供的消費能力和趨勢報告,政府將為農牧業生產進行合理引導,依據需求進行生產,避免產能過剩,造成不必要的資源和社會財富浪費。大數據技術可以幫助政府實現農業的精細化管理,實現科學決策。在數據驅動下,結合無人機技術,農民可以採集農產品生長信息,病蟲害信息。
農業生產面臨的危險因素很多,但這些危險因素很大程度上可以通過除草劑、殺菌劑、殺蟲劑等技術產品進行消除。天氣成了影響農業非常大的決定因素。過去的天氣預報僅僅能提供當地的降雨量,但農民更關心有多少水分可以留在他們的土地上,這些是受降雨量和土質來決定的。Climate公司利用政府開放的氣象站的數據和土地數據建立了模型,他們可以告訴農民可以在哪些土地上耕種,哪些土地今天需要噴霧並完成耕種,哪些正處於生長期的土地需要施肥,哪些土地需要5天後才可以耕種,大數據技術可以幫助農業創造巨大的商業價值。
5、零售行業
零售行業比較有名氣的大數據案例就是沃爾瑪的啤酒和尿布的故事,以及Target通過向年輕女孩寄送尿布廣告而告知其父親,女孩懷孕的故事。
零售行業可以通過客戶購買記錄,了解客戶關聯產品購買喜好,將相關的產品放到一起增加來增加產品銷售額,例如將洗衣服相關的化工產品例如洗衣粉、消毒液、衣領凈等放到一起進行銷售。根據客戶相關產品購買記錄而重新擺放的貨物將會給零售企業增加30%以上的產品銷售額。
零售行業還可以記錄客戶購買習慣,將一些日常需要的必備生活用品,在客戶即將用完之前,通過精準廣告的方式提醒客戶進行購買。或者定期通過網上商城進行送貨,既幫助客戶解決了問題,又提高了客戶體驗。
電商行業的巨頭天貓和京東,已經通過客戶的購買習慣,將客戶日常需要的商品例如尿不濕,衛生紙,衣服等商品依據客戶購買習慣事先進行准備。當客戶剛剛下單,商品就會在24小時內或者30分鍾內送到客戶門口,提高了客戶體驗,讓客戶連後悔等時間都沒有。
利用大數據的技術,零售行業將至少會提高30%左右的銷售額,並提高客戶購買體驗。
6、大數據技術產業
進入移動互聯網之後,非結構化數據和結構化數據呈指數方式增長。現在人類社會每兩年產生的數據將超過人類歷史過去所有數據之和。進入到2015年,人類社會所有的數據之和有望突破5澤B(5ZB),這些數據如何存儲和處理將會成為很大的問題。
這些大數據為大數據技術產業提供了巨大的商業機會。據估計全世界在大數據採集、存儲、處理、清晰、分析所產生的商業機會將會超過2000億美金,包括政府和企業在大數據計算和存儲,數據挖掘和處理等方面等投資。中國2014年大數據產業產值已經超過了千億人民幣,本屆貴陽大數據博覽會就吸引了400多家廠商來參展,充分說明大數據產業的未來的商業價值巨大。
未來中國的大數據產業將會呈幾何級數增長,在5年之內,中國的大數據產業將會形成萬億規模的市場。不僅僅是大數據技術產品的市場,也將是大數據商業價值變現的市場。大數據將會在企業的精準營銷、決策分析、風險管理、產品設計、運營優化等領域發揮重大的作用。
大數據技術產業將會解決大數據存儲和處理的問題,大數據服務公司將利用自身的數據將解決大數據價值變現問題,其所帶來的市場規模將會超過千億人民幣。中國目前擁有大數據,並提供大數據價值變現服務的公司除了我們眾所周知的BAT和移動運營商之外,360、小米、京東、TalkingData、九次方等都會成為大數據價值變現市場的有力參與者,市場足夠大,期望他們將市場做大,幫助所有企業實現大數據價值變現。
7、物流行業
中國的物流產業規模大概有5萬億左右,其中公里物流市場大概有3萬億左右。物流行業的整體凈利潤從過去的30%以上降低到了20%左右,並且下降的趨勢明顯。物流行業很多的運力浪費在返程空載、重復運輸、小規模運輸等方面。中國市場最大等物流公司所佔的市場份額不到1%。因此資源需要整合,運送效率需要提高。
物流行業藉助於大數據,可以建立全國物流網路,了解各個節點的運貨需求和運力,合理配置資源,降低貨車的返程空載率,降低超載率,減少重復路線運輸,降低小規模運輸比例。通過大數據技術,及時了解各個路線貨物運送需求,同時建立基於地理位置和產業鏈的物流港口,實現貨物和運力的實時配比,提高物流行業的運輸效率。藉助於大數據技術對物流行業進行的優化資源配置,至少可以增加物流行業10%左右的收入,其市場價值將在5000億左右。
8、房地產業
中國房地產業發展的高峰已經過去,其面臨的挑戰逐漸增加,房地產業正從過去的粗放發展方式轉向精細運營方式,房地產企業在拍賣土地、住房地產開發規劃、商業地產規劃方面也將會謹慎進行。
藉助於大數據,特別是移動大數據技術。房地產業可以了解開發土地所在范圍常駐人口數量、流動人口數量、消費能力、消費特點、年齡階段、人口特徵等重要信息。這些信息將會幫助房地商在商業地產開發、商戶招商、房屋類型、小區規模進行科學規劃。利用大數據技術,房地產行業將會降低房地產開發前的規劃風險,合理制定房價,合理制定開發規模,合理進行商業規劃。大數據技術可以降低土地價格過高,實際購房需求過低的風險。已經有房地產公司將大數據技術應用於用戶畫像、土地規劃、商業地產開發等領域,並取得了良好的效果。
9、製造業
製造業過去面臨生產過剩的壓力,很多產品包括家電、紡織產品、鋼材、水泥、電解鋁等都沒有按照市場實際需要生產,造成了資源的極大浪費。利用電商數據、移動互聯網數據、零售數據,我們可以了解未來產品市場都需求,合理規劃產品生產,避免生產過剩。
例如依據用戶在電商搜索產品的數據以及物流數據,可以推測出家電產品和紡織產品未來的實際需求量,廠家將依據這些數據來進行生產,避免生產過剩。移動互聯網的位置信息可以幫助了解當地人口進出的趨勢,避免生產過多的鋼材和水泥。
大數據技術還可以根據社交數據和購買數據來了解客戶需求,幫助廠商進行產品開發,設計和生產出滿足客戶需要的產品。
10、互聯網廣告業
2014年中國互聯網廣告市場迎來發展高峰,市場規模預計達到1500億元左右,較2013年增長56.5%。數字廣告越來越受到廣告主的重視,其未來市場規模越來越大。2014年美國的互聯網廣告市場規模接近500億美元,參考中國的人口消費能力,其市場規模會很快達到2000億人民幣左右。
過去到廣告投放都是以好的廣告渠道+廣播式投放為主,廣告主將廣告交給廣告公司,由廣告公司安排投放,其中SEM廣告市場最大,其他的廣告投放方式也是以頁面展示為主,大多是廣播式廣告投放。廣播式投放的弊端是投入資金大,沒有針對目標客戶,面對所有客戶進行展示,廣告的轉化率較低,並存在數字廣告營銷陷阱等問題。
大數據技術可以將客戶在互聯網上的行為記錄下來,對客戶的行為進行分析,打上標簽並進行用戶畫像。特別是進入移動互聯網時代之後,客戶主要的訪問方式轉向了智能手機和平台電腦,移動互聯網的數據包含了個人的位置信息,其360度用戶畫像更加接近真實人群。360度用戶畫像可以幫助廣告主進行精準營銷,廣告公司可以依據用戶畫像的信息,將廣告直接投放到用戶的移動設備,通過用戶經常使用的APP進行廣告投放,其廣告的轉化可以大幅度提高。利用移動互聯網大數據技術進行的精準營銷將會提高十倍以上的客戶轉化率,廣告行業的程序化購買正在逐步替代廣播式廣告投放。大數據技術將幫助廣告主和廣告公司直接將廣告投放給目標用戶,其將會降低廣告投入,提高廣告的轉化率。
目前影響大數據產業發展主要有兩個大問題,一個是大數據應用場景,一個是大數據隱私保護問題。
大數據商業價值的應用場景,大數據公司和企業正在尋找,目前在移動互聯網的精準營銷和獲客、360度用戶畫像、房地產開發和規劃、互聯網金融的風險管理、金融行業的供應鏈金融,個人徵信等方面已經取得了進步,擁有了很多經典案例。
但在有關大數據隱私保護以及大數據應用過程中個人信息保護方面還停滯不前,大家都在摸石頭過河,不知道哪些事情可以做,哪些事情不可以做。國家在大數據隱私保護方面正在進行立法,估計不久的將來,大數據服務公司和企業將會了解大數據隱私保護方面的具體要求。在沒有明確有關大數據隱私保護法規前,我們可以參考國外的隱私法,嚴格遵守國際上通用的個人隱私保護法,在實施大數據價值變現的過程中,充分保護所有相關方的個人利益。
最後縱觀人類歷史,在任何領域,如果我們可以拿到數據進行分析,我們就會取得進步。如果我們拿不到數據,無法進行分析,我們註定要落後。我們過去因數據不足導致的錯誤遠遠好過那些根本不用數據的錯誤,因此我們需要掌握大數據這個武器,利用好它,幫助人類社會加速進化,幫助企業實現大數據的價值變現。
以上是小編為大家分享的關於中國大數據的十大商業應用的相關內容,更多信息可以關注環球青藤分享更多干貨
C. 中國有哪些大數據
大數據應用領域極其廣泛,涵蓋了金融保險、醫葯醫療、基礎電信、交通管理、物流零售、文化娛樂、能源、旅遊、農業、工業等。隨著政府與公共事業服務意識的不斷加強與轉變,以及更智慧的執政與管理理念的帶動,對於數據的管理與分析需求日益強化,大數據在政府/公共事業領域應用也將日趨廣泛。
大數據主要應用的行業有哪些
製造業:利用工業大數據提升製造業水平,包括產品故障診斷與預測、分析工藝流程、改進生產工藝,優化生產過程能耗、工業供應鏈分析與優化、生產計劃與排程。
金融業:大數據在高頻交易、社交情緒分析和信貸風險分析三大金融創新領域發揮重大作用。
汽車行業:利用大數據和物聯網技術的無人駕駛汽車,在不遠的未來將走入我們的日常生活。
互聯網行業:藉助於大數據技術分析用戶行為,進行商品推薦和針對性廣告投放。
餐飲行業:利用大數據實現餐飲20模式,徹底改變傳統餐飲經營方式。
電信行業:利用大數據技術實現客戶離網分析,及時掌握客戶離網傾向,出台客戶挽留措施。
能源行業:隨著智能電網的發展,電力公司可以掌握海量的用戶用電信息,利用大數據技術分析用戶用電模式,可以改進電網運行,合理設計電力需求響應系統,確保電網運行安全。
物流行業:利用大數據優化物流網路,提高物流效率,降低物流成本。
城市管理:利用大數據實現智能交通、環保監測、城市規劃和智能安防。
生物醫學:大數據可以幫助我們實現流行病預測、智慧醫療、健康管理,同時還可以幫助我們解讀DNA了解更多的生命奧秘。
公共安全領域:政府利用大數據技術構建強大的國家安全保障體系,公共安全領域的大數據分析應用,反恐維穩與各類案件分析的信息化手段,藉助大數據預防犯罪。
個人生活:大數據還可以應用於個人生活,利用與每個人相關聯的「個人大數據」,分析個人生活行為軌跡,為其提供更加周到的個性化服務。
D. 中國大數據六大技術變遷記
中國大數據六大技術變遷記_數據分析師考試
集「Hadoop中國雲計算大會」與「CSDN大數據技術大會」精華之大成, 歷屆的中國大數據技術大會(BDTC) 已發展成為國內事實上的行業頂尖技術盛會。從2008年的60人Hadoop沙龍到當下的數千人技術盛宴,作為業內極具實戰價值的專業交流平台,每一屆的中國大數據技術大會都忠實地描繪了大數據領域內的技術熱點,沉澱了行業實戰經驗,見證了整個大數據生態圈技術的發展與演變。
2014年12月12-14日,由中國計算機學會(CCF)主辦,CCF大數據專家委員會協辦,中科院計算所與CSDN共同承辦的 2014中國大數據技術大會(Big Data Technology Conference 2014,BDTC 2014) 將在北京新雲南皇冠假日酒店拉開帷幕。大會為期三天,以推進行業應用中的大數據技術發展為主旨,擬設立「大數據基礎設施」、「大數據生態系統」、「大數據技術」、「大數據應用」、「大數據互聯網金融技術」、「智能信息處理」等多場主題論壇與行業峰會。由中國計算機學會主辦,CCF大數據專家委員會承辦,南京大學與復旦大學協辦的「2014年第二屆CCF大數據學術會議」也將同時召開,並與技術大會共享主題報告。
本次大會將邀請近100位國外大數據技術領域頂尖專家與一線實踐者,深入討論Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等開源軟體的最新進展,NoSQL/NewSQL、內存計算、流計算和圖計算技術的發展趨勢,OpenStack生態系統對於大數據計算需求的思考,以及大數據下的可視化、機器學習/深度學習、商業智能、數據分析等的最新業界應用,分享實際生產系統中的技術特色和實踐經驗。
大會召開前期,特別梳理了歷屆大會亮點以記錄中國大數據技術領域發展歷程,並立足當下生態圈現狀對即將召開的BDTC 2014進行展望:
追本溯源,悉大數據六大技術變遷
伴隨著大數據技術大會的發展,我們親歷了中國大數據技術與應用時代的到來,也見證了整個大數據生態圈技術的發展與衍變:
1. 計算資源的分布化——從網格計算到雲計算。 回顧歷屆BDTC大會,我們不難發現,自2009年,資源的組織和調度方式已逐漸從跨域分布的網格計算向本地分布的雲計算轉變。而時至今日,雲計算已成為大數據資源保障的不二平台。
2. 數據存儲變更——HDFS、NoSQL應運而生。 隨著數據格式越來越多樣化,傳統關系型存儲已然無法滿足新時代的應用程序需求,HDFS、NoSQL等新技術應運而生,並成為當下許多大型應用架構不可或缺的一環,也帶動了定製計算機/伺服器的發展,同時也成為大數據生態圈中最熱門的技術之一。
3. 計算模式改變——Hadoop計算框成主流。 為了更好和更廉價地支撐其搜索服務,Google創建了Map/Rece和GFS。而在Google論文的啟發下,原雅虎工程師Doug Cutting開創了與高性能計算模式迥異的,計算向數據靠攏的Hadoop軟體生態系統。Hadoop天生高貴,時至今日已成為Apache基金會最「Hot」的開源項目,更被公認為大數據處理的事實標准。Hadoop以低廉的成本在分布式環境下提供了海量數據的處理能力。因此,Hadoop技術研討與實踐分享也一直是歷屆中國大數據技術大會最亮眼的特色之一。
4. 流計算技術引入——滿足應用的低延遲數據處理需求。 隨著業務需求擴展,大數據逐漸走出離線批處理的范疇,Storm、Kafka等將實時性、擴展性、容錯性和靈活性發揮得淋漓盡致的流處理框架,使得舊有消息中間件技術得以重生。成為歷屆BDTC上一道亮麗的風景線。
5. 內存計算初露端倪——新貴Spark敢與老將叫板。 Spark發源於美國加州大學伯克利分校AMPLab的集群計算平台,它立足於內存計算,從多迭代批量處理出發,兼容並蓄數據倉庫、流處理和圖計算等多種計算範式,是罕見的全能選手。在短短4年,Spark已發展為Apache軟體基金會的頂級項目,擁有30個Committers,其用戶更包括IBM、Amazon、Yahoo!、Sohu、網路、阿里、騰訊等多家知名公司,還包括了Spark SQL、Spark Streaming、MLlib、GraphX等多個相關項目。毫無疑問,Spark已站穩腳跟。
6. 關系資料庫技術進化—NewSQL改寫資料庫歷史。 關系資料庫系統的研發並沒有停下腳步,在橫向擴展、高可用和高性能方面也在不斷進步。實際應用對面向聯機分析處理(OLAP)的MPP(Massively Parallel Processing)資料庫的需求最迫切,包括MPP資料庫學習和採用大數據領域的新技術,如多副本技術、列存儲技術等。而面向聯機事務處理(OLTP)的資料庫則向著高性能演進,其目標是高吞吐率、低延遲,技術發展趨勢包括全內存化、無鎖化等。
立足揚帆,看2014大數據生態圈發展
時光荏苒,轉眼間第2014中國大數據技術大會將如期舉行。在技術日新月異的當下,2014年的BDTC上又可以洞察些什麼?這里我們不妨著眼當下技術發展趨勢:
1. MapRece已成頹勢,YARN/Tez是否可以再創輝煌? 對於Hadoop來說,2014是歡欣鼓舞的一年——EMC、Microsoft、Intel、Teradata、Cisco等眾多巨頭都加大了Hadoop方面的投入。然而對於眾多機構來說,這一年卻並不輕松:基於MapRece的實時性短板以及機構對更通用大數據處理平台的需求,Hadoop 2.0轉型已勢在必行。那麼,在轉型中,機構究竟會遭遇什麼樣的挑戰?各個機構如何才能更好地利用YARN所帶來的新特性?Hadoop未來的發展又會有什麼重大變化?為此,BDTC 2014特邀請了Apache Hadoop committer,Apache Hadoop Project Management Committee(PMC)成員Uma Maheswara Rao G,Apache Hadoop committer Yi Liu,Bikas Saha(PMC member of the Apache Hadoop and Tez)等國際頂尖Hadoop專家,我們不妨當面探討。
2. 時過境遷,Storm、Kafka等流計算框架前途未卜。 如果說MapRece的緩慢給眾多流計算框架帶來了可乘之機,那麼當Hadoop生態圈組件越發成熟,Spark更加易用,迎接這些流計算框架的又是什麼?這里我們不妨根據BDTC 2014近百場的實踐分享進行一個側面的了解,亦或是與專家們當面交流。
3. Spark,是顛覆還是補充? 與Hadoop生態圈的兼容,讓Spark的發展日新月異。然而根據近日Sort Benchmark公布的排序結果,在海量(100TB)離線數據排序上,對比上屆冠軍Hadoop,Spark以不到十分之一的機器,只使用三分之一的時間就完成了同樣數據量的排序。毫無疑問,當下Spark已不止步於實時計算,目標直指通用大數據處理平台,而終止Shark,開啟Spark SQL或許已經初見端倪。那麼,當Spark愈加成熟,更加原生的支持離線計算後,開源大數據標准處理平台這個榮譽又將花落誰家?這里我們一起期待。
4. 基礎設施層,用什麼來提升我們的網路? 時至今日,網路已成為眾多大數據處理平台的攻堅對象。比如,為了克服網路瓶頸,Spark使用新的基於Netty的網路模塊取代了原有的NIO網路模塊,從而提高了對網路帶寬的利用。那麼,在基礎設施層我們又該如何克服網路這個瓶頸?直接使用更高效的網路設備,比如Infiniband能夠帶來多少性能提升?建立一個更智能網路,通過計算的每個階段,自適應來調整拆分/合並階段中的數據傳輸要求,不僅提高了速度,也提高了利用率。在BDTC 2014上,我們可以從Infiniband/RDMA技術及應用演講,以及數場SDN實戰上吸取寶貴的經驗。
5. 數據挖掘的靈魂——機器學習。 近年來,機器學習領域的人才搶奪已進入白熱化,類似Google、IBM、微軟、網路、阿里、騰訊對機器學習領域的投入也是愈來愈高,囊括了晶元設計、系統結構(異構計算)、軟體系統、模型演算法和深度應用各個方面。大數據標志一個新時代的到來,PB數據讓人們坐擁金山,然而缺少了智能演算法,機器學習這個靈魂,價值的提取無疑變得鏡花水月。而在本屆會議上,我們同樣為大家准備了數場機器學習相關分享,靜候諸位參與。
而在技術分享之外,2014年第二屆CCF大數據學術會議也將同時召開,並與技術大會共享主題報告。屆時,我們同樣可以斬獲許多來自學術領域的最新科研成果。
以上是小編為大家分享的關於中國大數據六大技術變遷記的相關內容,更多信息可以關注環球青藤分享更多干貨