1. 大數據時代的挑戰、價值與應對策略
大數據時代的挑戰、價值與應對策略
隨著移動互聯網、物聯網、雲計算等的快速發展,及視頻監控、智能終端、應用商店等的快速普及,全球數據量出現爆炸式增長。在此背景下,電信運營商在其網路無休止擴容的同時,卻面臨「增量不增收」的困境;而一些採用「數據驅動型決策」模式經營的公司,則可將其生產力提高5%~6%。因此,有必要深入研究大數據時代(Big Data Era)的挑戰、價值與務實應對策略。
1大數據時代的基本特徵
據統計,2010年以互聯網為基礎所產生的數據比之前所有年份的總和還要多;而且不僅是數據量的激增,數據結構亦在演變。Gartner預計,2012年半結構和非結構化的數據,諸如文檔、表格、網頁、音頻、圖像和視頻等將佔全球網路數據量的85%左右;而且,整個網路體系架構將面臨革命性改變。由此,所謂大數據時代已經來臨!
對於大數據時代,目前通常認為有下述四大特徵,稱為「四V」特徵:
(1)量大(Volume Big)。數據量級已從TB(1012位元組)發展至PB乃至ZB,可稱海量、巨量乃至超量。
(2)多樣化(Variable Type)。數據類型繁多,愈來愈多為網頁、圖片、視頻、圖像與位置信息等半結構化和非結構化數據信息。
(3)快速化(VelocityFast)。數據流往往為高速實時數據流,而且往往需要快速、持續的實時處理;處理工具亦在快速演進,軟體工程及人工智慧等均可能介入。
(4)價值高和密度低(Value HighandLowDensity)。以視頻安全監控為例,連續不斷的監控流中,有重大價值者可能僅為一兩秒的數據流;360°全方位視頻監控的「死角」處,可能會挖掘出最有價值的圖像信息。
2大數據時代面臨的挑戰
(1)運營商帶寬能力與對數據洪流的適應能力面臨前所未有的挑戰,管道化壓力化解及「雲-管-端」的有效裝備也均面臨新挑戰。
(2)大數據的「四V」特徵在數據存儲、傳輸、分析、處理等方面均帶來本質變化。數據量的快速增長,對存儲技術提出了挑戰;同時,需要高速信息傳輸能力支持,與低密度有價值數據的快速分析、處理能力。
(3)海量數據洪流中,在線對話與在線交易活動日益增加,其安全威脅更為嚴峻;而且現今黑客的組織能力、作案工具、作案手法及隱蔽程度更上一層樓,典型的有APT(Advanced Persistent Threat,高級持續性安全威脅)。
(4)大數據環境下通過對用戶數據的深度分析,很容易了解用戶行為和喜好,乃至企業用戶的商業機密,對個人隱私問題必須引起充分重視。
(5)大數據時代的基本特徵,決定其在技術與商業模式上有巨大的創新空間,這將對可持續發展起關鍵作用。
(6)大數據時代的基本特徵及安全挑戰,對政府制訂規則與監管部門發揮作用提出了新的挑戰。
3大數據帶來的價值
(1)利用大數據特徵,藉助雲計算等有效工具,深度挖掘流量與數據價值,可幫助運營商實施好流量經營,減輕管道化風險,發揚「雲-管-端」的智能管道的威力。
(2)多業務環境下掌握用戶體驗效果尤為重要,可從海量用戶數據中深度分析、挖掘出用戶的行為習慣和消費愛好,以實施精準營銷及網路優化,掌控數據增值的「金鑰匙」。
(3)掌握好大數據的存儲、分類、挖掘、快速調用和決策支撐,並應用於企業的日常運營、維護及戰略轉型中,成為企業可持續發展、維持競爭優勢的當務之急與重要途徑。
(4)充分利用對大數據的分析、挖掘,可幫助找到隱蔽性極強的APT之類的安全威脅,助力信息安全部門找到應對新型安全威脅的有效途徑。
(5)通過對公共大數據的分析、挖掘與利用,可減少欺詐行為及錯誤數據的負面作用、追收逃稅漏稅及刺激公共機構生產力等,幫助政府節省開支。例如英國政府即通過此途徑節省大約330億英鎊/年。
4大數據時代的應對策略
(1)大數據時代應以智慧創新理念融合大數據與雲計算,在大數據洪流中提升知識價值洞察力,實施高效實時個性化運作,建立有效增值的商業模式,確保應對APT之類的新型安全威脅。
(2)電信運營商轉型中流量經營已成共識,即以智能管道與聚合平台為基礎,以擴大流量規模、提升流量層次及豐富流量內涵作為基本經營方向,並以釋放流量價值為基本目標,可見大數據和雲計算的深度融合與此流量經營目標十分吻合。實際上已經有一些運營商藉助大數據Hadoop雲工具管理與分析網路中的用戶數據,為日常運維及制定市場戰略等提供有效支撐。
(3)針對大數據時代的基本特徵,加強全方位創新。包括IBM、EMC、HP、Microsoft等在內的IT巨頭,紛紛加速收購相關大數據公司進行技術整合,尋找數據洪流大潮中新的立足點。而涉及人工智慧、機器學習等新技術的創新應用,已初顯效益。
(4)將大數據時代全方位創新工作和智慧城市發展緊密結合。藉助移動互聯網、大數據與雲計算的融合、智能運營管道等,建立智能平台,優化配置城市資源,向真正的智慧城市邁進。
(5)藉助大數據創新處理技術應對APT安全攻擊。APT安全攻擊的最主要特徵為單點隱蔽能力強、攻擊空間路徑不確定、攻擊渠道不確定;同時APT攻擊一旦入侵成功則長期潛伏,攻擊時間上具有持續性。目前,全流量審計方案具備強大的實時檢測能力與事後回溯能力,並可將安全工作人員的分析能力、計算機存儲與運算能力組合在一起,是一種較完整的解決方案。
2. 大數據與雲計算應該怎麼學
《阿里雲大學課程(大數據、雲計算、雲安全、中間件).zip》網路網盤資源免費下載
鏈接: https://pan..com/s/16hjddCM_GcPVXGmBrr6feA
3. 對大數據的全方位解讀
對大數據的全方位解讀
大數據是當下非常火爆的一個詞,人人都在談論大數據。但大數據的定義是什麼?它到底是如何出現的?它有什麼特別之處?它最大的應用領域在哪裡?它的發展方向是什麼?對於以上問題,其實大多數人是弄不清楚的。
1)大數據時代出現的必然性
大數據和雲計算這兩個詞經常被同時提到,很多人誤以為大數據和雲計算是同時誕生的、具有強綁定關系。其實這兩者之間既有關聯性,也有區別。雲計算指的是一種以互聯網方式來提供服務的計算模式,而大數據指的是基於多源異構、跨域關聯的海量數據分析所產生的決策流程、商業模式、科學範式、生活方式和關聯形態上的顛覆性變化的總和。大數據處理會利用到雲計算領域的很多技術,但大數據並非完全依賴於雲計算;反過來,雲計算之上也並非只有大數據這一種應用。
雲計算的起源可以追溯到 2003 年末 Amazon 公司工程師 Chris Pinkham 提交給 CEO Jeff Bezos 的一篇論文中的一個設想:將 Amazon 內部使用的計算基礎設施開放給全世界的開發者。次年 11 月,Amazon 發布了第一版雲計算服務:Simple Queue Service。Simple Queue Service 再往後發展至 2006 年,演變成立今天著名的 AWS(Amazon Web Sercice)。同在 2006 年,Google 公司 CEO Eric Schmidt 首次公開提出了「雲計算」(Cloud Computing)的這一概念,雲計算也在這一年開始變得廣為人知。
大數據這個詞的流行卻晚了好幾年——直到 2009 年,大數據這個說法才逐漸開始在互聯網圈內傳播。但僅僅在互聯網領域流行,仍然不足以引起普遍關注,因為純互聯網經濟畢竟只佔全球經濟總量的很小一部分。而大數據概念真正變得火爆,卻是因為美國奧巴馬政府在 2012 年高調宣布了其「大數據研究和開發計劃」——美國政府希望利用大數據解決一些政府部門面臨的非常重要的問題,該計劃由橫跨 6 個政府部門的 84 個子課題組成。這標志著大數據真正開始進入主流的傳統線下經濟。
大數據出現的時間點自有它深刻的原因。2009 年至 2012 年這段時間正是電子商務在包括中國在內的全球全面開花的幾年。眾所周知,互聯網領域有 3 大類商業模式:廣告、游戲和電子商務。而電子商務又是第 1個真正將純互聯網經濟與傳統經濟嫁接在一起誕生的混合模式。准確地說,正是互聯網與傳統經濟的碰撞,才真正催生出了今天幾乎全民關注的「大數據」。大數據橫跨了互聯網產業與傳統產業,而且大數據真正廣闊的應用領域其實也正是比純互聯網經濟大得多的傳統產業。
從數據量的角度來看,在電子商務模式出現以前,傳統企業的數量增長緩慢。傳統企業的數據倉庫中的數據大多數來自於交易型數據,而交易這種行為處於用戶消費決策漏斗的最底部,這就決定了交易前的各種瀏覽、搜索、比較等用戶行為數據的都量遠遠超過交易數據。電子商務模式使得企業可以採集到用戶的瀏覽、搜索、比較等行為,這就導致企業的數據規至少提升了一個數量級。現在日益流行的移動互聯網以及將來會流行的物聯網又必將使數據量提高兩三個數量級。從這個角度來講,大數據時代是必然會出現的。
從IT產業的發展來看,第一代IT巨頭大多是 2B 的,比如 IBM、Microsoft、Oracle、SAP 這類傳統IT企業;第二代IT巨頭大多是 2C 的,比如 Yahoo、Google、Amazon、Facebook 這類互聯網企業。一個有意思的現象是:大數據時代前,這兩類公司彼此之間基本是井水不犯河水,我們很少看見這兩類公司的老闆們在一起坐而論道;但在當前這個大數據時代,這兩類公司已經開始直接競爭。比如 Amazon 已經開始提供雲模式的數據倉庫服務,直接搶占 IBM、Oracle 的市場。這個現象出現的本質原因是:在互聯網巨頭的帶動下,傳統IT巨頭的客戶普遍開始從事電子商務業務,正是由於客戶進入了互聯網,所以傳統IT巨頭們不情願地被拖入了互聯網領域。如果他們不進入互聯網,他們業務必將萎縮。所以第三代IT巨頭可能會是 2B 與 2C 融合的IT公司。
2)大數據的核心內涵
大數據概念雖然非常火爆,但少有人真正理解大數據的核心內容。一個普遍而且嚴重的誤解就是:大數據= 數據大,即大數據就是量大的數據。事實上,除了數據量大這個字面意義,大數據還有兩個更重要的特徵:
1) 跨領域數據的交叉融合。相同領域數據量的增加是加法效應,不同領域數據的融合是乘法效應
2) 數據的流動。數據必須流動,流動產生價值
對於第 1) 點,百分點推薦系統研究中心實驗結果顯示:百分點公司有 3 家客戶,分別是從事服裝、化妝品和箱包銷售的電商,百分點向這 3 家客戶提供個性化商品推薦服務,即:百分點挖掘用戶的偏好,不同的用戶上同一家電商網站時,向他們展現不同的服裝、化妝品或箱包,從而提高電商的轉化率和客單價。我們做過兩種測試:
a) 將每家網站的數據隔離。當每家網站自身的數據量增加到以前的 4 倍時,推薦效果大約能提高 5%;
b) 將三家網站的數據在去除敏感信息之後進行某種融合。融合後的數據大致是與單家網站的數據的 3 倍,比第一種情況數據量還少。但利用融合後的數據進行數據挖掘時,推薦效果能提升 30%,而且推薦商品並未發生變化,仍然是:用戶上服飾類網站時只看見服裝、上化妝品網站時只看見化妝品、上箱包網站時只看見箱包。
解釋得詳細一點,上述實驗說明:對同一個消費者,如果我們要向其推薦服裝。第一種方法是我們根據他過去的 4 次購買服裝的行為來預測其下一次可能會購買的服飾;第二種方法是我們根據他過去分別購買服裝、化妝品和箱包的各 1 次行為來預測其下一次可能會購買的服飾。兩種方法的基於的用戶行數分別是 4 次和 3 次,但第二種方法的效果明顯更好。
對於第 2) 點,其實 10 多年前傳統企業開始做數據倉庫時,數據倉庫從業者經常強調一個觀點:企業級數據倉庫的目標是讓不同部門的數據流動起來,各個部門數據割裂,數據的價值就得不到發揮。到了今天的互聯網時代,我們發現即使企業已經打通了內部各個部門之間的數據,但與整個互聯網比起來,數據量仍然微乎其微,數據應該以互聯網為媒介在企業之間某種形式的流動。參照「企業級數據倉庫」的概念,現在已經開始出現了「互聯網數據倉庫」的概念:就是企業通過互聯網渠道將與自己相關的外部數據與內部數據進行整合,從而形成「互聯網數據倉庫」。百分點已經在零售與媒體領域比較成功地打造了「開放數據聯盟」,該聯盟的成員可以在公允、安全的情況下基於該聯盟建立起自己的「互聯網數據倉庫」,從而享用海量數據的價值。
3)大數據的應用領域
大數據的起源要歸功於互聯網與電子商務,但大數據最大的應用前景卻在傳統產業。一是因為幾乎所有傳統產業都在互聯網化,二是因為傳統產業仍然占據了國家 GDP 的絕大部分份額。
哪些傳統企業最需要大數據服務呢?至少有 3 類企業:
1) 對大量消費者提供產品或服務的企業
2) 做小而美模式的中長尾企業
3) 面臨互聯網壓力之下必須轉型的傳統企業
第 1) 類企業都需要利用大數據精準分析不同消費者的偏好,提高營銷和服務的質量;第 1) 類企業都需要利用大數據分析精準定位自己的客戶群;第 3) 類企業主要指哪些正在遭受來自互聯網的新玩家沖擊的傳統企業,此類企業自然都需要利用互聯網和大數據作為自我進化的工具。當然,第 3) 類企業與前 2 類企業有重疊。
具體來講,中國最需要大數據服務的行業就是受互聯網沖擊最大的產業,首先是線下零售業,其次是金融業。
受電商的沖擊,國內很多零售巨頭都增長嚴重放緩,甚至遭遇負增長,線下零售已經到了不得不變革的危機關頭。我們也看到了銀泰百貨、王府井百貨、萬達集團這些具有創新意識的傳統巨頭開始利用互聯網和大數據來改造線下商業。其中銀泰百貨以手機為載體、利用 O2O 方式進行雙線數據挖掘的創新非常值得借鑒。
而金融行業就更加特殊:金融業並不銷售任何實體商品,它自誕生起就是基於數據的產業。由於國家管制,金融業在前幾年享受了非常好的政策紅利,內部變革動力不足。而目前金融業已經逐漸開始放鬆管制,新興的金融機構必將利用互聯網以及大數據工具向傳統金融巨頭發起猛烈攻擊。而傳統金融機構在互聯網方面的技術積累和數據積累都不足,要快速應對新進入者的挑戰,必然需要大數據服務。我們也看到了中信銀行信用卡中心、招商銀行信用卡中心已經在開始利用互聯網大數據進行創新。
那麼傳統產業需要什麼樣的大數據服務呢?這主要包括 3 層:
1) 基於大數據的行業垂直應用。每個行業都有自己的特點,所以自然會存在行業應用的需求;
2) 顧客標簽與商品標簽的整理。不管什麼行業,都需要精細化整理自己顧客的屬性標簽以及商品屬性標簽,而且這些標簽必須能夠細化到單個顧客和單個商品。標簽是行業應用的基礎;
3) 企業內部和外部數據的整合與管理。要給顧客和商品打標簽,首先必須整合企業內部和外部數據,尤其是日益重要和龐大的外部數據。
圖:傳統企業需要的大數據服務
第 3 層和第 2 層的方法相對比較通用,行業特殊性相對較少。百分點已經在第 3 層和第 2 層做出了比較成熟的產品,並且也開始在第 1 層做出了一些具體的行業應用產品,比如針對服飾行業的時尚服飾搭配系統。
4)大數據的發展方向
大數據產業未來會向什麼方向發展?隨著數據逐漸成為企業的一種資產,數據產業會向傳統企業的供應鏈模式發展,最終形成「數據供應鏈」。拿鋼鐵產業來講,鐵礦石公司從礦場中挖出礦石,經過粗加工,賣給鋼鐵企業;鋼鐵企業再進行精細一點的加工,將板材、鋼條賣給下游製造業公司;這些製造業公司做出汽車、飛機、門窗、電腦等產品賣給下游公司。這個產業鏈中存在找礦、運輸、加工等諸多環節,每個環節都有對應的企業。
圖:傳統企業的供應鏈
在「數據供應鏈」中,存在數據、數據整合與挖掘工具以及數據應用這 3 大環節。數據就好比礦場的礦石;數據整合與挖掘工具就好比鋼廠的冶煉爐;而精準營銷、服飾搭配等數據應用就好比汽車、電腦等可以出售給消費者的產品。企業在數據供應、數據整合與挖掘、數據應用等所有環節都需要專業的服務。這里尤其有兩個明顯的現象:
1) 外部數據的重要性日益超過內部數據。在互聯互通的互聯網時代,單一企業的內部數據與整個互聯網數據比較起來只是滄海一粟;
2) 能提供包括數據供應、數據整合與加工、數據應用等多環節服務的公司會有明顯的綜合競爭優勢。
5) 什麼樣的大數據企業會勝出
常有大數據從業者以及投資人和我們探討一個問題:大數據產業中,什麼樣的企業會最終勝出?這是一個很難回答的問題,而且即使回答了,三五年內可能都無法判斷其正確性。但從「數據供應鏈」中的各個環節來分析,還是可以得出一些具有參考價值的結論。
1) 數據供應。在互聯網沒有流行的時代,企業做數據倉庫、商業智能、數據挖掘等系統時採用的數據基本都來自於企業內部,企業幾乎無法獲取外部數據,所以很少有專業的數據供應商。互聯網改變了這一局面,將來會有專業的數據供應商。但既然是因為互聯網的出現導致了數據供應商的出現,那麼反過來數據供應商就必須具有很強的互聯網基因;
2) 數據整合與挖掘。數據挖掘工具供應商在非互聯網時代就早已存在。但互聯網時代使得企業的數據量激增、數據類型發生極大變化(不同於傳統的來自於單一領域的結構化數據,互聯網數據以跨域的非結構化數據為主),傳統的數據挖掘工具供應商的技術和方法已經很難適應。要跟上時代的變化,數據挖掘技術與工具應用商必須具備互聯網公司的海量數據處理和挖掘的能力;
3) 數據應用。具體的行業應用與傳統行業的業務關系密切,要做好行業應用,最好需要有服務傳統行業的經驗,了解傳統行業的內部運作模式。這時候僅僅具有 2C 經驗的互聯網基因的公司又稍顯不足。
綜合起來看,如果一家大數據從業公司同時兼備互聯網數據獲取能力、互聯網技術、互聯網執行力,又有做 2B 服務的經驗,那麼這家公司將比較容易取得領先優勢。這個結論其實一點也不奇怪:如本文開篇所述,大數據本來就是互聯網與傳統產業碰撞時的產物。
用「方興未艾」這個詞來形容大數據產業的發展階段都還為時過早,目前的大數據產業只能說是小荷才露尖尖角。國內企業在第 1 代IT產業(硬體和軟體產業)中是明顯落後國外企業的;在第 2 代IT產業(互聯網產業)中,國內企業已經與國外企業差距不大甚至在很多方面超過了國外企業;希望在第 3 代IT產業(雲計算和大數據)浪潮中,國內企業能夠完全趕上並且超過國外企業,我們也認為這是很有可能的。
4. 什麼叫大數據,與雲計算有何關系。
1,大數據(big data),指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產
2,大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分布式計算架構。它的特色在於對海量數據的挖掘,但它必須依託雲計算的分布式處理、分布式資料庫、雲存儲和虛擬化技術。
他倆之間的關系你可以這樣來理解,雲計算技術就是一個容器,大數據正是存放在這個容器中的水,大數據是要依靠雲計算技術來進行存儲和計算的。
大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
雲計算的關鍵詞在於「整合」,無論你是通過現在已經很成熟的傳統的虛擬機切分型技術,還是通過google後來所使用的海量節點聚合型技術,他都是通過將海量的伺服器資源通過網路進行整合,調度分配給用戶,從而解決用戶因為存儲計算資源不足所帶來的問題。
大數據正是因為數據的爆發式增長帶來的一個新的課題內容,如何存儲如今互聯網時代所產生的海量數據,如何有效的利用分析這些數據等等。
大數據的趨勢:
趨勢一:數據的資源化
何為資源化,是指大數據成為企業和社會關注的重要戰略資源,並已成為大家爭相搶奪的新焦點。因而,企業必須要提前制定大數據營銷戰略計劃,搶占市場先機。
趨勢二:與雲計算的深度結合
大數據離不開雲處理,雲處理為大數據提供了彈性可拓展的基礎設備,是產生大數據的平台之一。自2013年開始,大數據技術已開始和雲計算技術緊密結合,預計未來兩者關系將更為密切。除此之外,物聯網、移動互聯網等新興計算形態,也將一齊助力大數據革命,讓大數據營銷發揮出更大的影響力。
趨勢三:科學理論的突破
隨著大數據的快速發展,就像計算機和互聯網一樣,大數據很有可能是新一輪的技術革命。隨之興起的數據挖掘、機器學習和人工智慧等相關技術,可能會改變數據世界裡的很多演算法和基礎理論,實現科學技術上的突破。