A. 大數據需要理性認知
大數據需要理性認知
認清大數據
「當前對於大數據最明顯的認識誤區是把大數據和Hadoop MapRece劃等號,和互聯網UGC(用戶生成內容)畫等號。」
《計算機世界》:「大數據」是當前最流行的概念,應該怎樣理解這個概念?
潘越:大數據原來只是技術領域里的概念,後來逐漸發展到與產業和商業緊密相關,這導致圍繞著大數據的很多觀念和做法都發生了轉變。過去人們更強調數據本身的價值,只保存「有用的」數據,然後對此做出分析就可以了。但是隨著數據管理和數據分析技術的進步,現在已經可以處理更大規模的數據,所以此時就需要考慮數據分析服務的個性化問題,人們對於數據應用的理念也開始發生轉變。現在的大數據服務商可以先把各種各樣的數據保存下來,包括那些原來被認為是「沒有用」的數據,然後進行有針對性的分析和實現按需交付,從而給客戶帶來快捷和更細化的服務,推動商業的進步。
《計算機世界》:大數據應用就是保存所有的數據、分析所有的數據?
潘越:把數據盡可能地保存並不是說把數據像堆雜物一樣地儲存,而是需要對數據進行組織和管理,IBM稱之為數據治理,意思就是把數據當做資產來看待。資產肯定包括不同的類型,數據也一樣。
對一個企業來說,它的主數據就是核心資產,其中可能包括客戶信息、產品信息、供應商信息等。核心資產非常重要,也經常要被使用,所以必須保證其在安全和高效的環境下得到利用和保護;還有一類數據關繫到企業的業績水平,它將決定企業的運營做得好還是不好,體現出的是績效管理的結果,這部分數據由數據倉庫支持;第三類則是關繫到企業未來的數據,它們的價值在於「潛力」,比如原始單據就是這類數據,企業有可能從中挖掘出新價值,讓自己的業務做得更好、更有前景,它們是「內容管理」的對象;此外還有一類「很快的數據」,它們是需要迅速得出處理結果的數據。比如一個客戶來了,企業馬上就要分析出該客戶的興趣點是什麼、與其他客戶有何關聯關系等,以便及時做出最有效的應對。這種數據的形態與前幾種都不同,它們需要以流數據的方式進行處理。
需要指出的是,每一類數據都有一個生命周期,都有一個從獲取、管理、應用,到用於決策支持的過程。
《計算機世界》:大數據應用發展到理想狀態,企業就可以精準預測客戶需求,提前解決供應問題嗎?人們對大數據的認識是否有誤區?
潘越:1974年的諾貝爾經濟學獎得主哈耶克,他發表的獲獎演說題為《知識的偽裝》,其中說到:「隨著科學知識的增加,我們高估了自己理解構成世界的微妙變化能力,也高估了我們對每個變化的重要性做出判斷的能力。」所以,無所不知只是人的錯覺。現在很多研究者製作出一些精確的數學模型,認為這就是因果模型,但其實它們是關聯模型。同樣,大數據本身也不能幫你得出因果關系,而只能顯現關聯關系。
當前對於大數據最明顯的認識誤區是把大數據和Hadoop MapRece畫等號,和互聯網UGC畫等號。其實MapRece只對處理大數據中的一類數據有效,而且只是一種處理方法。互聯網UGC也只是大數據分類中的一部分,許多行業都有待挖掘的大數據資源,包括傳統零售行業、醫療行業、政府信息等。
數據就是資產
「各行各業都有大規模的數據資源,只不過因為種種原因,很多沒有開放,只要有合理的機制解決開放問題,讓數據能在被充分保護的基礎上加以利用,就能發掘出很多大數據的應用機會。」
《計算機世界》:大數據時代,IBM追尋怎樣的目標?
潘越:IBM總的原則就是:為客戶創造價值。在大數據方面,IBM所做的是幫助客戶確認數據資產,對數據資產進行有效管理和有效利用,讓數據資源長久為客戶服務,這是我們的基本原則。短時期內,IBM的目標是通過自己的技術、產品和服務,幫助客戶管好、用好數據資源。而在將來,IBM一方面希望更深層次地利用現有或者可能產生的數據,進一步挖掘數據的價值;另一方面,IBM認為數據既然是資產,就可以進行交易,未來是否可以把數據資產定價,像別的資產一樣自由交易,又該怎樣進行交易,這個問題IBM正在研究。
《計算機世界》:當前在行業應用方面,IBM的大數據能力體現在哪裡?
潘越:目前零售行業是大數據應用非常活躍的領域,在中國,IBM跟王府井百貨和蘇寧都有合作,用大數據技術和服務幫助這些傳統零售商在向電商形態轉變。事實上,傳統的零售商也有自己的優勢,比如它的物流系統要比第三方更穩定可靠,所以在電商領域他們有自己的後發優勢,當這種優勢與大數據技術得到良好結合,他們的電商之路一定會順暢很多。另外,醫療行業也是大數據應用的重要行業,超級電腦Watson就在朝這個方向努力。
Watson是一個問答系統,可以根據病人的病歷、分析文獻和其他醫生的意見,給出一個診斷決策。目前Watson在醫療領域已經有應用案例,比如IBM和美國最大的保險公司WellPoint就在進行相關合作。更重要的是,IBM將Watson與大數據結合在一起,還在於探索解決非結構化數據的處理問題,尤其是多媒體數據,包括圖像、視頻等等。比如醫學影像通常需要專業的醫生去解讀,而IBM現在試圖讓Watson也去完成這類解讀,這是一個很大的挑戰,但是如果能夠探索出解決辦法,無疑將對醫療行業的發展帶來巨大推動力。
《計算機世界》:用戶生成內容是大數據的重要來源,這是否意味著互聯網企業在大數據時代的話語權最大?
潘越:短期來講互聯網企業很有優勢,因為他們既是數據的生產者,也是數據的利用者,他們可以很方便地把數據用於改善用戶體驗,由此便獲得了先天的話語權。但從長遠來看,大數據的應用遠遠不限於互聯網,就好像采礦,最初都會挖一些容易探到的礦產,生產出來的產品也都比較初級,然而當行業發展成熟,下游產品越來越豐富,後續的探索會更加有價值。比如石油資源可以支持化工行業,化工業的價值要比初級的煉油高得多。所以,數據的後續深挖能力,也將決定大數據領域企業的份量。另外,當把淺層的礦產挖完後,就需要具備更強的探礦能力,把用戶生成數據理順以後,對於其他類型的數據是否具備處理能力會顯得更加重要。其實,各行各業都有大規模的數據資源,只不過因為種種原因,很多沒有開放,只要有合理的機制解決開放問題,讓數據能在被充分保護的基礎上加以利用,就能發掘出很多大數據的應用機會。所以在將來,一定不是非互聯網企業就沒有掌控大數據產業話語權的機會。
《計算機世界》:IBM認為大數據和目前正在不斷推進的認知計算的交匯點在哪裡?認知計算將會是最理想的大數據計算方式嗎?
潘越:認知計算,從狹義來講,是計算機和心理學以及神經生物學交叉的研究領域。現在相關概念被擴大化了,能跟人有自然介面的、可以學習的系統,都被稱為認知計算。最近認知計算領域進展比較快,有兩個原因:一是因為硬體技術的進步,現在已經能夠更大規模地建立神經網路,IBM有一個項目就是在研究利用立體的集成電路去搭建一個高密度的神經網路,現在能做到類貓腦的程度,最終的目標是構建一個達到人腦級別的神經網路;第二,當前計算領域,演算法方面有很大的提高。在認知計算領域,越是基本的概念機器越難學會表達,以前這是計算方面的難點,而現在這一塊有了突破。
不過目前,認知計算和大數據還是各做各的,沒有完全融合,未來如果兩者能很好地結合,將帶來無限可能。事實上,認知計算屬於人工智慧范疇,而人工智慧一直是IBM特別關注的領域,因此把認知計算和大數據應用的能力協調發揮,也是IBM的努力方向。
B. 如何正確認識大數據的價值和效益
1、數據使用必須承擔保護的責任與義務
我國數據流通與數據交易主要存在以下問題:數據源活性不夠,數據中介機構還處於起步階段;多源數據的匯集技術尤其是非結構化數據分析技術滯後;缺乏熟悉不同行業並掌握在特定領域使用數據技術的人才。
數據的價值在於融合與挖掘,數據流通、交易有利於促進數據的融合和挖掘,搞活數據從而產生效益。數據共享開放、流通交易和數據保護及數據安全對數據技術提出嚴峻挑戰,對法律的制定及執行提出了很高要求。為此,數據使用必須承擔保護的責任與義務。