『壹』 大數據時代九種從大數據中獲取價值的方法
大數據時代九種從大數據中獲取價值的方法
大數據時代九種從大數據中獲取價值的方法,現在已經有了許多利用大數據獲取商業價值的案例,我們可以參考這些案例並以之為起點,我們也可以從大數據中挖掘出更多的金礦。 去年TDWI關於管理大數據的調查顯示,89%的受訪者認為大數據是一個機會,而在2011年的大數據分析的調查中這個比例僅為70%。在這兩次調查中受訪問者均普遍認為,要抓住大數據的機會並從中獲取商業價值,需要使用先進的分析方法。此外,其他從大數據中獲取商業價值的方法包括數據探索、捕捉實時流動的大數據並把新的大數據來源與原來的企業數據相整合。 雖然很多人已有了這樣一個認識:大數據將為我們呈現一個新的商業機會。但目前僅有少量公司可以真正的從大數據中獲取到較多的商業價值。下邊介紹了9個大數據用例,我們在進行大數據分析項目時可以參考一下這些用例,從而更好地從大數據中獲取到我們想要的價值。1、探索大數據以發現新的商業機會。很多大數據都是來自一些新的來源,這代表客戶或合作夥伴互動的新渠道。和任何新的數據來源一樣,大數據值得探索。通過數據探索,你可以了解一些之前所不知道的商業模式和事實真相,比如新的客戶群細分、客戶行為、客戶流失的形式,和最低成本的根本原因等等。2、從數據分析中獲取商業價值。請注意,這里涉及到一些高級的數據分析方法,例如數據挖掘、統計分析、自然語言處理和極端SQL等等。3、對已收集到的大數據進行分析。許多公司都收集了大量的數據,他們感覺這些數據存在著商業價值,但並不知道怎樣從這些弄出來的值大的數據。不同行業的數據集有所不同,比如,如果你處於網路營銷行業,你可能會有大量Web站點的日誌數據集,這可以把數據按會話進行劃分,進行分析以了解網站訪客的行為並提升網站的訪問體驗。4、重點分析對你的行業有價值的大數據。大數據的類型和內容因行業而異,每一類數據對於每個行業的價值是不一樣的。比如電信行業的呼叫詳細記錄(CDR),零售業、製造業或其他以產口為中心的行業的RFID數據,以及製造業(特別是汽車和消費電子)中機器人的感測器數據等等,這些都是各個行業中非常重要的數據。5、使用社交媒體數據來擴展現有的客戶分析。客戶的各種行為比如評論品牌、評價產品、參與營銷活動或表示他們的喜好等等,會在客戶中相互影響。社交大數據可以來自社交媒體網站,以及自有的客戶能夠表達意見及事實的渠道。我們可以使用預測性分析發現規律和預測產品或服務的問題。我們也可以利用這些數據來評估市場知名度、品牌美譽度、用戶情緒變動和新的客戶群。6、理解非結構化的大數據。非結構化的信息主要指的是是使用文字表達的人類語言,這與大多數關系型數據有著很大的不同,你需要使用一些新的工具來進行自然語言處理、搜索和文本分析。把基於文本內容的業務流程進行可視化展示。7、把客戶的意見整合到大數據中。通過運用大數據(與原有的企業資源集成),我們可以對客戶或其他商業實體(產品,供應商,合作夥伴)實現360度全景分析,分析的維度屬性從幾百個擴展到幾千個。新增的粒狀細節帶來更准確的客戶群細分,直銷策略和客戶分析。8、分析大數據流,實時操作業務,提升業務動作水平。實時監測和分析的程序已經在企業運營中存在了很多年,那些需要全天候運行的能源、通訊網路或任何系統網路、服務或設施的機構早就在使用這類型的程序。最近,從監控行業(網路安全、態勢感知、欺詐檢測)到物流行業(公路或鐵路運輸、移動資產管理、實時庫存),越來越多的組織正在利用大數據流的應用。9、整合大數據以改善原有的分析應用。對於原有的分析應用,大數據可以擴大和擴展其數據樣本。尤其在依賴於大樣本的分析技術的情況下,比如統計或數據挖掘;而在欺詐檢測、風險管理或精確計算的情況下同樣也得用上大樣本的數據。
『貳』 大數據挖掘商業價值的方法包括哪些
1、對顧客群體細分,然後對每個群體量體裁衣般的採取獨特的行動。x0dx0a 2、運用大數據模擬實境,發掘新的需求和提高投入的回報率。x0dx0a 3、提高大數據成果在各相關部門的分享程度,提高整個管理鏈條和產業鏈條的投入回報率。x0dx0a 4、進行商業模式,產品和服務的創新。
『叄』 如何從大數據中挖掘更多的價值
資深數據營銷專家微碼鄧白氏認為:大數據營銷不僅要有「數」,還要有「數據思維」,具體包括以下五點:
1. 獲取全網用戶數據,使數據在營銷中體現應有的價值。
2.讓數據看得懂,通過多維的用戶標簽識別用戶的基本屬性特徵、偏好、興趣特徵和商業價值特徵。
3.分析用戶特徵及偏好,形成網站用戶分群畫像系統。
4.制定渠道和創意策略,從而提高目標用戶人群的轉化率。
5.提升營銷效率,在營銷過程中進行實時策略調整。
『肆』 大數據怎麼發揮大價值
1 大數據興起預示逗信息時代地進入新階段
1.1 看待大數據要有歷史性的眼光
信息時代是相對於農業和工業時代而言的一段相當長的時間。不同時代的生產要素和社會發展驅動力有明顯差別。信息時代的標志性技術發明是數字計算機、集成電路、光纖通信和互聯網(萬維網)。盡管媒體上大量出現逗大數據時代地的說法,但大數據、雲計算等新技術目前還沒有出現與上述劃時代的技術發明可媲美的技術突破,難以構成一個超越信息時代的新時代。信息時代可以分成若干階段,大數據等新技術的應用標志著信息社會將進入一個新階段。
考察分析100年以上的歷史長河可以發現,信息時代與工業時代的發展規律有許多相似之處。電氣化時代與信息時代生產率的提高過程驚人地相似。都是經過20~30年擴散儲備之後才有明顯提高,分界線分別是1915年和1995年。筆者猜想,信息技術經過幾十年的擴散儲備後,21世紀的前30年可能是信息技術提高生產率的黃金時期。
1.2 從逗信息時代新階段地的高度認識逗大數據地
中國已開始進入信息時代,但許多人的思想還停留在工業時代。經濟和科技工作中出現的許多問題,其根源是對時代的認識不到位。18-19世紀中國落後挨打,根源是滿清政府沒有認識到時代變了,我們不能重犯歷史性的錯誤。
中央提出中國進入經濟逗新常態地以後,媒體上有很多討論,但多數是為經濟增速降低做解釋,很少有從時代改變的角度論述逗新常態地的文章。筆者認為,經濟新常態意味著中國進入了以信息化帶動新型工業化、城鎮化和農業現代化的新階段,是經濟和社會管理的躍遷,不是權宜之計,更不是倒退。
大數據、移動互聯網、社交網路、雲計算、物聯網等新一代信息技術構成的IT架構逗第三平台地是信息社會進入新階段的標志,對整個經濟的轉型有引領和帶動作用。媒體上經常出現的互聯網、創客、逗第二次機器革命地、逗工業4.0地等都與大數據和雲計算有關。大數據和雲計算是新常態下提高生產率的新杠桿,所謂創新驅動發展就是主要依靠信息技術促進生產率的提高。
1.3 大數據可能是中國信息產業從跟蹤走向引領的突破口
中國的大數據企業已經有相當好的基礎。全球十大互聯網服務企業中國佔有4席(阿里巴巴、騰訊、網路和京東),其他6個Top10 互聯網服務企業全部是美國企業,歐洲和日本沒有互聯網企業進入Top10。這說明中國企業在基於大數據的互聯網服務業務上已處於世界前列。在發展大數據技術上,我國有可能改變過去30年技術受制於人的局面,在大數據應用上中國有可能在全世界起到引領作用。
但是,企業的規模走在世界前列並不表示我國在大數據技術上領先。實際上,國際上目前流行的大數據主流技術沒有一項是我國開創的。開源社區和眾包是發展大數據技術和產業的重要途徑,但我們對開源社區的貢獻很小,在全球近萬名社區核心志願者中,我國可能不到200名。我們要吸取過去基礎研究為企業提供核心技術不夠的教訓,加強大數據基礎研究和前瞻技術研究,努力攻克大數據核心和關鍵技術。
2 理解大數據需要上升到文化和認識論的高度
2.1 數據文化是一種先進文化
數據文化的本質是尊重客觀世界的實事求是精神,數據就是事實。重視數據就是強調用事實說話、按理性思維的科學精神。中國人的傳統習慣是定性思維而不是定量思維。目前許多城市在開展政府數據開放共享工作,但是發現多數老百姓對政府要開放的數據並不感興趣。要讓大數據走上健康的發展軌道,首先要大力弘揚數據文化。本文講的數據文化不只是大數據用於文藝、出版等文化產業,而是指全民的數據意識。全社會應認識到:信息化的核心是數據,只有政府和大眾都關注數據時,才能真正理解信息化的實質;數據是一種新的生產要素,大數據的利用可以改變資本和土地等傳統要素在經濟中的權重。
有人將逗上帝與數據共舞地歸納為美國文化的特點之一,說的是美國人既有對神的誠意,又有通過數據求真的理性。美國從鍍金時代到進步主義時期完成了數據文化的思維轉變,南北戰爭之後人口普查的方法被應用到很多領域,形成了數據預測分析的思維方式。近百年來美國和西方各國的現代化與數據文化的傳播滲透有密切關系,我國要實現現代化也必須強調數據文化。
提高數據意識的關鍵是要理解大數據的戰略意義。數據是與物質、能源一樣重要的戰略資源,數據的採集和分析涉及每一個行業,是帶有全局性和戰略性的技術。從硬技術到軟技術的轉變是當今全球性的技術發展趨勢,而從數據中發現價值的技術正是最有活力的軟技術,數據技術與數據產業的落後將使我們像錯過工業革命機會一樣延誤一個時代。
2.2 理解大數據需要有正確的認識論
歷史上科學研究是從邏輯演繹開始的,歐幾里得幾何的所有定理可從幾條公理推導出來。從伽利略和牛頓開始,科學研究更加重視自然觀察和實驗觀察,在觀察基礎上通過歸納方法提煉出科學理論,逗科學始於觀察地成為科學研究和認識論的主流。經驗論和唯理論這兩大流派都對科學的發展做出過重大貢獻,但也暴露出明顯的問題,甚至走入極端。理性主義走向極端就成為康德所批判的獨斷主義,經驗主義走入極端就變成懷疑論和不可知論。
20世紀30年代,德國哲學家波普爾提出了被後人稱為逗證偽主義地的認識論觀點,他認為科學理論不能用歸納法證實,只能被試驗發現的反例逗證偽地,因而他否定科學始於觀察,提出逗科學始於問題地的著名觀點[3]。證偽主義有其局限性,如果嚴格遵守證偽法則,萬有引力定律、原子論等重要理論都可能被早期的所謂反例扼殺。但逗科學始於問題地的觀點對當前大數據技術的發展有指導意義。
大數據的興起引發了新的科學研究模式:逗科學始於數據地。從認識論的角度看,大數據分析方法與逗科學始於觀察地的經驗論較為接近,但我們要牢記歷史的教訓,避免滑入否定理論作用的經驗主義泥坑。在強調逗相關性地的時候不要懷疑逗因果性地的存在;在宣稱大數據的客觀性、中立性的時候,不要忘了不管數據的規模如何,大數據總會受制於自身的局限性和人的偏見。不要相信這樣的預言:逗採用大數據挖掘,你不需要對數據提出任何問題,數據就會自動產生知識地。面對像大海一樣的巨量數據,從事數據挖掘的科技人員最大的困惑是,我們想撈的逗針地是什麼看這海里究竟有沒有逗針地看也就是說,我們需要知道要解決的問題是什麼。從這個意義上講,逗科學始於數據地與逗科學始於問題地應有機地結合起來。
對逗原因地的追求是科學發展的永恆動力。但是,原因是追求不完的,人類在有限的時間內不可能找到逗終極真理地。在科學的探索途中,人們往往用逗這是客觀規律地解釋世界,並不立即追問為什麼有這樣的客觀規律。也就是說,傳統科學並非只追尋因果性,也可以用客觀規律作為結論。大數據研究的結果多半是一些新的知識或新的模型,這些知識和模型也可以用來預測未來,可以認為是一類局部性的客觀規律。科學史上通過小數據模型發現一般性規律的例子不少,比如開普勒歸納的天體運動規律等;而大數據模型多半是發現一些特殊性的規律。物理學中的定律一般具有必然性,但大數據模型不一定具有必然性,也不一定具有可演繹性。大數據研究的對象往往是人的心理和社會,在知識階梯上位於較高層,其自然邊界是模糊的,但有更多的實踐特徵。大數據研究者更重視知行合一,相信實踐論。大數據認識論有許多與傳統認識論不同的特點,我們不能因其特點不同就否定大數據方法的科學性。大數據研究挑戰了傳統認識論對因果性的偏愛,用數據規律補充了單一的因果規律,實現了唯理論和經驗論的數據化統一,一種全新的大數據認識論正在形成。
3 正確認識大數據的價值和效益
3.1 大數據的價值主要體現為它的驅動效應
人們總是期望從大數據中挖掘出意想不到的逗大價值地。實際上大數據的價值主要體現在它的驅動效應,即帶動有關的科研和產業發展,提高各行各業通過數據分析解決困難問題和增值的能力。大數據對經濟的貢獻並不完全反映在大數據公司的直接收入上,應考慮對其他行業效率和質量提高的貢獻。大數據是典型的通用技術,理解通用技術要採用逗蜜蜂模型地:蜜蜂的效益主要不是自己釀的蜂蜜,而是蜜蜂傳粉對農業的貢獻。
電子計算機的創始人之一馮·諾依曼曾指出:逗在每一門科學中,當通過研究那些與終極目標相比頗為朴實的問題,發展出一些可以不斷加以推廣的方法時,這門學科就得到了巨大的進展。地我們不必天天期盼奇跡出現,多做一些逗頗為朴實地的事情,實際的進步就在扎扎實實的努力之中。媒體喜歡宣傳一些令人驚奇的大數據成功案例,對這些案例我們應保持清醒的頭腦。據Intel中國研究院首席工程師吳甘沙在一次報告中透露,所謂逗啤酒加尿布地的數據挖掘經典案例,其實是Teradata公司一位經理編出來的逗故事地,歷史上並沒有發生過[4]。即使有這個案例,也不說明大數據分析本身有什麼神奇,大數據中看起來毫不相關的兩件事同時或相繼出現的現象比比皆是,關鍵是人的分析推理找出為什麼兩件事物同時或相繼出現,找對了理由才是新知識或新發現的規律,相關性本身並沒有多大價值。
有一個家喻戶曉的寓言可以從一個角度說明大數據的價值:一位老農民臨終前告訴他的3個兒子,他在他家的地中埋藏了一罐金子,但沒有講埋在哪裡。
他的兒子們把他家所有的地都深挖了一遍,沒有挖到金子,但由於深挖了土地,從此莊稼收成特別好。數據收集、分析的能力提高了,即使沒有發現什麼普適的規律或令人完全想不到的新知識,大數據的價值也已逐步體現。
3.2 大數據的力量來自逗大成智慧地
每一種數據來源都有一定的局限性和片面性,只有融合、集成各方面的原始數據,才能反映事物的全貌。事物的本質和規律隱藏在各種原始數據的相互關聯之中。不同的數據可能描述同一實體,但角度不同。對同一個問題,不同的數據能提供互補信息,可對問題有更深入的理解。因此在大數據分析中,匯集盡量多種來源的數據是關鍵。
數據科學是數學(統計、代數、拓撲等)、計算機科學、基礎科學和各種應用科學融合的科學,類似錢學森先生提出的逗大成智慧學地[5]。錢老指出:逗必集大成,才能得智慧地。大數據能不能出智慧,關鍵在於對多種數據源的集成和融合。IEEE計算機學會最近發布了2014年的計算機技術發展趨勢預測報告,重點強調逗無縫智慧(seamless intelligence)地。發展大數據的目標就是要獲得協同融合的逗無縫智慧地。單靠一種數據源,即使數據規模很大,也可能出現逗瞎子摸象地一樣的片面性。數據的開放共享不是錦上添花的工作,而是決定大數據成敗的必要前提。
大數據研究和應用要改變過去各部門和各學科相互分割、獨立發展的傳統思路,重點不是支持單項技術和單個方法的發展,而是強調不同部門、不同學科的協作。數據科學不是垂直的逗煙囪地,而是像環境、能源科學一樣的橫向集成科學。
3.3 大數據遠景燦爛,但近期不能期望太高
交流電問世時主要用作照明,根本想像不到今天無處不在的應用。大數據技術也一樣,將來一定會產生許多現在想不到的應用。我們不必擔心大數據的未來,但近期要非常務實地工作。人們往往對近期的發展估計過高,而對長期的發展估計不足。Gartner公司預測,大數據技術要在5~10年後才會成為較普遍採用的主流技術,對發展大數據技術要有足夠的耐心。
大數據與其他信息技術一樣,在一段時間內遵循指數發展規律。指數發展的特點是,從一段歷史時期衡量(至少30年),前期發展比較慢,經過相當長時間(可能需要20年以上)的積累,會出現一個拐點,過了拐點以後,就會出現爆炸式的增長。但任何技術都不會永遠保持逗指數性地增長,一般而言,高技術發展遵循Gartner公司描述的技術成熟度曲線(hype cycle),最後可能進入良性發展的穩定狀態或者走向消亡。
需要採用大數據技術來解決的問題往往都是十分復雜的問題,比如社會計算、生命科學、腦科學等,這些問題絕不是幾代人的努力就可以解決的。宇宙經過百億年的演化,才出現生物和人類,其復雜和巧妙堪稱絕倫,不要指望在我們這一代人手中就能徹底揭開其奧妙。展望數百萬年甚至更長遠的未來,大數據技術只是科學技術發展長河中的一朵浪花,對10~20年大數據研究可能取得的科學成就不能抱有不切實際的幻想。
4 從復雜性的角度看大數據研究和應用面臨的挑戰
大數據技術和人類探索復雜性的努力有密切關系。20世紀70年代,新三論(耗散結構論、協同論、突變論)的興起對幾百年來貫穿科學技術研究的還原論發起了挑戰。1984年蓋爾曼等3位諾貝爾獎得主成立以研究復雜性為主的聖菲研究所,提出超越還原論的口號,在科技界掀起了一場復雜性科學運動。雖然雷聲很大,但30年來並未取得預期的效果,其原因之一可能是當時還沒有出現解決復雜性的技術。
集成電路、計算機與通信技術的發展大大增強了人類研究和處理復雜問題的能力。大數據技術將復雜性科學的新思想發揚光大,可能使復雜性科學得以落地。復雜性科學是大數據技術的科學基礎,大數據方法可以看作復雜性科學的技術實現。大數據方法為還原論與整體論的辯證統一提供了技術實現途徑。大數據研究要從復雜性研究中吸取營養,從事數據科學研究的學者不但要了解20世紀的逗新三論地,可能還要學習與超循環、混沌、分形和元胞自動機等理論有關的知識,擴大自己的視野,加深對大數據機理的理解。
大數據技術還不成熟,面對海量、異構、動態變化的數據,傳統的數據處理和分析技術難以應對,現有的數據處理系統實現大數據應用的效率較低,成本和能耗較大,而且難以擴展。這些挑戰大多來自數據本身的復雜性、計算的復雜性和信息系統的復雜性。
4.1 數據復雜性引起的挑戰
圖文檢索、主題發現、語義分析、情感分析等數據分析工作十分困難,其原因是大數據涉及復雜的類型、復雜的結構和復雜的模式,數據本身具有很高的復雜性。目前,人們對大數據背後的物理意義缺乏理解,對數據之間的關聯規律認識不足,對大數據的復雜性和計算復雜性的內在聯系也缺乏深刻理解,領域知識的缺乏制約了人們對大數據模型的發現和高效計算方法的設計。形式化或定量化地描述大數據復雜性的本質特徵及度量指標,需要深入研究數據復雜性的內在機理。人腦的復雜性主要體現在千萬億級的樹突和軸突的鏈接,大數據的復雜性主要也體現在數據之間的相互關聯。理解數據之間關聯的奧秘可能是揭示微觀到宏觀逗涌現地規律的突破口。大數據復雜性規律的研究有助於理解大數據復雜模式的本質特徵和生成機理,從而簡化大數據的表徵,獲取更好的知識抽象。為此,需要建立多模態關聯關系下的數據分布理論和模型,理清數據復雜度和計算復雜度之間的內在聯系,奠定大數據計算的理論基礎。
4.2 計算復雜性引起的挑戰
大數據計算不能像處理小樣本數據集那樣做全局數據的統計分析和迭代計算,在分析大數據時,需要重新審視和研究它的可計算性、計算復雜性和求解演算法。大數據樣本量巨大,內在關聯密切而復雜,價值密度分布極不均衡,這些特徵對建立大數據計算範式提出了挑戰。對於PB級的數據,即使只有線性復雜性的計算也難以實現,而且,由於數據分布的稀疏性,可能做了許多無效計算。
傳統的計算復雜度是指某個問題求解時需要的時間空間與問題規模的函數關系,所謂具有多項式復雜性的演算法是指當問題的規模增大時,計算時間和空間的增長速度在可容忍的范圍內。傳統科學計算關注的重點是,針對給定規模的問題,如何逗算得快地。而在大數據應用中,尤其是流式計算中,往往對數據處理和分析的時間、空間有明確限制,比如網路服務如果回應時間超過幾秒甚至幾毫秒,就會丟失許多用戶。大數據應用本質上是在給定的時間、空間限制下,如何逗算得多地。從逗算得快地到逗算得多地,考慮計算復雜性的思維邏輯有很大的轉變。所謂逗算得多地並不是計算的數據量越大越好,需要探索從足夠多的數據,到剛剛好的數據,再到有價值的數據的按需約簡方法。
基於大數據求解困難問題的一條思路是放棄通用解,針對特殊的限制條件求具體問題的解。人類的認知問題一般都是NP難問題,但只要數據充分多,在限制條件下可以找到十分滿意的解,近幾年自動駕駛汽車取得重大進展就是很好的案例。為了降低計算量,需要研究基於自舉和采樣的局部計算和近似方法,提出不依賴於全量數據的新型演算法理論,研究適應大數據的非確定性演算法等理論。
4.3 系統復雜性引起的挑戰
大數據對計算機系統的運行效率和能耗提出了苛刻要求,大數據處理系統的效能評價與優化問題具有挑戰性,不但要求理清大數據的計算復雜性與系統效率、能耗間的關系,還要綜合度量系統的吞吐率、並行處理能力、作業計算精度、作業單位能耗等多種效能因素。針對大數據的價值稀疏性和訪問弱局部性的特點,需要研究大數據的分布式存儲和處理架構。
大數據應用涉及幾乎所有的領域,大數據的優勢是能在長尾應用中發現稀疏而珍貴的價值,但一種優化的計算機系統結構很難適應各種不同的需求,碎片化的應用大大增加了信息系統的復雜性,像昆蟲種類一樣多(500多萬種)的大數據和物聯網應用如何形成手機一樣的巨大市場,這就是所謂逗昆蟲綱悖論地[6]。為了化解計算機系統的復雜性,需要研究異構計算系統和可塑計算技術。
大數據應用中,計算機系統的負載發生了本質性變化,計算機系統結構需要革命性的重構。信息系統需要從數據圍著處理器轉改變為處理能力圍著數據轉,關注的重點不是數據加工,而是數據的搬運;系統結構設計的出發點要從重視單任務的完成時間轉變到提高系統吞吐率和並行處理能力,並發執行的規模要提高到10億級以上。構建以數據為中心的計算系統的基本思路是從根本上消除不必要的數據流動,必要的數據搬運也應由逗大象搬木頭地轉變為逗螞蟻搬大米地。
5 發展大數據應避免的誤區
5.1 不要一味追求逗數據規模大地
大數據主要難點不是數據量大,而是數據類型多樣、要求及時回應和原始數據真假難辨。現有資料庫軟體解決不了非結構化數據,要重視數據融合、數據格式的標准化和數據的互操作。採集的數據往往質量不高是大數據的特點之一,但盡可能提高原始數據的質量仍然值得重視。腦科學研究的最大問題就是採集的數據可信度差,基於可信度很差的數據難以分析出有價值的結果。
一味追求數據規模大不僅會造成浪費,而且效果未必很好。多個來源的小數據的集成融合可能挖掘出單一來源大數據得不到的大價值。應多在數據的融合技術上下功夫,重視數據的開放與共享。所謂數據規模大與應用領域有密切關系,有些領域幾個PB的數據未必算大,有些領域可能幾十TB已經是很大的規模。
發展大數據不能無止境地追求逗更大、更多、更快地,要走低成本、低能耗、惠及大眾、公正法治的良性發展道路,要像現在治理環境污染一樣,及早關注大數據可能帶來的逗污染地和侵犯隱私等各種弊端。
5.2 不要逗技術驅動地,要逗應用為先地
新的信息技術層出不窮,信息領域不斷冒出新概念、新名詞,估計繼逗大數據地以後,逗認知計算地、逗可穿戴設備地、逗機器人地等新技術又會進入炒作高峰。我們習慣於跟隨國外的熱潮,往往不自覺地跟著技術潮流走,最容易走上逗技術驅動地的道路。實際上發展信息技術的目的是為人服務,檢驗一切技術的唯一標準是應用。我國發展大數據產業一定要堅持逗應用為先地的發展戰略,堅持應用牽引的技術路線。技術有限,應用無限。各地發展雲計算和大數據,一定要通過政策和各種措施調動應用部門和創新企業的積極性,通過跨界的組合創新開拓新的應用,從應用中找出路。
5.3 不能拋棄逗小數據地方法
流行的逗大數據地定義是:無法通過目前主流軟體工具在合理時間內採集、存儲、處理的數據集。這是用不能勝任的技術定義問題,可能導致認識的誤區。按照這種定義,人們可能只會重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實,目前各行各業碰到的數據處理多數還是逗小數據地問題。我們應重視實際碰到的問題,不管是大數據還是小數據。
統計學家們花了200多年,總結出認知數據過程中的種種陷阱,這些陷阱不會隨著數據量的增大而自動填平。大數據中有大量的小數據問題,大數據採集同樣會犯小數據採集一樣的統計偏差。Google公司的流感預測這兩年失靈,就是由於搜索推薦等人為的干預造成統計誤差。
大數據界流行一種看法:大數據不需要分析因果關系、不需要采樣、不需要精確數據。這種觀念不能絕對化,實際工作中要邏輯演繹和歸納相結合、白盒與黑盒研究相結合、大數據方法與小數據方法相結合。
5.4 要高度關注構建大數據平台的成本
目前全國各地都在建設大數據中心,呂梁山下都建立了容量達2 PB以上的數據處理中心,許多城市公安部門要求存儲3個月以上的高清監控錄像。這些系統的成本都非常高。數據挖掘的價值是用成本換來的,不能不計成本,盲目建設大數據系統。什麼數據需要保存,要保存多少時間,應當根據可能的價值和所需的成本來決定。大數據系統技術還在研究之中,美國的E級超級計算機系統要求能耗降低1 000倍,計劃到2024年才能研製出來,用現在的技術構建的巨型系統能耗極高。
我們不要攀比大數據系統的規模,而是要比實際應用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數據應用,因地制宜發展大數據。發展大數據與實現信息化的策略一樣:目標要遠大、起步要精準、發展要快速。
『伍』 大數據如何發揮大價值
大數據如何發揮大價值
大數據時代,CIO的競爭優勢從信息技術轉變為圍繞客戶體驗、數據分析、流程管理領域,讓數據發揮大價值。
全球每秒鍾發送2900萬封電子郵件,推特上每天發布 5000萬條消息;亞馬遜每天產生 630萬筆訂單;Google每天需要處理24PB 的數據……
海量數據的處理,以及如何用數據創造更大的價值,給CIO們提出了更多的挑戰。根據Valueresearch研究報告顯示,大數據已經躍升為CIO關注度排名第四的技術與應用,並且還在持續提升中。
2013年9月4日,商業價值、ITValue和CommVault公司在北京聯合舉辦了「大數據的大價值」的CIO沙龍。12位來自不同行業的CIO進行了精彩的分享和討論。
業務需求引導數據分析
在一個家庭里,誰來主導旅遊消費?誰來做旅遊決策?
中青旅控股有限公司(下稱「中青旅」)的IT部門和市場推廣部聯合成立了一個數據挖掘小組,在總裁助理林軍的帶領下,以業務需求出發用信息技術做數據挖掘,得出如下信息:在中國家庭里,旅遊通常是太太來做決策;國內家庭客戶策劃旅遊中,歐美游所需計劃決策時間最長,其次是東南亞旅遊,而國內游則是決策時間最短,經常會臨時抱佛腳說走就走。於是,中青旅根據數據挖掘分析的結果,進行旅遊產品策劃和收益管理的調整,更能針對性地滿足客戶的需求和優化客戶的體驗,而且優化之後的旅遊產品推廣效果和盈利情況更佳。
中糧大悅城(下稱「大悅城」)CIO張岩也表示,明晰業務需求才能更好地進行數據挖掘。大悅城進駐了數百家知名品牌商戶,其內部系統的數據是紛繁復雜的:包括POS數據、客流的數據、商流的數據、會員的數據等等。如果從IT的角度進行分類管理、分析價值,各個業務部門的數據差異巨大,數據分析價值很低。但改由數據創造價值或者以大悅城整體商業價值來進行分析,數據分析更有價值 。
張岩帶領數據分析團隊,優先從商業的邏輯來考慮,對大悅城歷年的銷售數據進行系統梳理,建立了符合購物中心行業特色的數據分析體系。體系中包含了品牌商戶、消費客群、項目收益3大系統模塊,做到了從3大商業經營角度綜合分析項目運轉情況。得益於這套商業分析系統,朝陽大悅城幫助入駐的500多家商戶,根據分析情況調整銷售策略,實現了朝陽大悅城銷售額年增長率近40%的高增長。
新東方教育科技集團信息管理部總監官沖認為,做數據分析和挖掘的人,一定得是懂業務的人。數據挖掘可以由外部人員來教授方法,但一定由內部人員自己實踐。只有自己更了解自己的業務,能判斷出哪類數據挖掘對企業有價值。其實,企業能用以分析的數據越全面,分析的結果就越接近於真實。大數據分析需要由業務需求為主導,這樣企業能夠從這些新的數據中獲取新的洞察力,並將其與已知業務的各個細節相融合。
大數據有大價值
愛康國賓健康管理集團每年有200萬人次的體檢數據,這些數據蘊含著黃金般的價值。這些數據能從遺傳、生活習慣、飲食等角度出發,對身體狀況跟蹤預測,對疾病早期預警,進行全方位的健康干預,進而對客戶進行有償或無償服務,成為愛康國賓一片新的業務藍海。
愛康國賓信息技術副總裁馮朝暉介紹,愛康國賓現在已經在為客戶提供一些基礎的健康管理服務,比如根據體檢指標,分析客人的常見慢性病風險,並將慢性病的預防和保健常識通過簡訊定期推送給客人。未來這項業務還會和醫院實現聯動。
在張岩的主持下,大悅城搭建商業經營預測、管理體系:以數據挖掘方式,分析大悅城的整體商業變化規律。在數據挖掘中,大悅城並不是關注確切的銷售數據,而是尋找發現在商業經營中銷售變化的規律。同時,通過大數據技術篩選評估出近百個影響銷售規律變化的主觀因素,並通過大量的計算與驗證,評估出每個影響因素的影響度指標,同時確定該影響因素相關的業務部門。最終,由近百個專項數據分析的結果,建立了全數據的大悅城經營模型(即虛擬大悅城)。從這個模型中,可以預測購物中心的經營狀況,為招商、運營、推廣各部門的工作提供了良好指導,並且成為管理層經營策略制定的重要依據。
CommVault中國區總經理徐永興表示,做企業基本要考慮3個關鍵問題:1.增加收入;2.降低成本;3.控制風險。近30年來,企業將70%以上的資金和注意力都集中在前兩項,而控制風險總是容易被忽視。CIO很多時候投入的大量的資金和精力都是在控制風險。其實,如果把數據管理做好,不但能幫CIO節省IT支出,甚至還能挖掘數據的價值,來更好地增加收入和降低成本,讓CIO更具價值。
CIO如何從數據處理轉型到數據業務?商業價值總經理萬寧談到,在社會信息化環境下,企業IT新趨勢:1.CIO競爭優勢從信息技術轉變為圍繞客戶體驗、數據分析、流程管理領域。2.相比業務流程設計,信息管理技術的重要性會更高。創建企業數字化業務模式,企業需要從技術角度、業務流程、人員角色、上升到企業企戰略層面建立數字化企業。3.集中提供的應用和基礎架構將會嵌入在業務服務之中,由企業共享的服務組織提供。
以上是小編為大家分享的關於大數據如何發揮大價值的相關內容,更多信息可以關注環球青藤分享更多干貨
『陸』 大數據挖掘有什麼方法
1.可視化分析
無論是日誌數據分析專家還是普通用戶,數據可視化都是數據分析工具的最基本要求。可視化可以直觀地顯示數據,讓數據自己說話,讓聽眾看到結果。
2.數據挖掘演算法
如果說可視化用於人們觀看,那麼數據挖掘就是給機器看的。集群、分割、孤立點分析和其他演算法使我們能夠深入挖掘數據並挖掘價值。這些演算法不僅要處理大量數據,還必須盡量縮減處理大數據的速度。
3.預測分析能力
數據挖掘使分析師可以更好地理解數據,而預測分析則使分析師可以根據可視化分析和數據挖掘的結果做出一些預測性判斷。
4.語義引擎
由於非結構化數據的多樣性給數據分析帶來了新挑戰,因此需要一系列工具來解析,提取和分析數據。需要將語義引擎設計成從“文檔”中智能地提取信息。
5.數據質量和主數據管理
數據質量和數據管理是一些管理方面的最佳實踐。通過標准化流程和工具處理數據可確保獲得預定義的高質量分析結果。
『柒』 大數據時代的數據怎麼挖掘
3月13日下午,南京郵電大學計算機學院、軟體學院院長、教授李濤在CIO時代APP微講座欄目作了題為《大數據時代的數據挖掘》的主題分享,深度詮釋了大數據及大數據時代下的數據挖掘。
眾所周知,大數據時代的大數據挖掘已成為各行各業的一大熱點。
一、數據挖掘
在大數據時代,數據的產生和收集是基礎,數據挖掘是關鍵,數據挖掘可以說是大數據最關鍵也是最基本的工作。通常而言,數據挖掘也稱為DataMining,或知識發現Knowledge Discovery from Data,泛指從大量數據中挖掘出隱含的、先前未知但潛在的有用信息和模式的一個工程化和系統化的過程。
不同的學者對數據挖掘有著不同的理解,但個人認為,數據挖掘的特性主要有以下四個方面:
1.應用性(A Combination of Theory and Application):數據挖掘是理論演算法和應用實踐的完美結合。數據挖掘源於實際生產生活中應用的需求,挖掘的數據來自於具體應用,同時通過數據挖掘發現的知識又要運用到實踐中去,輔助實際決策。所以,數據挖掘來自於應用實踐,同時也服務於應用實踐,數據是根本,數據挖掘應以數據為導向,其中涉及到演算法的設計與開發都需考慮到實際應用的需求,對問題進行抽象和泛化,將好的演算法應用於實際中,並在實際中得到檢驗。
2.工程性(An Engineering Process):數據挖掘是一個由多個步驟組成的工程化過程。數據挖掘的應用特性決定了數據挖掘不僅僅是演算法分析和應用,而是一個包含數據准備和管理、數據預處理和轉換、挖掘演算法開發和應用、結果展示和驗證以及知識積累和使用的完整過程。而且在實際應用中,典型的數據挖掘過程還是一個交互和循環的過程。
3.集合性(A Collection of Functionalities):數據挖掘是多種功能的集合。常用的數據挖掘功能包括數據探索分析、關聯規則挖掘、時間序列模式挖掘、分類預測、聚類分析、異常檢測、數據可視化和鏈接分析等。一個具體的應用案例往往涉及多個不同的功能。不同的功能通常有不同的理論和技術基礎,而且每一個功能都有不同的演算法支撐。
4.交叉性(An Interdisciplinary Field):數據挖掘是一門交叉學科,它利用了來自統計分析、模式識別、機器學習、人工智慧、信息檢索、資料庫等諸多不同領域的研究成果和學術思想。同時一些其他領域如隨機演算法、資訊理論、可視化、分布式計算和最優化也對數據挖掘的發展起到重要的作用。數據挖掘與這些相關領域的區別可以由前面提到的數據挖掘的3個特性來總結,最重要的是它更側重於應用。
綜上所述,應用性是數據挖掘的一個重要特性,是其區別於其他學科的關鍵,同時,其應用特性與其他特性相輔相成,這些特性在一定程度上決定了數據挖掘的研究與發展,同時,也為如何學習和掌握數據挖掘提出了指導性意見。如從研究發展來看,實際應用的需求是數據挖掘領域很多方法提出和發展的根源。從最開始的顧客交易數據分析(market basket analysis)、多媒體數據挖掘(multimedia data mining)、隱私保護數據挖掘(privacy-preserving data mining)到文本數據挖掘(text mining)和Web挖掘(Web mining),再到社交媒體挖掘(social media mining)都是由應用推動的。工程性和集合性決定了數據挖掘研究內容和方向的廣泛性。其中,工程性使得整個研究過程里的不同步驟都屬於數據挖掘的研究范疇。而集合性使得數據挖掘有多種不同的功能,而如何將多種功能聯系和結合起來,從一定程度上影響了數據挖掘研究方法的發展。比如,20世紀90年代中期,數據挖掘的研究主要集中在關聯規則和時間序列模式的挖掘。到20世紀90年代末,研究人員開始研究基於關聯規則和時間序列模式的分類演算法(如classification based on association),將兩種不同的數據挖掘功能有機地結合起來。21世紀初,一個研究的熱點是半監督學習(semi-supervised learning)和半監督聚類(semi-supervised clustering),也是將分類和聚類這兩種功能有機結合起來。近年來的一些其他研究方向如子空間聚類(subspace clustering)(特徵抽取和聚類的結合)和圖分類(graph classification)(圖挖掘和分類的結合)也是將多種功能聯系和結合在一起。最後,交叉性導致了研究思路和方法設計的多樣化。
前面提到的是數據挖掘的特性對研究發展及研究方法的影響,另外,數據挖掘的這些特性對如何學習和掌握數據挖掘提出了指導性的意見,對培養研究生、本科生均有一些指導意見,如應用性在指導數據挖掘時,應熟悉應用的業務和需求,需求才是數據挖掘的目的,業務和演算法、技術的緊密結合非常重要,了解業務、把握需求才能有針對性地對數據進行分析,挖掘其價值。因此,在實際應用中需要的是一種既懂業務,又懂數據挖掘演算法的人才。工程性決定了要掌握數據挖掘需有一定的工程能力,一個好的數據額挖掘人員首先是一名工程師,有很強大的處理大規模數據和開發原型系統的能力,這相當於在培養數據挖掘工程師時,對數據的處理能力和編程能力很重要。集合性使得在具體應用數據挖掘時,要做好底層不同功能和多種演算法積累。交叉性決定了在學習數據挖掘時要主動了解和學習相關領域的思想和技術。
因此,這些特性均是數據挖掘的特點,通過這四個特性可總結和學習數據挖掘。
二、大數據的特徵
大數據(bigdata)一詞經常被用以描述和指代信息爆炸時代產生的海量信息。研究大數據的意義在於發現和理解信息內容及信息與信息之間的聯系。研究大數據首先要理清和了解大數據的特點及基本概念,進而理解和認識大數據。
研究大數據首先要理解大數據的特徵和基本概念。業界普遍認為,大數據具有標準的「4V」特徵:
1.Volume(大量):數據體量巨大,從TB級別躍升到PB級別。
2.Variety(多樣):數據類型繁多,如網路日誌、視頻、圖片、地理位置信息等。
3.Velocity(高速):處理速度快,實時分析,這也是和傳統的數據挖掘技術有著本質的不同。
4.Value(價值):價值密度低,蘊含有效價值高,合理利用低密度價值的數據並對其進行正確、准確的分析,將會帶來巨大的商業和社會價值。
上述「4V」特點描述了大數據與以往部分抽樣的「小數據」的主要區別。然而,實踐是大數據的最終價值體現的唯一途徑。從實際應用和大數據處理的復雜性看,大數據還具有如下新的「4V」特點:
5.Variability(變化):在不同的場景、不同的研究目標下數據的結構和意義可能會發生變化,因此,在實際研究中要考慮具體的上下文場景(Context)。
6.Veracity(真實性):獲取真實、可靠的數據是保證分析結果准確、有效的前提。只有真實而准確的數據才能獲取真正有意義的結果。
7.Volatility(波動性)/Variance(差異):由於數據本身含有噪音及分析流程的不規范性,導致採用不同的演算法或不同分析過程與手段會得到不穩定的分析結果。
8.Visualization(可視化):在大數據環境下,通過數據可視化可以更加直觀地闡釋數據的意義,幫助理解數據,解釋結果。
綜上所述,以上「8V」特徵在大數據分析與數據挖掘中具有很強的指導意義。
三、大數據時代下的數據挖掘
在大數據時代,數據挖掘需考慮以下四個問題:
大數據挖掘的核心和本質是應用、演算法、數據和平台4個要素的有機結合。
因為數據挖掘是應用驅動的,來源於實踐,海量數據產生於應用之中。需用具體的應用數據作為驅動,以演算法、工具和平台作為支撐,最終將發現的知識和信息應用到實踐中去,從而提供量化的、合理的、可行的、且能產生巨大價值的信息。
挖掘大數據中隱含的有用信息需設計和開發相應的數據挖掘和學習演算法。演算法的設計和開發需以具體的應用數據作為驅動,同時在實際問題中得到應用和驗證,而演算法的實現和應用需要高效的處理平台,這個處理平台可以解決波動性問題。高效的處理平台需要有效分析海量數據,及時對多元數據進行集成,同時有力支持數據化對演算法及數據可視化的執行,並對數據分析的流程進行規范。
總之,應用、演算法、數據、平台這四個方面相結合的思想,是對大數據時代的數據挖掘理解與認識的綜合提煉,體現了大數據時代數據挖掘的本質與核心。這四個方面也是對相應研究方面的集成和架構,這四個架構具體從以下四個層面展開:
應用層(Application):關心的是數據的收集與演算法驗證,關鍵問題是理解與應用相關的語義和領域知識。
數據層(Data):數據的管理、存儲、訪問與安全,關心的是如何進行高效的數據使用。
演算法層(Algorithm):主要是數據挖掘、機器學習、近似演算法等演算法的設計與實現。
平台層(Infrastructure):數據的訪問和計算,計算平台處理分布式大規模的數據。
綜上所述,數據挖掘的演算法分為多個層次,在不同的層面有不同的研究內容,可以看到目前在做數據挖掘時的主要研究方向,如利用數據融合技術預處理稀疏、異構、不確定、不完整以及多來源數據;挖掘復雜動態變化的數據;測試通過局部學習和模型融合所得到的全局知識,並反饋相關信息給預處理階段;對數據並行分布化,達到有效使用的目的。
四、大數據挖掘系統的開發
1.背景目標
大數據時代的來臨使得數據的規模和復雜性都出現爆炸式的增長,促使不同應用領域的數據分析人員利用數據挖掘技術對數據進行分析。在應用領域中,如醫療保健、高端製造、金融等,一個典型的數據挖掘任務往往需要復雜的子任務配置,整合多種不同類型的挖掘演算法以及在分布式計算環境中高效運行。因此,在大數據時代進行數據挖掘應用的一個當務之急是要開發和建立計算平台和工具,支持應用領域的數據分析人員能夠有效地執行數據分析任務。
之前提到一個數據挖掘有多種任務、多種功能及不同的挖掘演算法,同時,需要一個高效的平台。因此,大數據時代的數據挖掘和應用的當務之急,便是開發和建立計算平台和工具,支持應用領域的數據分析人員能夠有效地執行數據分析任務。
2.相關產品
現有的數據挖掘工具
有Weka、SPSS和SQLServer,它們提供了友好的界面,方便用戶進行分析,然而這些工具並不適合進行大規模的數據分析,同時,在使用這些工具時用戶很難添加新的演算法程序。
流行的數據挖掘演算法庫
如Mahout、MLC++和MILK,這些演算法庫提供了大量的數據挖掘演算法。但這些演算法庫需要有高級編程技能才能進行任務配置和演算法集成。
最近出現的一些集成的數據挖掘產品
如Radoop和BC-PDM,它們提供友好的用戶界面來快速配置數據挖掘任務。但這些產品是基於Hadoop框架的,對非Hadoop演算法程序的支持非常有限。沒有明確地解決在多用戶和多任務情況下的資源分配。
3.FIU-Miner
為解決現有工具和產品在大數據挖掘中的局限性,我們團隊開發了一個新的平台——FIU-Miner,它代表了A Fast,Integrated,and User-Friendly System for Data Miningin Distributed Environment。它是一個用戶友好並支持在分布式環境中進行高效率計算和快速集成的數據挖掘系統。與現有數據挖掘平台相比,FIU-Miner提供了一組新的功能,能夠幫助數據分析人員方便並有效地開展各項復雜的數據挖掘任務。
與傳統的數據挖掘平台相比,它提供了一些新的功能,主要有以下幾個方面:
A.用戶友好、人性化、快速的數據挖掘任務配置。基於「軟體即服務」這一模式,FIU-Miner隱藏了與數據分析任務無關的低端細節。通過FIU-Miner提供的人性化用戶界面,用戶可以通過將現有演算法直接組裝成工作流,輕松完成一個復雜數據挖掘問題的任務配置,而不需要編寫任何代碼。
B.靈活的多語言程序集成。允許用戶將目前最先進的數據挖掘演算法直接導入系統演算法庫中,以此對分析工具集合進行擴充和管理。同時,由於FIU-Miner能夠正確地將任務分配到有合適運行環境的計算節點上,所以對這些導入的演算法沒有實現語言的限制。
C.異構環境中有效的資源管理。FIU-Miner支持在異構的計算環境中(包括圖形工作站、單個計算機、和伺服器等)運行數據挖掘任務。FIU-Miner綜合考慮各種因素(包括演算法實現、伺服器負載平衡和數據位置)來優化計算資源的利用率。
D.有效的程序調度和執行。
應用架構上包括用戶界面層、任務和系統管理層、邏輯資源層、異構的物理資源層。這種分層架構充分考慮了海量數據的分布式存儲、不同數據挖掘演算法的集成、多重任務的配置及系統用戶的交付功能。一個典型的數據挖掘任務在應用之中需要復雜的主任務配置,整合多種不同類型的挖掘演算法。因此,開發和建立這樣的計算平台和工具,支持應用領域的數據分析人員進行有效的分析是大數據挖掘中的一個重要任務。
FIU-Miner系統用在了不同方面:如高端製造業、倉庫智能管理、空間數據處理等,TerraFly GeoCloud是建立在TerraFly系統之上的、支持多種在線空間數據分析的一個平台。提供了一種類SQL語句的空間數據查詢與挖掘語言MapQL。它不但支持類SQL語句,更重要的是可根據用戶的不同要求,進行空間數據挖掘,渲染和畫圖查詢得到空間數據。通過構建空間數據分析的工作流來優化分析流程,提高分析效率。
製造業是指大規模地把原材料加工成成品的工業生產過程。高端製造業是指製造業中新出現的具有高技術含量、高附加值、強競爭力的產業。典型的高端製造業包括電子半導體生產、精密儀器製造、生物制葯等。這些製造領域往往涉及嚴密的工程設計、復雜的裝配生產線、大量的控制加工設備與工藝參數、精確的過程式控制制和材料的嚴格規范。產量和品質極大地依賴流程管控和優化決策。因此,製造企業不遺餘力地採用各種措施優化生產流程、調優控制參數、提高產品品質和產量,從而提高企業的競爭力。
在空間數據處理方面,TerraFly GeoCloud對多種在線空間數據分析。對傳統數據分析而言,其難點在於MapQL語句比較難寫,任務之間的關系比較復雜,順序執行之間空間數據分許效率較低。而FIU-Miner可有效解決以上三個難點。
總結而言,大數據的復雜特徵對數據挖掘在理論和演算法研究方面提出了新的要求和挑戰。大數據是現象,核心是挖掘數據中蘊含的潛在信息,並使它們發揮價值。數據挖掘是理論技術和實際應用的完美結合。數據挖掘是理論和實踐相結合的一個例子。
『捌』 大數據如何體現其價值
第一、幫助企業尋找更多的市場機會
基於用戶分析的基礎上,企業可以獲得更好的產品和營銷的創意和概念,怎麼去搜集到更多的用戶信息,挖掘可能有的市場機會,這是大數據幫助企業實現的最好方法。
第二、幫助企業提高決策的科學合理性
從大數據誕生的時候來講,它都是站在企業的決策角度出發,從數據的數量到數據的本質,數據越多,管理者進行決策的時候所依據的信息完整性就會越高。
第三、幫助企業找到人員管理新模式
企業的員工是無條件的服從上級的管理,還是內部一盤散沙,企業的管理效率高不高,在競爭環境日益激烈的今天,對於企業來說,管理高不高效直接關繫到企業的經營效益高不高效,大數據與企業的核心管理因素相結合,成為企業的資產之一,大數據的成果可以進行企業內部共享,對於企業來說,這是一個變革的機會。
第四、幫助企業提供更加個性化的服務
彈性管理,個性化領導,每一個員工都可以得到更加個性化的培訓,每一個用戶都可以得到更加個性化的服務,對於企業來說這種個性化的創新無疑要依靠大數據技術的支持和發展。
『玖』 如何從大數據中獲取價值
同時,大數據對公共部門效益的提升也具有巨大的潛能。如果美國醫療機構能夠有效地利用大數據驅動醫療效率和質量的提高,它們每年將能夠創造超過3萬億美元的價值。其中三分之二是醫療支出的減少,占支出總額超過8%的份額。在歐洲發達國家,政府管理部門利用大數據改進效率,能夠節約超過14900億美元,這還不包括利用大數據來減少欺詐,增加稅收收入等方面的收益。" 那麼,CIO應該採取什麼步驟、轉變IT基礎設施來充分利用大數據並最大化獲得大數據的價值呢?我相信用管理創新的方式來處理大數據是一個很好的方法。創新管道(Innovation pipelines)為了最終財務價值的實現從概念到執行自始至終進行全方位思考。對待大數據也可以從相似的角度來考慮:將數據看做是一個信息管道(information pipeline),從數據採集、數據訪問、數據可用性到數據分析(4A模型)。CIO需要在這四個層面上更改他們的信息基礎設施,並運用生命周期的方式將大數據和智能計算技術結合起來。 大數據4A模型 4A模型中的4A具體如下: 數據訪問(Access):涵蓋了實時地及通過各種資料庫管理系統來安全地訪問數據,包括結構化數據和非結構化數據。就數據訪問來說,在你實施越來越多的大數據項目之前,優化你的存儲策略是非常重要的。通過評估你當前的數據存儲技術並改進、加強你的數據存儲能力,你可以最大限度地利用現有的存儲投資。EMC曾指出,當前每兩年數據量會增長一倍以上。數據管理成本是一個需要著重考慮的問題。 數據可用性(Availability):涵蓋了基於雲或者傳統機制的數據存儲、歸檔、備份、災難恢復等。 數據分析(Analysis):涵蓋了通過智能計算、IT裝置以及模式識別、事件關聯分析、實時及預測分析等分析技術進行數據分析。CIO可以從他們IT部門自身以及在更廣泛的范圍內尋求大數據的價值。 用信息管道(information pipeline)的方式來思考企業的數據,從原始數據中產出高價值回報,CIO可以使企業獲得競爭優勢、財務回報。通過對數據的完整生命周期進行策略性思考並對4A模型中的每一層面都做出詳細的部署計劃,企業必定會從大數據中獲得巨大收益。
『拾』 如何通過數據分析挖掘數據價值
【導讀】隨著科技的高速開展,數據在人們生活和決議計劃中所佔的比重越來越大,大數據的熱浪已然覆蓋了整個時代。大數據一直在活躍賦能很多工業,包括金融、醫療、農業、教育等。那麼,如何經過數據剖析發掘數據價值呢?今日就跟隨小編一起來了解下吧!
無論是在政務范疇仍是商業范疇,依賴於大數據技能的數據剖析總是為行業提供決議計劃支撐。因為大數據是從量變到質變的過程,加之數據被廣泛發掘,決議計劃根據的信息完整性越來越高,根據信息的理性決議計劃要高於以往拍腦袋的盲目決議計劃。
微觀層面中,大數據使得經濟決議計劃部分可以愈加敏銳的掌握經濟走向,並制定實施科學的經濟決議計劃;在微觀層面中,大數據可以進步企業經營決議計劃水平緩效率,推進立異,給企業以及所在的行業范疇帶來價值。
大數據不光要有數據,還要精分跟相應的行業相結合,產生幫助企業實際運營的產品,這樣數據才有價值。若想依託大數據把脈企業經營現狀,猜測行業開展趨勢,就需要不斷對數據源進行有用的挑選、清洗,做到精準剖析,不然得到的成果有可能是南轅北轍,於商業無益。
需要經過數據剖析,對數據來歷進行全方位挑選、清洗,同時打通各行業、各范疇的數據孤島,實現數據的整合、有用剖析,最大化數據剖析成果的精準度。經過對數據收集、傳輸、挑選、清洗、交融、剖析、計算及可視化使用等,高效整合線上線下數據,進行深層次、廣范圍的數據關聯剖析,解決企業全方位數據剖析問題,降低數據剖析本錢,助力企業深度發掘數據價值。
數據剖析的中心作業是人對數據目標的剖析、考慮和解讀,人腦所能承載的數據量是極端有限的。所以,無論是「傳統數據剖析」,仍是「大數據剖析」,均需要將原始數據依照剖析思路進行計算處理,得到概要性的計算成果供人剖析。兩者在這個過程中是相似的,區別僅僅原始數據量巨細所導致處理方式的不同。
以上就是小編今天給大家整理分享關於「如何通過數據分析挖掘數據價值?」的相關內容希望對大家有所幫助。小編認為要想在大數據行業有所建樹,需要考取部分含金量高的數據分析師證書,這樣更有核心競爭力與競爭資本。