A. 產品經理必會的10種數據分析方法
產品經理必會的10種數據分析方法
隨著人口和流量紅利的下降,互聯網行業必然會朝著精益化運營的方向發展。數據分析在很多互聯網人的工作中越發顯得重要,而對於產品經理來說,更是如此。
本文將為產品經理介紹數據分析的基本思路,並基於此,衍生出 2 個常見方法和 7 個應用手段,希望在數據分析的實際應用中能給大家帶來幫助。
一、數據分析的基本思路數據分析應該以業務場景為起始思考點,以業務決策作為終點。
基本思路為 5 步,首先要挖掘業務含義、制定分析計劃、從分析計劃中拆分出需要的數據、再根據數據分析的手段提煉業務洞察,最終產出商業決策。
接下來我們用一個案例來具體說明這 5 步思路:某國內 P2P 借貸類網站,市場部在網路和 hao123 上都有持續的廣告投放,吸引網頁端流量;最近內部同事建議嘗試投放 Google 的 SEM;另外,也需要評估是否加入金山網路聯盟進行深度廣告投放。在這種多渠道的投放場景下,產品經理該如何進行深度決策?1. 挖掘業務含義
首先要了解市場部想優化什麼,並以此為核心的 KPI 去衡量。渠道效果的評估,最重要的是業務轉化:對 P2P 類網站來說,是否『發起借貸』遠遠比『用戶數量』重要。
所以無論是 Google 還是金山渠道,都要根據用戶群體的不同,優化相應用戶的落地頁,提升轉化。
2. 制定分析計劃
以『發起借貸』為核心轉化點,分配一定的預算進行流量測試,觀察對比注冊數量及 ROI 效果,可以持續觀察這部分用戶的後續價值。
3. 拆分查詢數據
根據各個渠道追蹤流量、落地頁停留時間、落地頁跳出率、網站訪問深度以及訂單類型數據,進行用戶分群。
4.提煉業務洞察
在不同渠道進行投放時,要根據 KPI 的變化,推測業務含義。比如谷歌渠道的效果不好,可能因為谷歌大部分的流量在海外,可能會造成轉化率低。而金山網路聯盟有很多展示位置,要持續監測不同位置的效果,做出最後判斷。
5.產出商業決策
最後根據數據洞察,指導渠道的投放決策制。比如停止谷歌渠道的投放,繼續跟進金山網路聯盟進行評估,而落地頁要根據數據指標持續地進行優化。
二、常見的數據分析方法(一)內外因素分解法內外因素分解法是把問題拆成四部分,包括內部因素、外部因素、可控和不可控,然後再一步步解決每一個問題。
社交招聘類網站,一般分為求職者端和企業端,向企業端收費方式之一是購買職位的廣告位。業務端人員發現『發布職位』數量在過去的 6 個月里有緩慢下降的趨勢。
對於這類某一數據下降的問題,從產品經理的角度來說,可以如何拆解?
根據內外因素分解法分析如下:
1.內部可控因素
產品近期上線更新、市場投放渠道變化、產品粘性、新老用戶留存問題、核心目標的轉化;
2.外部可控因素
市場競爭對手近期行為、用戶使用習慣的變化、招聘需求隨時間的變化;
3.內部不可控因素
產品策略(移動端/PC端)、公司整體戰略、公司客戶群定位(比如只做醫療行業招聘);
4.外部不可控因素
互聯網招聘行業趨勢、整體經濟形勢、季節性變化;
(二)DOSSDOSS 是從一個具體問題拆分到整體影響,從單一的解決方案找到一個規模化解決方案的方式。
某在線教育平台,提供免費課程視頻,同時售賣付費會員,為付費會員提供更多高階課程內容。如果我想將一套計算機技術的付費課程,推送給一群持續在看 C++ 免費課程的用戶,產品經理應該如何輔助分析?按 DOSS 的思路分解如下:
1.具體問題
預測是否有可能幫助某一群組客戶購買課程。
2.整體
首先根據這類人群的免費課程的使用情況進行數據分析,之後進行延伸,比如對整體的影響,除了計算機類,對其他類型的課程都進行關注。
3.單一回答
針對該群用戶進行建模,監控該模型對於最終轉化的影響。
4.規模化
之後推出規模化的解決方案,對符合某種行為軌跡和特徵的行為進行建模,將課程推薦模型加入到產品設計中。
三、數據分析的應用手段根據基本分析思路,常見的有 7 種數據分析的手段。(一)畫像分群畫像分群是聚合符合某中特定行為的用戶,進行特定的優化和分析。
比如在考慮注冊轉化率的時候,需要區分移動端和 Web 端,以及美國用戶和中國用戶等不同場景。這樣可以在渠道策略和運營策略上,有針對性地進行優化。(二)趨勢維度
建立趨勢圖表可以迅速了解市場, 用戶或產品特徵的基本表現,便於進行迅速迭代;還可以把指標根據不同維度進行切分,定位優化點,有助於決策的實時性;(三)漏斗洞察通過漏斗分析可以從先到後的順序還原某一用戶的路徑,分析每一個轉化節點的轉化數據;
所有互聯網產品、數據分析都離不開漏斗,無論是注冊轉化漏斗,還是電商下單的漏斗,需要關注的有兩點。第一是關注哪一步流失最多,第二是關注流失的人都有哪些行為。
關注注冊流程的每一個步驟,可以有效定位高損耗節點。
(四)行為軌跡
行為軌跡是進行全量用戶行為的還原。只看 PV、UV 這類數據,無法全面理解用戶如何使用你的產品。了解用戶的行為軌跡,有助於運營團隊關注具體的用戶體驗,發現具體問題,根據用戶使用習慣設計產品,投放內容;(五)留存分析留存是了解行為或行為組與回訪之間的關聯,留存老用戶的成本要遠遠低於獲取新用戶,所以分析中的留存是非常重要的指標之一;
除了需要關注整體用戶的留存情況之外,市場團隊可以關注各個渠道獲取用戶的留存度,或各類內容吸引來的注冊用戶回訪率,產品團隊關注每一個新功能對於用戶的回訪的影響等。(六)A/B 測試A/B 測試是對比不同產品設計/演算法對結果的影響。
產品在上線過程中經常會使用 A/B 測試來測試產品效果,市場可以通過 A/B 測試來完成不同創意的測試。
要進行 A/B 測試有兩個必備因素:
1.有足夠的時間進行測試;
2.數據量和數據密度較高;
因為當產品流量不夠大的時候,做 A/B 測試得到統計結果是很難的。而像 LinkedIn 這樣體量的公司,每天可以同時進行上千個 A/B 測試。所以 A/B 測試往往公司數據規模較大時使用會更加精準,更快得到統計的結果。
(七)優化建模當一個商業目標與多種行為、畫像等信息有關聯性時,我們通常會使用數據挖掘的手段進行建模,預測該商業結果的產生;
例如:作為一家 SaaS 企業,當我們需要預測判斷客戶的付費意願時,可以通過用戶的行為數據,公司信息,用戶畫像等數據建立付費溫度模型。用更科學的方式進行一些組合和權重,得知用戶滿足哪些行為之後,付費的可能性會更高。
以上這幾種數據分析的方法論,僅僅掌握單純的理論是不行的。產品經理們需要將這些方法論應用到日常的數據分析工作中,融會貫通。同時學會使用優秀的數據分析工具,可以事半功倍,更好的利用數據,實現整體增長。
B. 如何進行大數據分析及處理
1.可視化分析
大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對於大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
2. 數據挖掘演算法
大數據分析的理論核心就是數據挖掘演算法,各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統計 學家所公認的各種統計方法(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。
另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據,如 果一個演算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。
3. 預測性分析
大數據分析最終要的應用領域之一就是預測性分析,從大數據中挖掘出特點,通過科學的建立模型,之後便可以通過模型帶入新的數據,從而預測未來的數據。
4. 語義引擎
非結構化數據的多元化給數據分析帶來新的挑戰,我們需要一套工具系統的去分析,提煉數據。
語義引擎需要設計到有足夠的人工智慧以足以從數據中主動地提取信息。
5.數據質量和數據管理。
大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面,當然更加深入大數據分析的話,還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。
大數據的技術
數據採集: ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取: 關系資料庫、NOSQL、SQL等。
基礎架構: 雲存儲、分布式文件存儲等。
數據處理: 自然語言處理(NLP,Natural Language Processing)是研究人與計算機交互的語言問題的一門學科。
處理自然語言的關鍵是要讓計算機」理解」自然語言,所以自然語言處理又叫做自然語言理解也稱為計算語言學。
一方面它是語言信息處理的一個分支,另一方面它是人工智慧的核心課題之一。
統計分析: 假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、 方差分析 、 卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、 因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
數據挖掘: 分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測 :預測模型、機器學習、建模模擬。
結果呈現: 雲計算、標簽雲、關系圖等。
大數據的處理
1. 大數據處理之一:採集
大數據的採集是指利用多個資料庫來接收發自客戶端(Web、App或者感測器形式等)的 數據,並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。
比如,電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據,除 此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時有可能會有成千上萬的用戶 來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。
並且如何在這些資料庫之間 進行負載均衡和分片的確是需要深入的思考和設計。
2. 大數據處理之二:導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些海量數據進行有效的分析,還是應該將這 些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。
也有一些用戶會在導入時使 用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
3. 大數據處理之三:統計/分析
統計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通 的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於 MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
4. 大數據處理之四:挖掘
與前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數 據上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。
比較典型演算法有用於聚類的Kmeans、用於 統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。
該過程的特點和挑戰主要是用於挖掘的演算法很復雜,並 且計算涉及的數據量和計算量都很大,常用數據挖掘演算法都以單線程為主。
整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。
C. 如何正確進行數據分析
大數據分析處理解決方案
方案闡述
每天,中國網民通過人和人的互動,人和平台的互動,平台與平台的互動,實時生產海量數據。這些數據匯聚在一起,就能夠獲取到網民當下的情緒、行為、關注點和興趣點、歸屬地、移動路徑、社會關系鏈等一系列有價值的信息。
數億網民實時留下的痕跡,可以真實反映當下的世界。微觀層面,我們可以看到個體們在想什麼,在干什麼,及時發現輿情的弱信號。宏觀層面,我們可以看到當下的中國正在發生什麼,將要發生什麼,以及為什麼?藉此可以觀察輿情的整體態勢,洞若觀火。
原本分散、孤立的信息通過分析、挖掘具有了關聯性,激發了智慧感知,感知用戶真實的態度和需求,輔助政府在智慧城市,企業在品牌傳播、產品口碑、營銷分析等方面的工作。
所謂未雨綢繆,防患於未然,最好的輿情應對處置莫過於讓輿情事件不發生。除了及時發現問題,大數據還可以幫我們預測未來。具體到輿情服務,輿情工作人員除了對輿情個案進行數據採集、數據分析之外,還可以通過大數據不斷增強關聯輿情信息的分析和預測,把服務的重點從單純的收集有效數據向對輿情的深入研判拓展,通過對同類型輿情事件歷史數據,及影響輿情演進變化的其他因素進行大數據分析,提煉出相關輿情的規律和特點。
大數據時代的輿情管理不再局限於危機解決,而是梳理出危機可能產生的各種條件和因素,以及從負面信息轉化成輿情事件的關鍵節點和衡量指標,增強我們對同類型輿情事件的認知和理解,幫助我們更加精準的預測未來。
用大數據引領創新管理。無論是政府的公共事務管理還是企業的管理決策都要用數據說話。政府部門在出台社會規范和政策時,採用大數據進行分析,可以避免個人意志帶來的主觀性、片面性和局限性,可以減少因缺少數據支撐而帶來的偏差,降低決策風險。通過大數據挖掘和分析技術,可以有針對性地解決社會治理難題;針對不同社會細分人群,提供精細化的服務和管理。政府和企業應建立資料庫資源的共享和開放利用機制,打破部門間的「信息孤島」,加強互動反饋。通過搭建關聯領域的資料庫、輿情基礎資料庫等,充分整合外部互聯網數據和用戶自身的業務數據,通過數據的融合,進行多維數據的關聯分析,進而完善決策流程,使數據驅動的社會決策與科學治理常態化,這是大數據時代輿情管理在服務上的延伸。
解決關鍵
如何能夠快速的找到所需信息,採集是大數據價值挖掘最重要的一環,其後的集成、分析、管理都構建於採集的基礎,多瑞科輿情數據分析站的採集子系統和分析子系統可以歸類熱點話題列表、發貼數量、評論數量、作者個數、敏感話題列表自動摘要、自動關鍵詞抽取、各類別趨勢圖表;在新聞類報表識別分析歸類:標題、出處、發布時間、內容、點擊次數、評論人、評論內容、評論數量等;在論壇類報表識別分析歸類:帖子的標題、發言人、發布時間、內容、回帖內容、回帖數量等。
解決方案
多瑞科輿情數據分析站系統擁有自建獨立的大數據中心,伺服器集中採集對新聞、論壇、微博等多種類型互聯網數據進行7*24小時不間斷實時採集,具備上千億數據量的數據索引、挖掘分析和存儲能力,支撐政府、企業、媒體、金融、公安等多行業用戶的輿情分析雲服務。因此多瑞科輿情數據分析站系統在這方面有著天然優勢,也是解決信息數量和信息(有價值的)獲取效率之間矛盾的唯一途徑,系統利用各種數據挖掘技術將產生人工無法替代的效果,為市場調研工作節省巨大的人力經費開支。
D. 詳細數據分析步驟(一)-數據獲取
數據分析師如今風靡全網,那麼什麼是數據分析呢?此合集將會頃螞對數據分析的框架做一個細致解析並推薦相關文章以便入門學習。
一、數據獲取
現如今大數據時代已經到來,企業需要數據來分析用戶行為、雀大埋自己產品的不足之處以及競爭對手的信息等,而這一切的首要條件就是數據的採集。常用的數據獲取手段有數據倉庫和操作日誌,監測與爬取(即爬蟲),填寫、埋點和計算
1、數據倉庫和操作日誌
數據倉庫(Data Warehouse,DW)長期儲存在計算機內,有組織、可共享的數據集合,是為決策支持系統提供基礎數據的分析型資料庫。
數據倉庫有幾個定義特徵,即 :
推薦閱讀:一、數據倉庫 - 架構藝術 - 博客園
日誌和數據倉庫具有相同的作用,但相比之下日誌的記錄比數據倉庫精簡,且在出現故障時更容易定位問題。
2.監測與爬取
爬蟲是指: 通過編寫程序,模擬瀏覽器上網,然後讓其去互聯網上抓取數據的過程。
根據使用場景,網路爬蟲可分為通用爬蟲和聚焦爬蟲兩種。
通用爬蟲是捜索引擎抓取系統(Bai、Google等)的重要組成部分。主要目的是將互聯網上的網頁下載到本地,形成一個互聯網內容的鏡像備份。 簡單來講就是盡可能的;把互聯網上的所有的網頁下載下來,放到本地伺服器里形成備分,再對這些網頁做相關處理(提取關鍵字、去掉廣告),最後提供一個用戶檢索介面。
聚焦爬蟲,是"面向特定主題需求"的一種網路爬蟲程序,它與通用搜索引擎爬蟲的區別在於: 聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選,盡量保證只抓取與需求相關的網頁信息。
推薦閱讀:爬蟲(爬蟲原理與數據抓取) - lclc - 博客園
爬蟲 - Z-J-H - 博客園
3.填寫、埋點
這兩個都是對用戶行為進行記錄。
填寫是指用戶在注冊時填寫信息或者對相關問卷進行填寫。 通過問卷調查、抽樣調查獲取的數據是有限的,並且有時也不能夠保證真實性。
埋點主要指 APP或網頁埋點,跟蹤app或網頁被使用情況,以便優化。通常記錄訪客、頁仿喊面查看、跳出率等等頁面統計和操作行為)。直接記錄用戶與網路產品的交互過程,幾乎可以復現,從而 獲得用戶的行為模式,購買記錄、搜索習慣等。這些數據都是用戶自己產生的,可以保證數據的真實性。
推薦閱讀:6大步驟:快速學會如何進行數據埋點
4.計算
很多數據無法直接獲取,需要通過已有數據計算得到。例如企業的投入產出比。
最後,需要強調的是進行數據分析的數據必須真實、准確且具有時效性。數據獲取後使用個人信息要遵守以下5大原則:
(1)合法、公開原則。
(2)目的限制原則。
(3)最小數據原則。
(4)數據安全原則。
(5)限期存儲原則。
下一篇文章將會對數據分析中的數據預處理做一個簡單梳理
E. 如何對百萬級的數據進行數據分析
1.可視化分析
大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對於大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
2. 數據挖掘演算法
大數據分析的理論核心就是數據挖掘演算法,各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統
計
學家所公認的各種統計方法(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據,如
果一個演算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。
3. 預測性分析
大數據分析最終要的應用領域之一就是預測性分析,從大數據中挖掘出特點,通過科學的建立模型,之後便可以通過模型帶入新的數據,從而預測未來的數據。
4. 語義引擎
非結構化數據的多元化給數據分析帶來新的挑戰,我們需要一套工具系統的去分析,提煉數據。語義引擎需要設計到有足夠的人工智慧以足以從數據中主動地提取信息。
5.數據質量和數據管理。 大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面,當然更加深入大數據分析的話,還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。
大數據的技術
數據採集: ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取: 關系資料庫、NOSQL、SQL等。
基礎架構: 雲存儲、分布式文件存儲等。
數
據處理: 自然語言處理(NLP,Natural Language
Processing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機」理解」自然語言,所以自然語言處理又叫做自然語言理
解也稱為計算語言學。一方面它是語言信息處理的一個分支,另一方面它是人工智慧的核心課題之一。
統計分析:
假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、 方差分析 、
卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、
因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
數
據挖掘: 分類
(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity
grouping or association rules)、聚類(Clustering)、描述和可視化、Description and
Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測 :預測模型、機器學習、建模模擬。
結果呈現: 雲計算、標簽雲、關系圖等。
大數據的處理
1. 大數據處理之一:採集
大
數據的採集是指利用多個資料庫來接收發自客戶端(Web、App或者感測器形式等)的
數據,並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據,除
此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時
有可能會有成千上萬的用戶
來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間
進行負載均衡和分片的確是需要深入的思考和設計。
2. 大數據處理之二:導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些
海量數據進行有效的分析,還是應該將這
些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使
用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
3. 大數據處理之三:統計/分析
統
計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通
的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於
MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
4. 大數據處理之四:挖掘
與
前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數
據上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於
統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜,並
且計算涉及的數據量和計算量都很大,常用數據挖掘演算法都以單線程為主。
整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。