『壹』 如何建立數據分析的思維框架
曾經有人問過我,什麼是數據分析思維?如果分析思維是一種結構化的體現,那麼數據分析思維在它的基礎上再加一個准則:
不是我覺得,而是數據證明
這是一道分水嶺,「我覺得」是一種直覺化經驗化的思維,工作不可能處處依賴自己的直覺,公司發展更不可能依賴於此。數據證明則是數據分析的最直接體現,它依託於數據導向型的思維,而不是技巧,前者是指導,後者只是應用。
作為個人,應該如何建立數據分析思維呢?
丨建立你的指標體系
在我們談論指標之前,先將時間倒推幾十年,現代管理學之父彼得·德魯克說過一句很經典的話:
如果你不能衡量它,那麼你就不能有效增長它。
所謂衡量,就是需要統一標准來定義和評價業務。這個標准就是指標。假設隔壁老王開了一家水果鋪子,你問他每天生意怎麼樣,他可以回答賣的不錯,很好,最近不景氣。這些都是很虛的詞,因為他認為賣的不錯也許是賣了 50 個,而你認為的賣的不錯,是賣了 100 。
這就是「我覺得」造成的認知陷阱。將案例放到公司時,會遇到更多的問題:若有一位運營和你說,產品表現不錯,因為每天都有很多人評價和稱贊,還給你看了幾個截圖。而另外一位運營說,產品有些問題,推的活動商品賣的不好,你應該相信誰呢?
其實誰都很難相信,這些眾口異詞的判斷都是因為缺乏數據分析思維造成的。
老王想要描述生意,他應該使用銷量,這就是他的指標,互聯網想要描述產品,也應該使用活躍率、使用率、轉化率等指標。
如果你不能用指標描述業務,那麼你就不能有效增長它。
了解和使用指標是數據分析思維的第一步,接下來你需要建立指標體系,孤立的指標發揮不出數據的價值。和分析思維一樣,指標也能結構化,也應該用結構化。
我們看一下互聯網的產品,一個用戶從開始使用到離開,都會經歷這些環節步驟。電商APP還是內容平台,都是雷同的。想一想,你會需要用到哪些指標?
而下面這張圖,解釋了什麼是指標化,這就是有無數據分析思維的差異,也是典型的數據化運營,有空可以再深入講這塊。
指標體系沒有放之四海而皆準的模板,不同業務形態有不同的指標體系。移動 APP 和網站不一樣, SaaS 和電子商務不一樣,低頻消費和高頻消費不一樣。好比一款婚慶相關的 APP ,不需要考慮復購率指標;互聯網金融,必須要風控指標;電子商務,賣家和買家的指標各不一樣。
這些需要不同行業經驗和業務知識去學習掌握,那有沒有通用的技巧和注意事項呢?
丨好指標與壞指標
不是所有的指標都是好的。這是初出茅廬者常犯的錯誤。我們繼續回到老王的水果鋪子,來思考一下,銷量這個指標究竟是不是好的?
丨最近物價上漲,老王順應調高了水果價格,又不敢漲的提高,雖然水果銷量沒有大變化,但老王發現一個月下來沒賺多少,私房錢都不夠存。
丨老王這個月的各類水果銷量有 2000 ,但最後還是虧本了,仔細研究後發現,雖然銷量高,但是水果庫存也高,每個月都有幾百單位的水果滯銷最後過期虧本。
這兩個例子都能說明只看銷量是一件多不靠譜的事情。銷量是一個衡量指標,但不是好指標。老王這種個體經營戶,應該以水果鋪子的利潤為核心要素。
好指標應該是核心驅動指標。雖然指標很重要,但是有些指標需要更重要。就像銷量和利潤,用戶數和活躍用戶數,後者都比前者重要。
核心指標不只是寫在周報的數字,而是整個運營團隊、產品團隊乃至研發團隊都統一努力的目標。
核心驅動指標和公司發展關聯,是公司在一個階段內的重點方向。記住是一個階段,不同時期的核心驅動指標不一樣。不同業務的核心驅動指標也不一樣。
互聯網公司常見的核心指標是用戶數和活躍率,用戶數代表市場的體量和佔有,活躍率代表產品的健康度,但這是發展階段的核心指標。在產品 1.0 期間,我們應把注意力放到打磨產品上,在大推廣前提高產品質量,這時留存率是一個核心指標。而在有一定用戶基數的產品後期,商業化比活躍重要,我們會關注錢相關的指標,比如廣告點擊率、利潤率等。
核心驅動指標一般是公司整體的目標,若從個人的崗位職責看,也可以找到自己的核心指標。比如內容運營可以關注閱讀數和閱讀時長。
核心驅動指標一定能給公司和個人帶來最大優勢和利益,記得二八法則么?20%的指標一定能帶來 80% 的效果,這 20% 的指標就是核心。
另外一方面,好的指標還有一個特性,它應該是比率或者比例。
拿活躍用戶數說明就懂了,我們活躍用戶有 10 萬,這能說明什麼呢?這說明不了什麼。如果產品本身有千萬級別的注冊用戶,那麼 10 萬用戶說明非常不健康,產品在衰退期。如果產品只擁有四五十萬用戶,那麼說明產品的粘性很高。
正因為單純的活躍用戶數沒有多大意義,所以運營和產品會更關注活躍率。這個指標就是一個比率,將活躍用戶數除以總用戶數所得。所以在設立指標時,我們都盡量想它能不能是比率。
壞指標有哪些呢?
其一是虛榮指標,它沒有任何的實際意義。
產品在應用商店有幾十萬的曝光量,有意義嗎?沒有,我需要的是實際下載。下載了意義大嗎?也不大,我希望用戶注冊成功。曝光量和下載量都是虛榮指標,只是虛榮程度不一樣。
新媒體都追求微信公眾號閱讀數,如果靠閱讀數做廣告,那麼閱讀數有意義,如果靠圖文賣商品,那麼更應該關注轉化率和商品銷量,畢竟一個誇張的標題就能帶來很高的閱讀量,此時的閱讀量是虛榮指標。可惜很多老闆還是孜孜不倦的追求 10W+ ,哪怕刷量。
虛榮指標是沒有意義的指標,往往它會很好看,能夠粉飾運營和產品的工作績效,但我們要避免使用。
第二個壞指標是後驗性指標,它往往只能反應已經發生的事情。
比如我有一個流失用戶的定義:三個月沒有打開APP就算做流失。那麼運營每天統計的流失用戶數,都是很久沒有打開過的,以時效性看,已經發生很久了,也很難通過措施挽回。我知道曾經因為某個不好的運營手段傷害了用戶,可是還有用嗎?
活動運營的 ROI(投資回報率)也是後驗性指標,一個活動付出成本後才能知道其收益。可是成本已經支出,活動的好與壞也註定了。活動周期長,還能有調整餘地。活動短期的話,這指標只能用作復盤,但不能驅動業務。
第三個壞指標是復雜性指標,它將數據分析陷於一堆指標造成的陷阱中。
指標能細分和拆解,比如活躍率可以細分成日活躍率、周活躍率、月活躍率、老用戶活躍率等。數據分析應該根據具體的情況選擇指標,如果是天氣類工具,可以選擇日活躍率,如果是社交 APP ,可以選擇周活躍率,更低頻的產品則是月活躍率。
每個產品都有適合它的幾個指標,不要一股腦的裝一堆指標上去,當你准備了二三十個指標用於分析,會發現無從下手。
丨指標結構
既然指標太多太復雜不好,那麼應該如何正確的選擇指標呢?
和分析思維的金字塔結構一樣,指標也有固有結構,呈現樹狀。指標結構的構建核心是以業務流程為思路,以結構為導向。
假設你是內容運營,需要對現有的業務做一個分析,提高內容相關數據,你會怎麼做呢?
我們把金字塔思維轉換一下,就成了數據分析方法了。
從內容運營的流程開始,它是:內容收集—內容編輯發布—用戶瀏覽—用戶點擊—用戶閱讀—用戶評論或轉發—繼續下一篇瀏覽。
這是一個標準的流程,每個流程都有指標可以建立。內容收集可以建立熱點指數,看哪一篇內容比較火。用戶瀏覽用戶點擊則是標準的 PV 和 UV 統計,用戶閱讀是閱讀時長。
從流程的角度搭建指標框架,可以全面的囊括用戶相關數據,無有遺漏。
這套框架列舉的指標,依舊要遵循指標原則:需要有核心驅動指標。移除虛榮指標,適當的進行刪減,不要為添加指標而添加指標。
丨維度分析法
當你有了指標,可以著手進行分析,數據分析大體可以分三類,第一類是利用維度分析數據,第二類是使用統計學知識如數據分布假設檢驗,最後一類是使用機器學習。我們先了解一下維度分析法。
維度是描述對象的參數,在具體分析中,我們可以把它認為是分析事物的角度。銷量是一種角度、活躍率是一種角度,時間也是一種角度,所以它們都能算維度。
當我們有了維度後,就能夠通過不同的維度組合,形成數據模型。數據模型不是一個高深的概念,它就是一個數據立方體。
上圖就是三個維度組成的數據模型/數據立方體。分別是產品類型、時間、地區。我們既能獲得電子產品在上海地區的 2010 二季度的銷量,也能知道書籍在江蘇地區的 2010 一季度銷量。
數據模型將復雜的數據以結構化的形式有序的組織起來。我們之前談到的指標,都可以作為維度使用。下面是範例:
丨將用戶類型、活躍度、時間三個維度組合,觀察不同用戶群體在產品上的使用情況,是否A群體使用的時長更明顯?
丨將商品類型、訂單金額、地區三個維度組合,觀察不同地區的不同商品是否存在銷量差異?
數據模型可以從不同的角度和層面來觀察數據,這樣提高了分析的靈活性,滿足不同的分析需求、這個過程叫做 OLAP(聯機分析處理)。當然它涉及到更復雜的數據建模和數據倉庫等,我們不用詳細知道。
數據模型還有幾種常見的技巧、叫做鑽取、上卷、切片。
選取就是將維度繼續細分。比如浙江省細分成杭州市、溫州市、寧波市等, 2010 年一季度變成 1 月、 2 月、 3 月。上卷則是鑽取的相反概念,將維度聚合,比如浙江、上海、江蘇聚合成浙江滬維度。切片是選中特定的維度,比如只選上海維度、或者只選 2010 年一季度維度。因為數據立方體是多維的,但我們觀察和比較數據只能在二維、即表格中進行。
上圖的樹狀結構代表鑽取(source 和 time 的細分),然後通過對 Route 的 air 切片獲得具體數據。
聰明的你可能已經想到,我們常用的數據透視表就是一種維度分析,將需要分析的維度放到行列組合進行求和、計數、平均值等計算。放一張曾經用到的案例圖片:用城市維度和工作年限維度,計算平均工資。
除了 Excel 、BI 、R 、Python 都能用維度分析法。BI 是相對最簡便的。
談到維度法,想要強調的是分析的核心思維之一:對比,不同維度的對比,這大概是對新人快速提高的最佳捷徑之一。比如過去和現在的時間趨勢對比,比如不同地區維度的對比,比如產品類型的區別對比,比如不同用戶的群體對比。單一的數據沒有分析意義,只有多個數據組合才能發揮出數據的最大價值。
我想要分析公司的利潤,利潤 = 銷售額 - 成本。那麼找出銷售額涉及的指標/維度,比如產品類型、地區、用戶群體等,通過不斷的組合和拆解,找出有問題或者表現良好的原因。成本也是同理。
這就是正確的數據分析思維。總結一下吧:我們通過業務建立和篩選出指標,將指標作為維度,利用維度進行分析。
很多人會問,指標和維度有什麼區別?
維度是說明和觀察事物的角度,指標是衡量數據的標准。維度是一個更大的范圍,不只是數據,比如時間維度和城市維度,我們就無法用指標表示,而指標(留存率、跳出率、瀏覽時間等)卻可以成為維度。通俗理解:維度>指標。
到這里,大家已經有一個數據分析的思維框架了。之所以是框架,因為還缺少具體的技巧,比如如何驗證某一個維度是影響數據的關鍵,比如如何用機器學習提高業務,這些涉及到數據和統計學知識,以後再講解。
這里我想強調,數據分析並不是一個結果,只是過程。還記得「如果你不能衡量它,那麼你就不能有效增長它」這句話嗎?數據分析的最終目的就是增長業務。如果數據分析需要績效指標,一定不會是分析的對錯,而是最終數據提升的結果。
數據分析是需要反饋的,當我分析出某項要素左右業務結果,那麼就去驗證它。告訴運營和產品人員,看看改進後的數據怎麼樣,一切以結果為准。如果結果並沒有改善,那麼就應該反思分析過程了。
這也是數據分析的要素,結果作導向。分析若只是當一份報告呈現上去,後續沒有任何跟進、改進的措施,那麼數據分析等與零。
業務指導數據,數據驅動業務。這才是不二法門。
作者:秦路
『貳』 數據分析的步驟
數據化運營(數據分析)具體落地到企業有這么五步:自上而下、數據閉環、搭建模型、數據分析、許可權分配。我們具體看一下每一步應該怎麼做。
一、自上而下|定義指標庫,確定項目范圍
我舉一個O2O的例子,首先我們做自上而下的時候要知道公司內部到底有哪些決策,老闆、產品、運營、培訓、市場、招商、客戶,每一個部門崗位關心什麼指標呢~
我們做指標之前要有一個目標:提升運營效率,降低運營成本,簡單說四個字降本增效。老闆關注的是利潤率問題,產品關注產品使用率、留存率等,運營關注成本控制等等,將不同崗位人員所關注的指標,都給梳理出來。
以上數據分析步驟、數據分析圖表都來自bdp商業數據平台哦~
『叄』 如何創建數據模型
建立數據模型
1、建立實體聯系模型
1.1、實體聯系模型的基本構成
實體聯系(ER)數據模型所採用的三個主要概念是:實體集、聯系集和屬性。
實體集是具有相同類型及相同性質(屬性)的實體集合。聯系集是指同類聯系的集合。
在ER模型中,用矩形框表示實體集(矩形框中寫上實體名),用橢圓表示屬性(橢圓中標上屬性名),實體的主碼用下劃線表示。實體集之間的聯系集用菱形表示,並用無向邊與相關實體集連接,菱形中寫上聯系名,無向邊上寫上聯系集的類型。
實體集之間的聯系類型有一對一,一對多,多對多
1.2、多元聯系
在ER模型中,可以表示兩個以上實體集之間的聯系,稱為多元聯系。
一個多元聯系集總可以用多個不同的二元聯系集來替代。考慮一個抽象的三元聯系集R,它聯系了實體集A、B、C。可引進一實體集E替代聯系R,然後,為實體集E和A、B、C建立三個新的二元聯系集,分別命名為RA、RB、RC。可以將這一過程直接推廣到n元聯系集的情況。所以,理論上首鏈行可以限制E R模型中只包含二元聯系集。
1.3、聯系的屬性
聯系也可以具有單獨的屬性。
1.4、自身聯系
在一個聯系中,一個實體集可以出現兩次或多次,扮演多個不同角色,此種情況稱為實體集的自身聯系。一個實體集在聯系中出現多少次我們就從聯繫到這個實體集畫多少條線,到實體集的每條線代表該實體集所扮演的不同角色。
1.5、子類和Is-a層次聯系
在信息世界中,常常需要描述這樣的實體集A,A屬於另一實體集B。A中的實體都有特殊的屬性需要描述,並且這些特殊屬性對B中其他的實體無意義。在ER模型中,稱A是B的子類,或B是A的父類。兩類實體之間存在一種層次聯系——Is-a(屬於)。
如果A和B存在Is-a聯系,則A中的每個實體a只和B中的一個實體b相聯系,而B中的每一個實體最多和A中的一個實體相聯系。從這個意義上說,A和B存在一對一的聯系。但事實上,a和b是同一事物。A可以繼承B中的所有屬性,又可以有自己特殊的屬性說明。用來區分A的主碼也就是B的主碼。
2、ER模型向關系模型的轉化
ER模型是概念模型的表示。要使計算機能處理模型中的信息,首先必須將它轉化為具體的DBMS能處理的數據模型。ER模型可以向現有的各種數據模型轉換,而目前市場上的DBMS大部分是基於關系數據模型的, ER模型向關系數據模型的轉換方法
關系模型的邏輯結構是一系列關系模式(表)的集合。將ER模型轉化為關系模式主要需解決的問題是喚茄:如何用關系表達實體集以及實體集間的聯系。
ER模型向關系模型轉換的一般規則和步驟:
(1)將每一個實體集轉換為一個關系模式,實體集的屬性轉換成關系的屬性,實體集的碼即對應關系的者嘩碼。
(2)將每個聯系集轉換成關系模式。對於給定的聯系R,由它所轉換的關系具有以下屬性:
聯系R單獨的屬性都轉換為該關系的屬性;
聯系R涉及到的每個實體集的碼屬性(集)轉換為該關系的屬性。轉換後關系的碼有以下幾種情況:
· 若聯系R為1∶1聯系,則每個相關實體的碼均可作為關系的候選碼;
· 若聯系R為1∶ n聯系,則關系的碼為n端實體的碼;
· 若聯系R為m∶ n聯系,則關系的碼為相關實體碼的集合。
有時,聯系本身的一些屬性也必須是結果關系的碼屬性。
(3)根據具體情況,把具有相同碼的多個關系模式合並成一個關系模式。
『肆』 簡述如何建立數據比對模型
建立數據模型的步驟包括:1.制訂目標2.數據理解與准備3.建立模型4.模型評估5.結果呈現6.模型部署
一、制訂目標
制訂目標的前提是理解業務,明確要解決的商業現實問題是什麼?
如:在社交平台KOL中,存在假粉絲的情況,如何識別假粉就是一個要解決的現實問題。
二、數據理解與准備
基於要解決的現實問題,理解和准備數據,一般需要解決以下問題:
需要哪些數據指標(即特徵提取)(如:哪些指標能區別真粉和假粉?)
數據指標的含義是什麼?
數據的質量如何?(如:是否存在缺失值?)
數據能否滿足需求?
數據還需要如何加工?(如:轉換數據指標,將類別型變數轉化為0-1啞變數,或將連續型數據轉化為有序變數)
探索數據中的規律和模式,進而形成假設。
需要注意的是,數據准備工作可能需要嘗試多次。因為在復雜的大型數據中,較難發現數據中存在的模式,初步形成的假設可能會被很快推翻,這時一定要靜心鑽研,不斷試錯。
數據建模後需要評估模型的效果,因此一般需要將數據分為訓練集和測試集。
三、建立模型
在准備好的數據基礎上,建立數據模型,這種模型可能是機器學習模型,也可能不需要機器學習等高深的演算法。選擇什麼樣的模型,是根據要解決的問題(目標)確定的。
當然可以選擇兩個或以上的模型對比,並適當調整參數,使模型效果不斷優化。
四、模型評估
模型效果的評估有兩個方面:一是模型是否解決了需要解決的問題(是否還有沒有注意和考慮到的潛在問題需要解決);二是模型的精確性(誤差率或者殘差是否符合正態分布等)。
如:在識別KOL假粉的問題中,需要評估的是:
模型能否識別出假粉?
識別的誤差率是多少?粉絲識別誤差率=(假粉誤認為真粉的數量+真粉誤認為假粉的數量)/總粉絲數
五、結果呈現
結果呈現主要關注以下三個方面:
模型解決了哪些問題?
解決效果如何?
如何解決問題?具體操作步驟是什麼?
六、模型部署
通過大量數據解決了一個或多個重要的現實問題,需要將方案落實下去,一般情況下需要通過線上技術環境部署落實,從而為後面不斷優化模型、更好地解決問題打下基礎。