⑴ 全面教你如何建立數據分析的思維框架
全面教你如何建立數據分析的思維框架
目前,還有一些人不會建立數據分析的思維框架,那麼今天課課家,就一步一步的教大家怎麼建立,大神路過還請繞道,當然還可以交流一下。有需要的小夥伴,可以參考一下。
曾經有人問過我,什麼是數據分析思維?如果分析思維是一種結構化的體現,那麼數據分析思維在它的基礎上再加一個准則:
不是我覺得,而是數據證明。
這是一道分水嶺,「我覺得」是一種直覺化經驗化的思維,工作不可能處處依賴自己的直覺,公司發展更不可能依賴於此。數據證明則是數據分析的最直接體現,它依託於數據導向型的思維,而不是技巧,前者是指導,後者只是應用。
作為個人,應該如何建立數據分析思維呢?
一、建立你的指標體系
在我們談論指標之前,先將時間倒推幾十年,現代管理學之父彼得·德魯克說過一句很經典的話:
如果你不能衡量它,那麼你就不能有效增長它。
所謂衡量,就是需要統一標准來定義和評價業務。這個標准就是指標。假設隔壁老王開了一家水果鋪子,你問他每天生意怎麼樣,他可以回答賣的不錯,很好,最近不景氣。這些都是很虛的詞,因為他認為賣的不錯也許是賣了50個,而你認為的賣的不錯,是賣了100。
這就是「我覺得」造成的認知陷阱。將案例放到公司時,會遇到更多的問題:若有一位運營和你說,產品表現不錯,因為每天都有很多人評價和稱贊,還給你看了幾個截圖。而另外一位運營說,產品有些問題,推的活動商品賣的不好,你應該相信誰呢?
其實誰都很難相信,這些眾口異詞的判斷都是因為缺乏數據分析思維造成的。
老王想要描述生意,他應該使用銷量,這就是他的指標,互聯網想要描述產品,也應該使用活躍率、使用率、轉化率等指標。
如果你不能用指標描述業務,那麼你就不能有效增長它。
了解和使用指標是數據分析思維的第一步,接下來你需要建立指標體系,孤立的指標發揮不出數據的價值。和分析思維一樣,指標也能結構化,也應該用結構化。
我們看一下互聯網的產品,一個用戶從開始使用到離開,都會經歷這些環節步驟。電商app還是內容平台,都是雷同的。想一想,你會需要用到哪些指標?
而下面這張圖,解釋了什麼是指標化,這就是有無數據分析思維的差異,也是典型的數據化運營,有空可以再深入講這塊。
標體系沒有放之四海而皆準的模板,不同業務形態有不同的指標體系。移動APP和網站不一樣,SaaS和電子商務不一樣,低頻消費和高頻消費不一樣。好比一款婚慶相關的APP,不需要考慮復購率指標;互聯網金融,必須要風控指標;電子商務,賣家和買家的指標各不一樣。
這些需要不同行業經驗和業務知識去學習掌握,那有沒有通用的技巧和注意事項呢?
二、明確好指標與壞指標
不是所有的指標都是好的。這是初出茅廬者常犯的錯誤。我們繼續回到老王的水果鋪子,來思考一下,銷量這個指標究竟是不是好的?
最近物價上漲,老王順應調高了水果價格,又不敢漲的提高,雖然水果銷量沒有大變化,但老王發現一個月下來沒賺多少,私房錢都不夠存。
老王這個月的各類水果銷量有2000,但最後還是虧本了,仔細研究後發現,雖然銷量高,但是水果庫存也高,每個月都有幾百單位的水果滯銷最後過期虧本。
這兩個例子都能說明只看銷量是一件多不靠譜的事情。銷量是一個衡量指標,但不是好指標。老王這種個體經營戶,應該以水果鋪子的利潤為核心要素。
好指標應該是核心驅動指標。雖然指標很重要,但是有些指標需要更重要。就像銷量和利潤,用戶數和活躍用戶數,後者都比前者重要。
核心指標不只是寫在周報的數字,而是整個運營團隊、產品團隊乃至研發團隊都統一努力的目標。
核心驅動指標和公司發展關聯,是公司在一個階段內的重點方向。記住是一個階段,不同時期的核心驅動指標不一樣。不同業務的核心驅動指標也不一樣。
互聯網公司常見的核心指標是用戶數和活躍率,用戶數代表市場的體量和佔有,活躍率代表產品的健康度,但這是發展階段的核心指標。在產品1.0期間,我們應把注意力放到打磨產品上,在大推廣前提高產品質量,這時留存率是一個核心指標。而在有一定用戶基數的產品後期,商業化比活躍重要,我們會關注錢相關的指標,比如廣告點擊率、利潤率等。
核心驅動指標一般是公司整體的目標,若從個人的崗位職責看,也可以找到自己的核心指標。比如內容運營可以關注閱讀數和閱讀時長。
核心驅動指標一定能給公司和個人帶來最大優勢和利益,記得二八法則么?20%的指標一定能帶來80%的效果,這20%的指標就是核心。
另外一方面,好的指標還有一個特性,它應該是比率或者比例。
拿活躍用戶數說明就懂了,我們活躍用戶有10萬,這能說明什麼呢?這說明不了什麼。如果產品本身有千萬級別的注冊用戶,那麼10萬用戶說明非常不健康,產品在衰退期。如果產品只擁有四五十萬用戶,那麼說明產品的粘性很高。
正因為單純的活躍用戶數沒有多大意義,所以運營和產品會更關注活躍率。這個指標就是一個比率,將活躍用戶數除以總用戶數所得。所以在設立指標時,我們都盡量想它能不能是比率。
認識和看待事物
這類常見的提問方式包括了一個知名人物或歷史事件如何評價?如何看待一個產品?你對某個事物是如何理解的?如何看待或分析一種行為或熱點等?
對於看待或分析事物類的思維,則是我們前面一篇思維的邏輯裡面講到的很多內容,即事物本身應該結合外部環境+時間線+事物核心維度進行全面的分析,事物的外在交互關系,事物的內部結構和銜接,事物本身動態展現的行為特徵等。這些首先分析清楚,即對事物本身有一個全面和客觀的認識。
這類思維的一個核心即辯證思維,在這里我不太喜歡用批評性思維這個詞,辯證思i維更加體現了這類思維的重點是全面,客觀,以數據說話同時減少主觀偏頗看法。對於這類問題你不一定要去表面自己的主觀感受,而更加重要的是把事實和道理講清楚,有理有據。
在真正分析清楚後,後續才過渡到這類問題的演進,即如何評估或評價一個事物,其前提仍然是分析清楚客觀數據,但是數據本身不是評價或評估指標,因此一談到評估自然會想到需要建立或參考一個評估體系。一個歷史帝王有政治,經濟,外交,軍事和民生各種評價體系。對一輛車可能有動力,舒適性,油耗,操控等各種評價體系。一個產品本身有功能滿足度,易用性,性能,價格等各種評價體系等。對於任何評估,則首先是找到現成可用的科學評價體系,然後將對事物分析後的數據映射到具體的評價體繫上,即任何評估指標值的得出一定有事物本身內在數據和運作機制進行支撐的。
這些都想清楚後,即這類思維的重點是事物的分解和集成分析,事物的行為或活動分析,事物相關的內外環境因素分析,事物本身的關鍵屬性維度分析和評估體系確定,事物各關鍵指標特性間的相互制約和促進力分析(類似系統思維中的正負循環)等。
壞指標有哪些呢?
其一是虛榮指標,它沒有任何的實際意義。
產品在應用商店有幾十萬的曝光量,有意義嗎?沒有,我需要的是實際下載。下載了意義大嗎?也不大,我希望用戶注冊成功。曝光量和下載量都是虛榮指標,只是虛榮程度不一樣。
新媒體都追求微信公眾號閱讀數,如果靠閱讀數做廣告,那麼閱讀數有意義,如果靠圖文賣商品,那麼更應該關注轉化率和商品銷量,畢竟一個誇張的標題就能帶來很高的閱讀量,此時的閱讀量是虛榮指標。可惜很多老闆還是孜孜不倦的追求10W+,哪怕刷量。
虛榮指標是沒有意義的指標,往往它會很好看,能夠粉飾運營和產品的工作績效,但我們要避免使用。
第二個壞指標是後驗性指標,它往往只能反應已經發生的事情。
比如我有一個流失用戶的定義:三個月沒有打開APP就算做流失。那麼運營每天統計的流失用戶數,都是很久沒有打開過的,以時效性看,已經發生很久了,也很難通過措施挽回。我知道曾經因為某個不好的運營手段傷害了用戶,可是還有用嗎?
活動運營的ROI(投資回報率)也是後驗性指標,一個活動付出成本後才能知道其收益。可是成本已經支出,活動的好與壞也註定了。活動周期長,還能有調整餘地。活動短期的話,這指標只能用作復盤,但不能驅動業務。
第三個壞指標是復雜性指標,它將數據分析陷於一堆指標造成的陷阱中。
指標能細分和拆解,比如活躍率可以細分成日活躍率、周活躍率、月活躍率、老用戶活躍率等。數據分析應該根據具體的情況選擇指標,如果是天氣類工具,可以選擇日活躍率,如果是社交APP,可以選擇周活躍率,更低頻的產品則是月活躍率。
每個產品都有適合它的幾個指標,不要一股腦的裝一堆指標上去,當你准備了二三十個指標用於分析,會發現無從下手。
三、建立正確的指標結構
既然指標太多太復雜不好,那麼應該如何正確的選擇指標呢?
和分析思維的金字塔結構一樣,指標也有固有結構,呈現樹狀。指標結構的構建核心是以業務流程為思路,以結構為導向。
假設你是內容運營,需要對現有的業務做一個分析,提高內容相關數據,你會怎麼做呢?
我們把金字塔思維轉換一下,就成了數據分析方法了。
從內容運營的流程開始,它是:內容收集—內容編輯發布—用戶瀏覽—用戶點擊—用戶閱讀—用戶評論或轉發—繼續下一篇瀏覽。
這是一個標準的流程,每個流程都有指標可以建立。內容收集可以建立熱點指數,看哪一篇內容比較火。用戶瀏覽用戶點擊則是標準的PV和UV統計,用戶閱讀是閱讀時長。
從流程的角度搭建指標框架,可以全面的囊括用戶相關數據,無有遺漏。
這套框架列舉的指標,依舊要遵循指標原則:需要有核心驅動指標。移除虛榮指標,適當的進行刪減,不要為添加指標而添加指標。
四、了解維度分析法
當你有了指標,可以著手進行分析,數據分析大體可以分三類:
利用維度分析數據
使用統計學知識如數據分布假設檢驗
使用機器學習
我們先了解一下維度分析法。
維度是描述對象的參數,在具體分析中,我們可以把它認為是分析事物的角度。銷量是一種角度、活躍率是一種角度,時間也是一種角度,所以它們都能算維度。
當我們有了維度後,就能夠通過不同的維度組合,形成數據模型。數據模型不是一個高深的概念,它就是一個數據立方體。
上圖就是三個維度組成的數據模型/數據立方體。分別是產品類型、時間、地區。我們既能獲得電子產品在上海地區的2010二季度的銷量,也能知道書籍在江蘇地區的2010一季度銷量。
數據模型將復雜的數據以結構化的形式有序的組織起來。我們之前談到的指標,都可以作為維度使用。下面是範例:
將用戶類型、活躍度、時間三個維度組合,觀察不同用戶群體在產品上的使用情況,是否A群體使用的時長更明顯?
將商品類型、訂單金額、地區三個維度組合,觀察不同地區的不同商品是否存在銷量差異?
數據模型可以從不同的角度和層面來觀察數據,這樣提高了分析的靈活性,滿足不同的分析需求、這個過程叫做OLAP(聯機分析處理)。當然它涉及到更復雜的數據建模和數據倉庫等,我們不用詳細知道。
數據模型還有幾種常見的技巧、叫做鑽取、上卷、切片。
選取就是將維度繼續細分。比如浙江省細分成杭州市、溫州市、寧波市等,2010年一季度變成1月、2月、3月。上卷則是鑽取的相反概念,將維度聚合,比如浙江、上海、江蘇聚合成浙江滬維度。切片是選中特定的維度,比如只選上海維度、或者只選2010年一季度維度。因為數據立方體是多維的,但我們觀察和比較數據只能在二維、即表格中進行。
上圖的樹狀結構代表鑽取(source和time的細分),然後通過對Route的air切片獲得具體數據。
聰明的你可能已經想到,我們常用的數據透視表就是一種維度分析,將需要分析的維度放到行列組合進行求和、計數、平均值等計算。放一張曾經用到的案例圖片:用城市維度和工作年限維度,計算平均工資。
除了Excel、BI、R、Python都能用維度分析法。BI是相對最簡便的。
談到維度法,想要強調的是分析的核心思維之一:對比,不同維度的對比,這大概是對新人快速提高的最佳捷徑之一。比如過去和現在的時間趨勢對比,比如不同地區維度的對比,比如產品類型的區別對比,比如不同用戶的群體對比。單一的數據沒有分析意義,只有多個數據組合才能發揮出數據的最大價值。
我想要分析公司的利潤,利潤 = 銷售額 – 成本。那麼找出銷售額涉及的指標/維度,比如產品類型、地區、用戶群體等,通過不斷的組合和拆解,找出有問題或者表現良好的原因。成本也是同理。
這就是正確的數據分析思維。總結一下吧:我們通過業務建立和篩選出指標,將指標作為維度,利用維度進行分析。
很多人會問,指標和維度有什麼區別?
維度是說明和觀察事物的角度,指標是衡量數據的標准。維度是一個更大的范圍,不只是數據,比如時間維度和城市維度,我們就無法用指標表示,而指標(留存率、跳出率、瀏覽時間等)卻可以成為維度。通俗理解:維度>指標。
到這里,大家已經有一個數據分析的思維框架了。之所以是框架,因為還缺少具體的技巧,比如如何驗證某一個維度是影響數據的關鍵,比如如何用機器學習提高業務,這些涉及到數據和統計學知識,以後再講解。
這里我想強調,數據分析並不是一個結果,只是過程。還記得「如果你不能衡量它,那麼你就不能有效增長它」這句話嗎?數據分析的最終目的就是增長業務。如果數據分析需要績效指標,一定不會是分析的對錯,而是最終數據提升的結果。
數據分析是需要反饋的,當我分析出某項要素左右業務結果,那麼就去驗證它。告訴運營和產品人員,看看改進後的數據怎麼樣,一切以結果為准。如果結果並沒有改善,那麼就應該反思分析過程了。
這也是數據分析的要素,結果作導向。分析若只是當一份報告呈現上去,後續沒有任何跟進、改進的措施,那麼數據分析等與零。
業務指導數據,數據驅動業務。這才是不二法門。
⑵ 實驗結果分析應注意什麼數值計算應注意什麼
實驗報告撰寫要求 一. 實驗報告實驗預習報告使用同份實驗報告紙,預習報告基礎繼續補充相關內容完,作重復勞需要首先預習報告做規范、全面 二. 根據實驗要求實驗間內實驗室進行實驗邊測量邊記錄實驗數據使報告准確、美觀應該實驗測量數據先記錄草稿紙等整理報告再抄寫實驗報告紙避免錯填數據造修改報告寫亂 三. 實驗發實驗測量數據與事先計算數值符甚至相差應該找原原計算錯誤測量問題能能算未完本實驗 四. 實驗報告簡單實驗數據記錄紙應該實驗情況析要通實驗所測量數據與計算值加比較誤差(般5%)認基本吻合誤差較應該誤差析找原 5. 實驗報告應該每項實驗結論要通具體實驗內容具體實驗數據析作結論(能籠統說驗證某某定理) 陸. 設計性、綜合性實驗要畫所設計電路圖標所選確定電路參數要驗算程必要設計說明 漆. 必要需要繪制曲線曲線應該刻度、單位標注齊全曲線比例合適、美觀並針曲線作相應說明析 吧. 報告要完指導書要求解答思考題 9. 實驗報告交應該面實驗指導教師實驗給預習績操作績並指導師簽名否則報告效 一0. 希望每同認真完實驗報告培養鍛煉綜合總結能力重要環節課程設計、畢業設計論文撰寫打基礎參加工作科研究益處
⑶ 數據分析師需要學習哪些技能
數據分析師需要學習很多的技能,也正是因為這樣,數據分析師的工資是十分樂觀的。在大數據的火熱發展中,數據分析師這個職業也越來越歡迎,很多人都想進入這個行業,這些人對於數據分析師需要學的東西都是比較關心的,而數據分析師需要學習的技能有很多,需要學習統計學、Excel、SQL、數據分析知識以及行業的知識等等。下面我們就詳細地給大家介紹一下這些知識。
首先我們說一說Excel。如果想成為數據師,那麼很有必要學會使用Excel這個工具。對於數據分析師來說,Excel是一個必備的技能,經過大量的實踐發現,Excel是一個比較靠譜的工具,如果用Excel分析數據,就能夠做好數據的分析,同時Excel操作也是比較簡單的,不是程序員也能夠正常的使用。現在有很多企業都在使用Excel這項工具進行去分析數據,所以,數據分析師必須要學會使用Excel。
然後我們說一說行業知識。對於數據分析師來說,業務的了解比數據方法論更重要。而且業務學習沒有捷徑,基本都靠不斷的思考與不斷的總結。這樣才能夠做好數據分析。
接著我們說一下SQL,其實現在很多人不知道sql是什麼,在這里給大家描述一下,sql是所有資料庫查詢的語言,當然,sql非常容易入手。而資料庫也是有很多的類型的,比如mysql、sqlserver、oracle等等,對於不同的資料庫,sql語法會有所不同,但是總體上大同小異,只是細微處的差別。如果大家有資料庫基礎的話,那麼只需要找些sql的題目做一做,這樣也能夠提到sql水平。
而數據分析思維是數據分析師需要注意的事情。如果作為一名數據分析師,需要很縝密的心思以及對數據很敏感的喜歡,這樣才能夠發現他人會遺漏的東西。有力這些還不夠,我們還需要有一個數據分析的思維,那麼怎麼有一個數據分析的思維呢?一般來說,需要梳理分析思路,並搭建分析框架,把分析目的分解成若干個不同的分析要點,即清楚如何具體開展數據分析,需要從哪幾個角度進行分析,採用哪些分析指標。同時,確保分析框架的體系化和邏輯性。
最後給大家介紹一下統計學。一名優秀的數據分析師還應該精通統計學,只有學會了統計學,才能夠進行數據分析,數據分析是通過大量的數據進行挑選出有用的數據,這樣才能夠做好正確的分析。統計學的統計知識能夠讓我們多了一種角度去看待數據,這樣能夠看出不同的情況,為數據分析中提供了參考價值。如果你想成為一名出色的數據分析師,那麼你就必須要會統計學。
通過上述的內容相信大家已經知道了數據分析師需要學會的技能了,大家在進行數據分析的時候多多注意上面內容的學習,這樣才能夠學好數據分析。最後祝願大家早日學成數據分析。
⑷ 如何進行數據分析
數據分析是以現有網站的內容為基礎,展示用戶喜歡的內容,降低網站的跳出率增加網站黏性,具體步驟如下:
1、分析pv、uv、ip、跳出率和平均訪問時長
通常情況下uv要大於ip,pv是uv的倍數關系,而pv:uv多少合適呢?要看同行業的平均數據,比如一個知識性網站,pv:uv的比例接近10:1,而如果是企業站,可能3:1或者4:1。
跳出率越高說明網站內容質量越差,平均訪問時長也體現網站的內容質量。時長越長說明網站內容質量越高、內鏈系統越好。
2、分析來源、地域和搜索引擎
從來源分析可以評測外鏈和推廣效果,可以選擇效果更好的推廣和外鏈方式,節省時間。地域分析可以幫我我們做地域關鍵詞,搜索引擎分析用於明白用戶的搜索習慣。
3、受訪頁面、著陸頁和搜索詞
分析受訪頁面可以看出推廣、外鏈以及內鏈效果,分析搜索詞可以得出現在內容排名效果。
受訪頁面主要來自於外鏈、推廣鏈接、排名頁面和內鏈布局。受訪頁面越高的網頁說明展示次數越多,被用戶看到的概率越大。
著陸頁分數據純碎的體現外鏈、推廣鏈接和排名的效果,如果沒有關鍵詞排名,可以直接評測推廣、外鏈的效果。
可以通過搜索詞得知那些關鍵詞給我們帶來了流量,以及訪問的頁面是哪些,訪問頁的跳出率是多少,是不是應該推廣這個頁面幫助它提升排名。
4、分析頁面點擊圖和頁面上下游
頁面點擊圖,可以根據頁面點擊圖調整網站首頁布局。顏色越深的內容放置的位置越靠近左上角,顏色越淺的內容位置越靠近右下角。點擊很少或者沒有點擊的內容可以從首頁移除,或者放置在欄目頁。
頁面上下游是體現用戶瀏覽網頁的軌跡,從上下游的數據可以統計布局的內鏈用戶點擊最多的文章是哪一篇,以及哪些頁面的跳出率高。頁面上下游數據最能說明內鏈布局效果。
注意:數據分析的魅力是常人無法感受的,如果你的網站在中後期還是憑證感覺做,那麼你就相當於盲人摸象,你的網站排名只能看運氣了。
⑸ 如何成為一個數據分析師需要具備哪些技能
接下來我們分別從每一個部分講講具體應該學什麼、怎麼學。
數據獲取:公開數據、Python爬蟲
如果接觸的只是企業資料庫里的數據,不需要要獲取外部數據的,這個部分可以忽略。
外部數據的獲取方式主要有以下兩種。
第一種是獲取外部的公開數據集,一些科研機構、企業、政府會開放一些數據,你需要到特定的網站去下載這些數據。這些數據集通常比較完善、質量相對較高。
另一種獲取外部數據費的方式就是爬蟲。
比如你可以通過爬蟲獲取招聘網站某一職位的招聘信息,爬取租房網站上某城市的租房信息,爬取豆瓣評分評分最高的電影列表,獲取知乎點贊排行、網易雲音樂評論排行列表。基於互聯網爬取的數據,你可以對某個行業、某種人群進行分析。
在爬蟲之前你需要先了解一些 Python 的基礎知識:元素(列表、字典、元組等)、變數、循環、函數(鏈接的菜鳥教程非常好)……以及如何用成熟的 Python 庫(urllib、BeautifulSoup、requests、scrapy)實現網頁爬蟲。如果是初學,建議從 urllib 和 BeautifulSoup 開始。(PS:後續的數據分析也需要 Python 的知識,以後遇到的問題也可以在這個教程查看)
網上的爬蟲教程不要太多,爬蟲上手推薦豆瓣的網頁爬取,一方面是網頁結構比較簡單,二是豆瓣對爬蟲相對比較友好。
掌握基礎的爬蟲之後,你還需要一些高級技巧,比如正則表達式、模擬用戶登錄、使用代理、設置爬取頻率、使用cookie信息等等,來應對不同網站的反爬蟲限制。
除此之外,常用的的電商網站、問答網站、點評網站、二手交易網站、婚戀網站、招聘網站的數據,都是很好的練手方式。這些網站可以獲得很有分析意義的數據,最關鍵的是,有很多成熟的代碼,可以參考。
數據存取:SQL語言
你可能有一個疑惑,為什麼沒有講到Excel。在應對萬以內的數據的時候,Excel對於一般的分析沒有問題,一旦數據量大,就會力不從心,資料庫就能夠很好地解決這個問題。而且大多數的企業,都會以SQL的形式來存儲數據,如果你是一個分析師,也需要懂得SQL的操作,能夠查詢、提取數據。
SQL作為最經典的資料庫工具,為海量數據的存儲與管理提供可能,並且使數據的提取的效率大大提升。你需要掌握以下技能:
提取特定情況下的數據:企業資料庫里的數據一定是大而繁復的,你需要提取你需要的那一部分。比如你可以根據你的需要提取2018年所有的銷售數據、提取今年銷量最大的50件商品的數據、提取上海、廣東地區用戶的消費數據……,SQL可以通過簡單的命令幫你完成這些工作。
資料庫的增、刪、查、改:這些是資料庫最基本的操作,但只要用簡單的命令就能夠實現,所以你只需要記住命令就好。
數據的分組聚合、如何建立多個表之間的聯系:這個部分是SQL的進階操作,多個表之間的關聯,在你處理多維度、多個數據集的時候非常有用,這也讓你可以去處理更復雜的數據。
數據預處理:Python(pandas)
很多時候我們拿到的數據是不幹凈的,數據的重復、缺失、異常值等等,這時候就需要進行數據的清洗,把這些影響分析的數據處理好,才能獲得更加精確地分析結果。
比如空氣質量的數據,其中有很多天的數據由於設備的原因是沒有監測到的,有一些數據是記錄重復的,還有一些數據是設備故障時監測無效的。比如用戶行為數據,有很多無效的操作對分析沒有意義,就需要進行刪除。
那麼我們需要用相應的方法去處理,比如殘缺數據,我們是直接去掉這條數據,還是用臨近的值去補全,這些都是需要考慮的問題。
對於數據預處理,學會 pandas 的用法,應對一般的數據清洗就完全沒問題了。需要掌握的知識點如下:
選擇:數據訪問(標簽、特定值、布爾索引等)
缺失值處理:對缺失數據行進行刪除或填充
重復值處理:重復值的判斷與刪除
空格和異常值處理:清楚不必要的空格和極端、異常數據
相關操作:描述性統計、Apply、直方圖等
合並:符合各種邏輯關系的合並操作
分組:數據劃分、分別執行函數、數據重組
Reshaping:快速生成數據透視表
概率論及統計學知識
數據整體分布是怎樣的?什麼是總體和樣本?中位數、眾數、均值、方差等基本的統計量如何應用?如果有時間維度的話隨著時間的變化是怎樣的?如何在不同的場景中做假設檢驗?數據分析方法大多源於統計學的概念,所以統計學的知識也是必不可少的。需要掌握的知識點如下:
基本統計量:均值、中位數、眾數、百分位數、極值等
其他描述性統計量:偏度、方差、標准差、顯著性等
其他統計知識:總體和樣本、參數和統計量、ErrorBar
概率分布與假設檢驗:各種分布、假設檢驗流程
其他概率論知識:條件概率、貝葉斯等
有了統計學的基本知識,你就可以用這些統計量做基本的分析了。通過可視化的方式來描述數據的指標,其實可以得出很多結論了,比如排名前100的是哪些,平均水平是怎樣的,近幾年的變化趨勢如何……
你可以使用python的包 Seaborn(python包)在做這些可視化的分析,你會輕松地畫出各種可視化圖形,並得出具有指導意義的結果。了解假設檢驗之後,可以對樣本指標與假設的總體指標之間是否存在差別作出判斷,已驗證結果是否在可接受的范圍。
python數據分析
如果你有一些了解的話,就知道目前市面上其實有很多 Python 數據分析的書籍,但每一本都很厚,學習阻力非常大。但其實真正最有用的那部分信息,只是這些書里很少的一部分。比如用 Python 實現不同案例的假設檢驗,其實你就可以對數據進行很好的驗證。
比如掌握回歸分析的方法,通過線性回歸和邏輯回歸,其實你就可以對大多數的數據進行回歸分析,並得出相對精確地結論。比如DataCastle的訓練競賽「房價預測」和「職位預測」,都可以通過回歸分析實現。這部分需要掌握的知識點如下:
回歸分析:線性回歸、邏輯回歸
基本的分類演算法:決策樹、隨機森林……
基本的聚類演算法:k-means……
特徵工程基礎:如何用特徵選擇優化模型
調參方法:如何調節參數優化模型
Python 數據分析包:scipy、numpy、scikit-learn等
在數據分析的這個階段,重點了解回歸分析的方法,大多數的問題可以得以解決,利用描述性的統計分析和回歸分析,你完全可以得到一個不錯的分析結論。
當然,隨著你實踐量的增多,可能會遇到一些復雜的問題,你就可能需要去了解一些更高級的演算法:分類、聚類,然後你會知道面對不同類型的問題的時候更適合用哪種演算法模型,對於模型的優化,你需要去學習如何通過特徵提取、參數調節來提升預測的精度。這就有點數據挖掘和機器學習的味道了,其實一個好的數據分析師,應該算是一個初級的數據挖掘工程師了。
系統實戰
這個時候,你就已經具備了數據分析的基本能力了。但是還要根據不同的案例、不同的業務場景進行實戰。能夠獨立完成分析任務,那麼你就已經打敗市面上大部分的數據分析師了。
如何進行實戰呢?
上面提到的公開數據集,可以找一些自己感興趣的方向的數據,嘗試從不同的角度來分析,看看能夠得到哪些有價值的結論。
另一個角度是,你可以從生活、工作中去發現一些可用於分析的問題,比如上面說到的電商、招聘、社交等平台等方向都有著很多可以挖掘的問題。
開始的時候,你可能考慮的問題不是很周全,但隨著你經驗的積累,慢慢就會找到分析的方向,有哪些一般分析的維度,比如top榜單、平均水平、區域分布、年齡分布、相關性分析、未來趨勢預測等等。隨著經驗的增加,你會有一些自己對於數據的感覺,這就是我們通常說的數據思維了。
你也可以看看行業的分析報告,看看優秀的分析師看待問題的角度和分析問題的維度,其實這並不是一件困難的事情。
在掌握了初級的分析方法之後,也可以嘗試做一些數據分析的競賽,比如 DataCastle 為數據分析師專門定製的三個競賽,提交答案即可獲取評分和排名:
員工離職預測訓練賽
美國King County房價預測訓練賽
北京PM2.5濃度分析訓練賽
種一棵樹最好的時間是十年前,其次是現在。現在就去,找一個數據集開始吧!!