㈠ 一次完整的數據分析流程包括哪些環節
一次完整的數據分析流程主要分為六個環節,包括明確分析目的、數據獲取、數據處理、數據分析、數據可視化、提出建議推動落地
做任何事情都有其對應的目的,數據分析也是如此。每一次分析前,都必須要先明確做這次分析的目的是什麼,只有先明確了目的,後面的分析才能圍繞其展開。常見的數據分析目標包括以下三種類型:
波動解釋型:某天的銷售額突然下降了,某天的新用戶留存突然降低了,這時候往往需要分析師去解釋波動的原因,分析較為聚焦,主要是找到波動的原因。
數據復盤型:類似於月報、季報,在互聯網領域常見於app某某功能上線了一段時間後,數據分析師往往需要復盤一下這個功能的表現情況,看看有沒有什麼問題。
專題探索型:對某個主題發起的專項探索,比如新用戶流失、營收分析等等
在明確的分析目標後,就可以根據目標去獲取所需要的數據,數據獲取主要可以分為外部數據和內部數據兩類:可以外部數據和內部數據兩類:
外部數據
想要獲取外部數據,一是可以從公開的數據網站上查詢,比如對於戰略分析師,在研究進入某個地區或某個國家的策略時,往往就需要獲取對應地區、國家的數據
第二種獲取外部數據的方法就是爬蟲,這種方法會更加靈活,不過現在做爬蟲會有一定的法律風險。
內部數據
內部數據是企業自身內部的數據,對於互聯網行業,用戶行為的數據是通過埋點的形式上報獲取,最終儲存在hive表中,作為數據分析師,需要用sql去把數據提取出來。
數據處理階段主要的目的是解決數據質量的問題,在數據採集環節中,內部的數據往往質量較好,但是外部數據,比如爬蟲獲取的數據,數據往往會比較雜亂,俗稱「臟數據」,需要進行數據清洗,包括補全缺失值、刪去異常值、重復值、進行數據轉換等等
1 、異常值處理
什麼是異常值?下面就是一個很明顯的異常值的例子,這種異常值在我們進行分析時候,比如回歸分析,這種值往往都要刪掉,不然會對結果產生很大的影響。但是並不是所有情況異常值都要刪掉,不同領域對異常值的處理方法不同,比如在風控領域,反而要重點關注異常值,因為大部分用戶都是正常的,異常值可能就是作弊用戶。
2、補全缺失值
有缺失值怎麼辦,補上。常見的補缺失值的辦法包括:
1. 通過其他信息填補,比如通過身份證補充生日、籍貫等
2. 將樣本進行分類,然後以該類中樣本的均值、中位數補全
數據處理好了之後,就可以開始分析,根據你的分析目標,要選擇合適的分析方法。常見的分析方法包括:
描述性分析
推斷性分析
探索性分析
通過數據分析得出結論後,還需要用圖表展示出來,俗話說得好,「文不如表,表不如圖",用圖表可以更清晰展現你的結論。
基於你的分析目標得出結論後,數據分析師還應根據你的結論提出相對應的改進建議,並推動建議落地,這樣才能完成一個完整的數據分析閉環。比如你發現新用戶流失高的原因是因為某個新用戶引導的節點有問題,那麼可以提出對應的建議,比如產品應該如何改進這個節點。
在你的策略實施後,發現新用戶的流失率顯著下降,這樣就完成了一次完整的數據分析,通過分析改進了業務。
㈡ 數據分析的流程是什麼
1、明確分析的目的,提出問題。只有弄清楚了分析的目的是什麼,才能准確定位分析因子,提出有價值的問題,提供清晰的指引方向。
2、數據採集。收集原始數據,數據來源可能是豐富多樣的,一般有資料庫、互聯網、市場調查等。具體辦法可以通過加入“埋點”代碼,或者使用第三方的數據統計工具。
3、數據處理。對收集到的原始數據進行數據加工,主要包括數據清洗、數據分組、數據檢索、數據抽取等處理方法。
4、數據探索。通過探索式分析檢驗假設值的形成方式,在數據之中發現新的特徵,對整個數據集有個全面認識,以便後續選擇何種分析策略。
5、分析數據。數據整理完畢,就要對數據進行綜合分析和相關分析,需要對產品、業務、技術等了如指掌才行,常常用到分類、聚合等數據挖掘演算法。Excel是最簡單的數據分析工具,專業數據分析工具有R語言、Python等。
6、得到可視化結果。藉助可視化數據,能有效直觀地表述想要呈現的信息、觀點和建議,比如金字塔圖、矩陣圖、漏斗圖、帕累托圖等,同時也可以使用報告等形式與他人交流。