1. 數據分析一般包括哪些內容
數據分析是一個龐大的框架,從數據中提取有用規律或背後的邏輯。工作中數據分析主要分為六個步驟:數據收集、數據清洗、數據存儲、指標計算、數據統計分析與建模、數據可視化。
第一步數據收集,在前期數據尚未形成特定體系或業務正在運行時,需要通過各種途徑獲取數據。數據收集方法包括程序自動收集(數據埋點、網路爬蟲、ERP或CRM系統自動生成等)、手工統計(Excel統計)、第三方網站提取(通過公開數據網站下載、API等),根據業務形態選擇合適的方法。
第二步數據清洗,收集的數據是臟數據,需要通過數據清洗來提取精華,轉碼成特定格式。操作主要使用正則表達式進行。
第三步數據存儲,隨著公司數據量增大,存儲數據的方法也在變化。小公司使用Excel文件存儲數據,大公司使用資料庫產品如Oracle、MySQL、SqlServer,現在有專門的大數據產品Hive數據倉庫。公司業務調整後,將數據從單一資料庫轉向Hive數據倉庫,方便技術、業務、分析師等角色使用。
第四步指標計算,數據分析師需要建立KPI指標,針對不同的業務場景反饋業務好壞的數據與規則。指標衡量目標,如庫存周轉率、毛利率、路徑轉換、ROI等,隨著業務變化,指標也會變換。
第五步數據統計分析與建模,這個環節最有意思,會遇到假設檢驗、線性回歸、特徵工程、貝葉斯等。在此環節中,你會看到數據背後的邏輯和數據的價值。可能會遇到數據清洗過程,處理缺失值、異常值等。
第六步數據可視化,將第五步分析結果用圖形式展現,常用的數據可視化產品有Tableau、PowerBI、FineBI、PPT等。這些產品能呈現互動式表格或報告。
數據分析崗位分為商業數據分析師、數據挖掘工程師、大數據開發工程師。商業數據分析師側重業務導向,工具包括Python、R、Excel、SPSS、Tableau、PowerBI等。數據挖掘工程師側重技術方向,工具包括Python、Java、C、C++等。大數據開發工程師負責搭建數據平台,開發適合公司數據流的數據平台,工具包括Hadoop、Hive、Spark、Python、Java、C、C++等。
數據分析是一個新興崗位,大多數人不斷學習改進。以上為個人觀點,歡迎補充交流。