1. 數據分析的五個步驟
我們將數據分析過程組織為五個步驟:提問、整理、探索、得出結論和傳達結果。以下是關鍵要點的概述,但你可以選擇跳過。我們將在後面的部分中演練每一步,所以你將很快熟悉整個過程。
第 1 步:提問
你要麼獲取一批數據,然後根據它提問,要麼先提問,然後根據問題收集數據。在這兩種情況下,好的問題可以幫助你將精力集中在數據的相關部分,並幫助你得出有洞察力的分析。
第 2 步:整理數據
你通過三步來獲得所需的數據:收集,評估,清理。你收集所需的數據來回答你的問題,評估你的數據來識別數據質量或結構中的任何問題,並通過修改、替換或刪除數據來清理數據,以確保你的數據集具有最高質量和盡可能結構化。
第 3 步:執行 EDA(探索性數據分析)
你可以探索並擴充數據,以最大限度地發揮你的數據分析、可視化和模型構建的潛力。探索數據涉及在數據中查找模式,可視化數據中的關系,並對你正在使用的數據建立直覺。經過探索後,你可以刪除異常值,並從數據中創建更好的特徵,這稱為特徵工程。
第 4 步:得出結論(或甚至是做出預測)
這一步通常使用機器學習或推理性統計來完成,不在本課程范圍內,本課的重點是使用描述性統計得出結論。
第 5 步:傳達結果
你通常需要證明你發現的見解及傳達意義。或者,如果你的最終目標是構建系統,則通常需要分享構建的結果,解釋你得出設計結論的方式,並報告該系統的性能。傳達結果的方法有多種:報告、幻燈片、博客帖子、電子郵件、演示文稿,甚至對話。數據可視化總會給你呈現很大的價值。
2. 什麼叫對數據敏感怎樣做數據分析
對數據敏感就是當你看到一大堆雜亂無章的數據時,你會很有耐心的找出其中的規律所在,不厭其煩,並且樂在其中。
而做典型的數據分析可能包含以下三個步驟:
1、探索性數據分析,當數據剛取得時,可能雜亂無章,看不出規律,通過作圖、造表、用各種形式的方程擬合,計算某些特徵量等手段探索規律性的可能形式,即往什麼方向和用何種方式去尋找和揭示隱含在數據中的規律性。
2、模型選定分析,在探索性分析的基礎上提出一類或幾類可能的模型,然後通過進一步的分析從中挑選一定的模型。
3、推斷分析,通常使用數理統計方法對所定模型或估計的可靠程度和精確程度作出推斷。
數據分析過程實施
數據分析過程的主要活動由識別信息需求、收集數據、分析數據、評價並改進數據分析的有效性組成。
一、 識別信息需求
識別信息需求是確保數據分析過程有效性的首要條件,可以為收集數據、分析數據提供清晰的目標。識別信息需求是管理者的職責管理者應根據決策和過程式控制制的需求,提出對信息的需求。就過程式控制制而言,管理者應識別需求要利用那些信息支持評審過程輸入、過程輸出、資源配置的合理性、過程活動的優化方案和過程異常變異的發現。
二、收集數據
有目的的收集數據,是確保數據分析過程有效的基礎。組織需要對收集數據的內容、渠道、方法進行策劃。策劃時應考慮:
①識別的需求轉化為具體的要求,如評價供方時,需要收集的數據可能包括其過程能力、測量系統不確定度等相關數據;
②確由誰在何時何處,通過何種渠道和方法收集數據;
③錄表應便於使用;
④取有效措施,防止數據丟失和虛假數據對系統的干擾。
三、分析數據
分析數據是將收集的數據通過加工、整理和分析、使其轉化為信息,通常用方法有: 老七種工具,即排列圖、因果圖、分層法、調查表、散步圖、直方圖、控制圖; 新七種工具,即關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣數據圖;
四、數據分析過程的改進
數據分析是質量管理體系的基礎。組織的管理者應在適當時,通過對以下問題的分析,評估其有效性:
①供決策的信息是否充分、可信,是否存在因信息不足、失准、滯後而導致決策失誤的問題;
②息對持續改進質量管理體系、過程、產品所發揮的作用是否與期望值一致,是否在產品實現過程中有效運用數據分析。
③收集數據的目的是否明確,收集的數據是否真實和充分,信息渠道是否暢通;
④據分析方法是否合理,是否將風險控制在可接受的范圍;
⑤據分析所需資源是否得到保障。