A. 如何做數據分析
數據分析過程的主要活動由識別信息需求、收集數據、分析數據、評價並改進數據分析的有效性組成。
1、識別需求:
識別信息需求是確保數據分析過程有效性的首要條件,可以為收集數據、分析數據提供清晰的目標。識別信息需求是管理者的職責管理者應根據決策和過程式控制制的需求,提出對信息的需求。就過程式控制制而言,管理者應識別需求要利用那些信息支持評審過程輸入、過程輸出、資源配置的合理性、過程活動的優化方案和過程異常變異的發現。
2、收集數據:
有目的的收集數據,是確保數據分析過程有效的基礎。組織需要對收集數數據分析示意圖據的內容、渠道、方法進行策劃。策劃時應考慮:
①將識別的需求轉化為具體的要求,如評價供方時,需要收集的數據可能包括其過程能力、測量系統不確定度等相關數據;
②明確由誰在何時何處,通過何種渠道和方法收集數據;
③記錄表應便於使用; ④採取有效措施,防止數據丟失和虛假數據對系統的干擾。
3、分析數據
分析數據是將收集的數據通過加工、整理和分析、使其轉化為信息,通常用方法有:
老七種工具,即排列圖、因果圖、分層法、調查表、散步圖、直方圖、控制圖;
新七種工具,即關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣數據圖;
4、過程改進
數據分析是質量管理體系的基礎。組織的管理者應在適當時,通過對以下問題的分析,評估其有效性:
①提供決策的信息是否充分、可信,是否存在因信息不足、失准、滯後而導致決策失誤的問題;
②信息對持續改進質量管理體系、過程、產品所發揮的作用是否與期望值一致,是否在產品實現過程中有效運用數據分析;
③收集數據的目的是否明確,收集的數據是否真實和充分,信息渠道是否暢通;
④數據分析方法是否合理,是否將風險控制在可接受的范圍;
⑤數據分析所需資源是否得到保障。
B. 如何做數據分析
做數據分析,需要從數據和分析兩個方向共同入手:
1、數據培養
數據培養是進行有效數據分析的基礎建設,不是什麼數據都可以用來進行數據分析的,企業在注重數據量的積累的同時,還要注重數據積累的質量,將數據培養的意識和任務要求相結合,自上而下推行數據培養的機制。
舉個例子,很多企業意識到了信息化、數字化建設的重要性,將部署商業智能BI進行信息化建設提上了日程。但在商業智能BI項目規劃時,很容易發現企業根本沒有部署商業智能BI進行數據分析可視化的條件,原因就是數據缺漏、錯誤頻出,相關的業務部門系統資料庫也沒有建設,缺少業務數據,這就是沒有把數據培養做起來的後果。
分析方法-派可數據商業智能BI
一般用到對比分析,通常是在選定的時間區域內,對比業務在不同情況下的差異,分析出業務是進行了增長還是發生了縮減的情況。
例如,上圖中2021年9月的銷量相比8月的銷量有所減少,這時候就要深入分析為什麼環比銷量會減少,可以考慮調取今年3月和去年3月的產品生產數量,看看是不是生產環比下降,導致銷量較少。同理,還可以把供應鏈、經銷商、人流量等等都拿進行對比分析,確認到底是什麼影響了銷量。
總之,對比分析的優勢就是能夠很清晰地分析不同數值之間的差異,從而得到這些差異背後形成的原因。
派可數據 商業智能BI可視化分析平台
C. 如何做數據分析
數據分析有:分類分析,矩陣分析,漏斗分析,相關分析,邏輯樹分析,趨勢分析,行為軌跡分析,等等。 我用HR的工作來舉例,說明上面這些分析要怎麼做,才能得出洞見。
01) 分類分析
比如分成不同部門、不同崗位層級、不同年齡段,來分析人才流失率。比如發現某個部門流失率特別高,那麼就可以去分析。
02) 矩陣分析
比如公司有價值觀和能力的考核,那麼可以把考核結果做出矩陣圖,能力強價值匹配的員工、能力強價值不匹配的員工、能力弱價值匹配的員工、能力弱價值不匹配的員工各佔多少比例,從而發現公司的人才健康度。
03) 漏斗分析
比如記錄招聘數據,投遞簡歷、通過初篩、通過一面、通過二面、通過終面、接下Offer、成功入職、通過試用期,這就是一個完整的招聘漏斗,從數據中,可以看到哪個環節還可以優化。
04) 相關分析
比如公司各個分店的人才流失率差異較大,那麼可以把各個分店的員工流失率,跟分店的一些特性(地理位置、薪酬水平、福利水平、員工年齡、管理人員年齡等)要素進行相關性分析,找到最能夠挽留員工的關鍵因素。
05) 邏輯樹分析
比如近期發現員工的滿意度有所降低,那麼就進行拆解,滿意度跟薪酬、福利、職業發展、工作氛圍有關,然後薪酬分為基本薪資和獎金,這樣層層拆解,找出滿意度各個影響因素裡面的變化因素,從而得出洞見。
06) 趨勢分析
比如人才流失率過去12個月的變化趨勢。
07)行為軌跡分析
比如跟蹤一個銷售人員的行為軌跡,從入職、到開始產生業績、到業績快速增長、到疲憊期、到逐漸穩定。
D. 131在線民宿 UGC 數據挖掘實戰--深度模型在情感分析中的應用
本次實驗將繼續載入兩個數據,一個是已經標注好的用戶評論數據,另外一個是用戶評價主題句,通過標注過的用戶評論數據研究不同粒度的用戶評價處理對深度情感分析模型的性能的影響,並比較字元級模型在用戶評價情感極性推理上的差異。
使用 Pandas 載入已經標注好的在線用戶評論情感數據表格,並查看數據維度和前 5 行數據。
載入民宿評論數據,並列印第一行。
數據屬性如下表所示
用戶評論分詞
jieba 分詞器預熱,第一次使用需要載入字典和緩存,通過結果看出返回的是分詞的列表。
批量對用戶評價進行分詞,並列印第一行數據,處理過程需要一些時間。
將用戶評論處理成字元級別,為字元級模型提供訓練集,並列印第一行數據,此預處理速度遠遠快於分詞速度。
TextCNN 使用的卷積神經網路是一個典型的空間上的深度神經網路,基於卷積神經網路的情感分析具有優秀的特徵抽取能力,能顯著降低情感分類中人工抽取特徵的難度。這類方法又根據文本嵌入粒度的不同可以分為字元級嵌入和詞嵌入兩種,一種是以分詞後的詞為情感分析粒度,另一種為字元級粒度的情感分析粒度,最後一層將包含全文潛在信息的最終編碼送入 Sigmoid 做情感強度計算,即可對用戶評論進行情感極性推理,是目前在文本分類經常使用的模型。
詞級別模型訓練
按照訓練集 8 成和測試集 2 成的比例對數據集進行劃分。
詞級 TextCNN 模型訓練,設置 128 條數據為一個批次,2 輪模型訓練,訓練集中的 20% 作為驗證集,並加入早停設置。
通過傳入原始的標簽和預測的標簽可以直接將分類器性能進行度量,並對指標收集,包含:模型的訓練時間、accuracy_score 表示被正確預測的樣本占總樣本的比例、f1_score 值表示精確率與召回率的調和平均數和模型標簽。
對訓練的模型進行載入,並列印網路結構。
設置固定劃分數據集,劃分比例為 0.2 即訓練集是測試集的 4 倍量。
字元級別模型訓練
字元級 TextCNN 模型訓練,設置 128 條數據為一個批次,2 輪模型訓練,訓練集中的 20% 作為驗證集,並加入早停設置。
對字元級 TextCNN 的預測結果進行收集。
GRU 屬於 RNN(recurrent neural networks,循環神經網路),是 LSTM 最流行的一個變體,比 LSTM 模型要簡單,GRU 的門控單元減少了一個,GRU 與 LSTM 一樣都是旨在解決標准 RNN 中出現的梯度消失問題,GRU 比 LSTM 在減少了計算量的條件下,做到了精度與 LSTM 持平,是目前在文本分類經常使用的模型。
我們使用函數定義的方式進行 GRU 模型的初始化。
對訓練的模型進行載入,並列印網路結構。
詞級別模型訓練
詞級 GRU 模型訓練,設置 128 條數據為一個批次,2 輪模型訓練,訓練集中的 20% 作為驗證集,並加入早停設置。
對訓練的模型進行載入,並列印網路結構。
字元級別模型訓練
將處理好的用戶評論數據進行字元級處理即可輸入字元級 GRU 模型訓練,設置 128 條數據為一個批次,2 輪模型訓練,訓練集中的 20% 作為驗證集,並加入早停設置。
對字元級 GRU 的測試集預測性能進行記錄。
模型性能分析
通過控制參數變數的方式進行,並使用同樣的數據集合觀察性能指數測試結果。字元級能使用較小的字元級詞典對語料的覆蓋度更高,字元級預處理在測試集上的表現基本接近詞級模型,並從耗時來看字元級都是最少的。TextCNN 架構總體高於 GRU 的准確度和綜合值,並且訓練時間相對較短。字元級語言建模的思想來自於信號處理,使用語言最小的文字單元去模擬復雜的語義關系,因為我們相信模型可以捕捉到這些語法和單詞語義信息,在後續我們繼續使用這種方式。
對用戶評論數據預處理
對用戶評論進行字元向量化。
情感極性推理
使用訓練好的字元級 TextCNN 對用戶評論進行情感預測,需要一些時間,請耐心等待。
使用訓練好的字元級 GRU 對用戶評論進行情感預測,需要一些時間,請耐心等待。
情感極性推理結果可視化
將兩種字元級神經網路情感極性推理模型的結果取出來。
對全量的用戶評論分別使用兩個模型進行情感極性預測,並進行可視化,我們發現兩種模型在全量的用戶評論上的表現基本一致,字元級 TextCNN 在用戶兩極情感極性上表現更好。
E. 數據分析怎麼做
數據分析首先進行數據預處理,然後再用各種方法來挖掘數據