1. 數據處理有什麼流程
數據治理流程是從數據規劃、數據採集、數據儲存管理到數據應用整個流程的無序到有序的過程,也是標准化流程的構建過程。
根據每一個過程的特點,我們可以將數據治理流程總結為四個字,即「理」、「采」、「存」、「用」。
1.理:梳理業務流程,規劃數據資源
對於企業來說,每天的實時數據都會超過TB級別,需要採集用戶的哪些數據,這么多的數據放在哪裡,如何放,以什麼樣的方式放?
這些問題都是需要事先進行規劃的,需要有一套從無序變為有序的流程,這個過程需要跨部門的協作,包括了前端、後端、數據工程師、數據分析師、項目經理等角色的參與。
2.采:ETL採集、去重、脫敏、轉換、關聯、去除異常值
前後端將採集到的數據給到數據部門,數據部門通過ETL工具將數據從來源端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
3.存:大數據高性能存儲及管理
這么多的業務數據存在哪裡?這需要有一高性能的大數據存儲系統,在這套系統裡面將數據進行分門別類放到其對應的庫裡面,為後續的管理及使用提供最大的便利。
4.用:即時查詢、報表監控、智能分析、模型預測
數據的最終目的就是輔助業務進行決策,前面的幾個流程都是為最終的查詢、分析、監控做鋪墊。
這個階段就是數據分析師的主場,分析師們運用這些標准化的數據可以進行即時的查詢、指標體系和報表體系的建立、業務問題的分析,甚至是模型的預測。
2. 數據化管理的數據化管理的基本流程
收集數據,是指將業務領域類的一切活動進行計量,然後由專人進行管理。計量的前提是要設計與業務活動實際相符合的表格單據(文件記錄)。數據記錄一般由一線的業務操作人員填寫完成,最終通過各基層管理幹部逐級上交。
收集數據中必須注意的是數據的真實性、准確性、時效性。對於基礎數據的質疑可以採用統計方法進行檢驗判別。 整理數據,是指將收集完畢的數據進行歸類,對有效的數據進行統計,剔除無效數據。整理數據中需要注意數據的真偽、時效等。
3、記錄數據。
記錄數據,是指將一切有效的數據記錄在特定形式的數據文檔中。在這個環節,需要設計一套適合業務實際的數據統計表格,命名為「業務名稱+基礎資料庫.xls」 的形式,存儲在固定的硬碟存儲區域。此環節尤其要注意數據保存,切忌不能因重裝系統、電腦損壞等造成基礎數據遺失,因此,需要操作者進行必要的數據備份。 是指根據管理需要,從基礎資料庫中選取有關聯的數據,通過常規的數據統計分析方法形成特定報表予以呈現。常規的數據分析方法包括:①數據展示(數據表格、數據圖表)。即充分利用計算機操作軟體,將數據進行直觀的展示。②數據分析。數據分析常規方法是對比分析(包括同比、環比、定基比)、趨勢分析(時間段趨勢分析)、結構分析、異常分析等。數據分析過程中,需要大量運用常規的統計分析軟體進行,包括一般人熟練使用的office excell、和專業統計分析軟體SPSS、e-views Minitab等。③ 如果在對於管理者統計專業知識底子豐厚的情況下,還有必要對數據進行檢驗分析,以呈現數據的准確性。
以上數據分析載體為報表,報表設計應簡潔、明確、適合管理層的接受能力,和必須注意時效性。 是指經過以上步驟形成的數據報表,基本能夠明確指出業務工作中存在的基本狀況,因此,在向管理層提供報表的同時,需要明確指出報表中顯現的各類突出問題,並根據自己所掌握的能力提出合理的管理建議,以供管理者決策使用。