1. 數據的生成
數據的生成是一個過程,它是指一般意義上的計算機文件創建與勘探開發設備數據信息產生階段,是電子文件或源頭數據生命周期的開始。有時候人們將剛剛形成的這些文件或數據,稱為「裸文件」、「純數據」。最先接觸地質勘探開發工作中的「裸文件」、「純數據」的是地質工程技術人員和或課題研究人員,機出數據一般顯示原生態信息數據;研究人員手中形成的是圖文性數據,他們可以對正在形成過程中的「裸文件」、進行修正、去噪,可以在電子文本形成過程中剪切、復制、可以撤銷或恢復、增刪、修改,插入表格或圖片等。數據池中的數據,是由這些各類工程設備機出「純數據」和研究人員手裡的文件性數據集成或組構而成的。
2. 數據分析要經歷哪些流程
1、數據收集
數據收集是數據分析的最基本操作,你要分析一個東西,首先就得把這個東西收集起來才行。由於現在數據採集的需求,一般有Flume、Logstash、Kibana等工具,它們都能通過簡單的配置完成復雜的數據收集和數據聚合。
2、數據預處理
收集好以後,我們需要對數據去做一些預處理。千萬不能一上來就用它做一些演算法和模型,這樣的出來的結果是不具備參考性的。數據預處理的原因就是因為很多數據有問題,比如說他遇到一個異常值(大家都是正的,突然蹦出個負值),或者說缺失值,我們都需要對這些數據進行預處理。
3、數據存儲
數據預處理之後,下一個問題就是:數據該如何進行存儲?通常大家最為熟知是MySQL、Oracle等傳統的關系型資料庫,它們的優點是能夠快速存儲結構化的數據,並支持隨機訪問。但大數據的數據結構通常是半結構化(如日誌數據)、甚至是非結構化的(如視頻、音頻數據),為了解決海量半結構化和非結構化數據的存儲,衍生了HadoopHDFS、KFS、GFS等分布式文件系統,它們都能夠支持結構化、半結構和非結構化數據的存儲,並可以通過增加機器進行橫向擴展。
4、數據分析
做數據分析有一個非常基礎但又極其重要的思路,那就是對比,基本上 90% 以上的分析都離不開對比。主要有:縱比、橫比、與經驗值對比、與業務目標對比等。
5、數據運用
其實也就是把數據結果通過不同的表和圖形,可視化展現出來。使人的感官更加的強烈。常見的數據可視化工具可以是excel,也可以用power BI系統。
6、總結分析
根據數據分析的結果和報告,提出切實可行的方案,幫助企業決策等。