1. 数据的生成
数据的生成是一个过程,它是指一般意义上的计算机文件创建与勘探开发设备数据信息产生阶段,是电子文件或源头数据生命周期的开始。有时候人们将刚刚形成的这些文件或数据,称为“裸文件”、“纯数据”。最先接触地质勘探开发工作中的“裸文件”、“纯数据”的是地质工程技术人员和或课题研究人员,机出数据一般显示原生态信息数据;研究人员手中形成的是图文性数据,他们可以对正在形成过程中的“裸文件”、进行修正、去噪,可以在电子文本形成过程中剪切、复制、可以撤销或恢复、增删、修改,插入表格或图片等。数据池中的数据,是由这些各类工程设备机出“纯数据”和研究人员手里的文件性数据集成或组构而成的。
2. 数据分析要经历哪些流程
1、数据收集
数据收集是数据分析的最基本操作,你要分析一个东西,首先就得把这个东西收集起来才行。由于现在数据采集的需求,一般有Flume、Logstash、Kibana等工具,它们都能通过简单的配置完成复杂的数据收集和数据聚合。
2、数据预处理
收集好以后,我们需要对数据去做一些预处理。千万不能一上来就用它做一些算法和模型,这样的出来的结果是不具备参考性的。数据预处理的原因就是因为很多数据有问题,比如说他遇到一个异常值(大家都是正的,突然蹦出个负值),或者说缺失值,我们都需要对这些数据进行预处理。
3、数据存储
数据预处理之后,下一个问题就是:数据该如何进行存储?通常大家最为熟知是MySQL、Oracle等传统的关系型数据库,它们的优点是能够快速存储结构化的数据,并支持随机访问。但大数据的数据结构通常是半结构化(如日志数据)、甚至是非结构化的(如视频、音频数据),为了解决海量半结构化和非结构化数据的存储,衍生了HadoopHDFS、KFS、GFS等分布式文件系统,它们都能够支持结构化、半结构和非结构化数据的存储,并可以通过增加机器进行横向扩展。
4、数据分析
做数据分析有一个非常基础但又极其重要的思路,那就是对比,基本上 90% 以上的分析都离不开对比。主要有:纵比、横比、与经验值对比、与业务目标对比等。
5、数据运用
其实也就是把数据结果通过不同的表和图形,可视化展现出来。使人的感官更加的强烈。常见的数据可视化工具可以是excel,也可以用power BI系统。
6、总结分析
根据数据分析的结果和报告,提出切实可行的方案,帮助企业决策等。