1. 数据分析一般包括哪些内容
数据分析是一个庞大的框架,从数据中提取有用规律或背后的逻辑。工作中数据分析主要分为六个步骤:数据收集、数据清洗、数据存储、指标计算、数据统计分析与建模、数据可视化。
第一步数据收集,在前期数据尚未形成特定体系或业务正在运行时,需要通过各种途径获取数据。数据收集方法包括程序自动收集(数据埋点、网络爬虫、ERP或CRM系统自动生成等)、手工统计(Excel统计)、第三方网站提取(通过公开数据网站下载、API等),根据业务形态选择合适的方法。
第二步数据清洗,收集的数据是脏数据,需要通过数据清洗来提取精华,转码成特定格式。操作主要使用正则表达式进行。
第三步数据存储,随着公司数据量增大,存储数据的方法也在变化。小公司使用Excel文件存储数据,大公司使用数据库产品如Oracle、MySQL、SqlServer,现在有专门的大数据产品Hive数据仓库。公司业务调整后,将数据从单一数据库转向Hive数据仓库,方便技术、业务、分析师等角色使用。
第四步指标计算,数据分析师需要建立KPI指标,针对不同的业务场景反馈业务好坏的数据与规则。指标衡量目标,如库存周转率、毛利率、路径转换、ROI等,随着业务变化,指标也会变换。
第五步数据统计分析与建模,这个环节最有意思,会遇到假设检验、线性回归、特征工程、贝叶斯等。在此环节中,你会看到数据背后的逻辑和数据的价值。可能会遇到数据清洗过程,处理缺失值、异常值等。
第六步数据可视化,将第五步分析结果用图形式展现,常用的数据可视化产品有Tableau、PowerBI、FineBI、PPT等。这些产品能呈现交互式表格或报告。
数据分析岗位分为商业数据分析师、数据挖掘工程师、大数据开发工程师。商业数据分析师侧重业务导向,工具包括Python、R、Excel、SPSS、Tableau、PowerBI等。数据挖掘工程师侧重技术方向,工具包括Python、Java、C、C++等。大数据开发工程师负责搭建数据平台,开发适合公司数据流的数据平台,工具包括Hadoop、Hive、Spark、Python、Java、C、C++等。
数据分析是一个新兴岗位,大多数人不断学习改进。以上为个人观点,欢迎补充交流。