‘壹’ 什么是探索性数据分析,试阐述探索性数据分析的四大主题
数据析指用适统计析收集量数据进行析提取用信息形结论数据加详细研究概括总结程程质量管理体系支持程实用数据析帮助作判断便采取适行
数据析数基础20世纪早期已确立直计算机现才使实际操作能并使数据析推广数据析数与计算机科相结合产物
统计领域些数据析划描述性统计析、探索性数据析及验证性数据析;其探索性数据析侧重于数据发现新特征验证性数据析则侧重于已假设证实或证伪
探索性数据析指形值假设检验数据进行析种传统统计假设检验手段补充该由美着名统计家约翰·图基(John Tukey)命名
定性数据析称定性资料析、定性研究或者质性研究资料析指诸词语、照片、观察结类非数值型数据(或者说资料)析
具体
数据析极广泛应用范围典型数据析能包含三步:
1、探索性数据析:数据刚取能杂乱章看规律通作图、造表、用各种形式程拟合计算某些特征量等手段探索规律性能形式即往向用何种式寻找揭示隐含数据规律性
2、模型选定析探索性析基础提类或几类能模型通进步析挑选定模型
3、推断析:通使用数理统计所定模型或估计靠程度精确程度作推断
析
1、列表
实验数据按定规律用列表式表达记录处理实验数据用表格设计要求应关系清楚、简单明、利于发现相关量间物理关系;外要求标题栏注明物理量名称、符号、数量级单位等;根据需要列除原始数据外计算栏目统计栏目等要求写明表格名称、主要测量仪器型号、量程准确度等级、关环境条件参数温度、湿度等
2、作图
作图醒目表达物理量间变化关系图线简便求实验需要某些结(直线斜率截距值等)读没进行观测应点(内插)或定条件图线延伸部读测量范围外应点(外推)外某些复杂函数关系通定变换用直线图表示例半导体热敏电阻电阻与温度关系取数若用半数坐标纸lgR纵轴1/T横轴画图则条直线
3、数据析主要包含:
1. 简单数运算(Simple Math)
2. 统计(Statistics)
3. 快速傅叶变换(FFT)
4. 平滑滤波(Smoothing and Filtering)
5.基线峰值析(Baseline and Peak Analysis)
数据源
1、搜索引擎蜘蛛抓取数据;
2、网站IP、PV等基本数据;
3、网站HTTP响应间数据;
4、网站流量源数据
数据析程主要由识别信息需求、收集数据、析数据、评价并改进数据析效性组
识别需求
识别信息需求确保数据析程效性首要条件收集数据、析数据提供清晰目标识别信息需求管理者职责管理者应根据决策程控制需求提信息需求程控制言管理者应识别需求要利用些信息支持评审程输入、程输、资源配置合理性、程优化案程异变异发现
收集数据
目收集数据确保数据析程效基础组织需要收集数据内容、渠道、进行策划策划应考虑:
①识别需求转化具体要求评价供需要收集数据能包括其程能力、测量系统确定度等相关数据;
②明确由谁何何处通何种渠道收集数据;
③记录表应便于使用; ④采取效措施防止数据丢失虚假数据系统干扰
析数据
析数据收集数据通加工、整理析、使其转化信息通用:
七种工具即排列图、图、层、调查表、散步图、直图、控制图;
新七种工具即关联图、系统图、矩阵图、KJ、计划评审技术、PDPC、矩阵数据图;
程改进
数据析质量管理体系基础组织管理者应适通问题析评估其效性:
①提供决策信息否充、信否存信息足、失准、滞导致决策失误问题;
②信息持续改进质量管理体系、程、产品所发挥作用否与期望值致否产品实现程效运用数据析;
③收集数据目否明确收集数据否真实充信息渠道否畅通;
④数据析否合理否风险控制接受范围;
⑤数据析所需资源否保障