‘壹’ 【数学建模算法】(29)数据的统计描述和分析(上)
数理统计 研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是以概率论为基础的一门应用学科。
数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息的数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。
面对一批数据如何进行描述与分析,需要掌握 参数估计 和 假设检验 这两个数理统计的最基本方法。
我们将用 Matlab 的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。
一组数据(样本)往往是杂乱无章的,做出它的频数表和直方图,可以看作是对这组数据的一个初步整理和直观描述。
将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为 频数 ,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为 直方图 ,或 频数分布图 。
若样本容量不大,能够手工做出频数表和直方图,当样本容量较大时则可以借助Matlab这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。
(1)数据输入
数据输入通常有两种方法,一种是在交互环境中直接输入,如果在统计中数据量比较大,这样作不太方便;另一种办法是先把数据写入一个纯文本数据文件data.txt中,数据列之间用空格和Tab键分割,之后以data.txt为文件名存放在某个子目录下,用Matlab中的load命令读入数据,具体做法是:
先把txt文件移入Matlab的工作文件夹中,之后在Matlab命令行或脚本中输入:
这样就在内存中建立了一个变量data它是一个包含有 个数据的矩阵。
为了得到我们需要的100个身高和体重均为一列的数据,我们对矩阵做如下处理:
(2)作频数表及其直方图
求频数用hist函数实现,其用法是:
得到数组(行列均可) 的频数表。它将区间 等分为 份(缺省时 为10), 返回 个小区间的频数, 返回 个小区间的中点。
同样的一个函数名hist还可以用来画出直方图。
对于本例的数据,可以编写如下程序画出数据的直方图。
得直方图如下:
下面我们介绍几种常用的统计量。
算术平均值 (简称均值)描述数据取值的平均位置,记作 ,
中位数 是将数据由小到大排序后位于中间位置的那个数值。
Matlab 中 mean(x)返回 x 的均值,median(x)返回中位数。
标准差 定义为:
它是各个数据与均值偏离程度的度量,这种偏离不妨称为 变异 。
方差 是标准差的平方 。
极差 是 的最大值与最小值之差。
Matlab 中 std(x)返回 x 的标准差,var(x)返回方差,range(x)返回极差。
你可能注意到标准差 s 的定义(2)中,对 的平方求和却被 除,这是出于无偏估计的要求。若需要改为被 除,Matlab 可用 std(x,1)和 var(x,1)来实现。
随机变量 的 阶 中心距 为 。
随机变量 的 偏度 和 峰度 指的是 的标准化变量 的三阶中心矩和四阶中心矩:
偏度反映分布的对称性, 称为右偏态,此时数据位于均值右边的比位于左边的多; 称为左偏态,情况相反;而 接近 0 则可认为分布是对称的。
峰度是分布形状的另一种度量,正态分布的峰度为 3,若 比 3 大得多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可以用作衡量偏离正态分布的尺度之一。
Matlab 中 moment(x,order)返回 x 的 order 阶中心矩,order 为中心矩的阶数。skewness(x)返回 x 的 偏度 ,kurtosis(x)返回 峰度 。
在以上用 Matlab 计算各个统计量的命令中,若 x 为矩阵,则作用于 x 的列,返回一个行向量。
对例1给出的学生身高和体重,用Matlab 计算这些统计量,程序如下:
统计量中最重要、最常用的是均值和标准差,由于样本是随机变量,它们作为样本的函数自然也是随机变量,当用它们去推断总体时,有多大的可靠性就与统计量的概率分布有关,因此我们需要知道几个重要分布的简单性质。
随机变量的特性完全由它的(概率)分布函数或(概率)密度函数来描述。设有随机变量 ,其分布函数定义为 的概率,即 。若 是连续型随机变量,则其密度函数 与 的关系为:
上 分位数是下面常用的一个概念,其定义为:对于 ,使某分布函数 的 ,称为这个分布的上 分位数,记作 。
我们前面画过的直方图是频数分布图,频数除以样本容量 ,称为频率, 充分大时频率是概率的近似,因此直方图可以看作密度函数图形的(离散化)近似。
正态分布可以说是最常见的(连续型)概率分布,成批生产时零件的尺寸,射击中弹着点的位置,仪器反复量测的结果,自然界中一种生物的数量特征等,多数情况下都服从正态分布,这不仅是观察和经验的总结,而且有着深刻的理论依据, 即在大量相互独立的、作用差不多大的随机因素影响下形成的随机变量,其极限分布为正态分布 。
鉴于正态分布的随机变量在实际生活中如此地常见,记住下面 3 个数字是有用的:
若 为相互独立的、服从标准正态分布 的随机变量,则它们的平方和 服从 分布,记作 , 称为自由度,它的期望 ,方差 。
若 ,且相互独立,则 服从 分布,记作 称自由度。
分布的密度函数曲线和 曲线形状相似。理论上 时, ,实际上当 时它与 就相差无几了。
若 ,且相互独立,则 服从 分布,记作 称自由度。
Matlab统计工具箱中有27种概率分布,这里只对上面所述4中分布列出命令的字符:
工具箱对每一种分布都提供五类函数,其命令的字符是:
当需要一种分布的某一种函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数就行了,如:
设总体 , 为一容量 的样本,其均值 和标准差 由式(1),(2)确定,则用 和 构造的下面两个分布在统计中是非常有用的。
或
设有两个总体 和 ,及由容量分别为 的两个样本确定的均值 和标准差 ,则:
其中:
且要求
‘贰’ 什么是数据分析
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
数据分析目的:
数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。
这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如设计人员在开始一个新的设计以前,要通过广泛的设计调查,分析所得数据以判定设计方向,因此数据分析在工业设计中具有极其重要的地位。
‘叁’ 问卷调查,“数据分析”具体指什么
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。
(3)数学什么叫统计数据分析扩展阅读
数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步:
1、探索性数据分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。
2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。
3、推断分析:通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。
参考资料来源:网络-数据分析
‘肆’ 什么是数据统计
1、统计数据是统计工作活动过程中所取得的反映国民经济和社会现象的数字资料以及与之相联系的其他资料的总称。
2、统计数据是表示某一地理区域自然经济要素特征、规模,结构、水平等指标的数据。是定性、定位和定量统计分析的基础数据。表达形式有统计表格和统计地图两种。按表示方法分为:①分区统计。即用图形的面积或同样图形的个数,代表所在区划单元内全部同类现象的总和;②分级统计。即以统计图形式按行政区划或经济区划分级,以不同深浅的颜色或疏密不等的晕线、晕点表示现象相对指标的差异;③定位统计。以统计图表形式表示某一点上的特种现象和变化规律。