导航:首页 > 数据处理 > 数据的分类方法有哪些

数据的分类方法有哪些

发布时间:2022-04-18 13:13:55

1. 数据分析有哪些分类

​按数据分析面对的问题不同分类:战略、运营

战略分析:是为了解决公司战略方向问题,回答要向哪里去的问题。

此类分析通常比较宏观,需要分析者有大局观、有战略思维;

所用的数据除了公司内部的数据,还需要竞品数据、行业数据。

战略分析的方法:需要从竞品及行业数据中发现行业发展趋势及竞品的战略定位,同时结合公司内部数据,可以发现相对于行业和竞品发展,内部在哪些地方存在不足,以此制定进攻和防守策略

运营分析:不同于战略分析,运营分析以解决实际运营问题为目标,比较微观。

需要分析者对公司业务模式、运营细节有深入的了解;

使用的数据以公司内部数据为主。

此类分析最重要的是,分析结果要能够与运营结合,并能有效落地

按数据分析服务的部门不同分类:业务、数据

业务分析:此类分析由业务部门发起,提交给分析师执行,最终结果交付给业务部门。此类分析一般在最终的价值发现环节效率较高,问题的针对性较强。

数据分析:此类分析由数据部门发起,最终结果视具体情况可能提高给业务部门或者管理层。由于此类分析的视角不同于业务分析,在最终的价值发现和实现环节需要与业务部门的深入沟通。同时,也正是由于视角不同,会经常发现业务部门没有发现或者忽视的问题。

数据分析按分析的范围不同分类:行业、公司、部门、业务环节

行业分析:目的是总结和预测整个行业的过去和未来的发展趋势,时间窗口一般在1年以上。使用场景较多的是在投资公司中或者很多公司的市场宣传稿中会出现。行业分析的对象是商业模式或者业务形态,关注的是资金、市场格局、用户需求的变化和各企业的应对。最有价值和最难的是要提前预测行业的增长爆发点和衰退的转折点。

公司分析:目的是结合行业分析对公司业务发展做出诊断,给公司发展提供决策建议。时间窗口一般在一年以内,在公司战略决策会发挥较大的作用。SWOT等方法适合在公司分析中使用。分析者首先要认清企业的商业模式,要与公司的管理者同步公司的短期和长期目标,了解企业的盈利来源和运作方式,通过公司内外部数据的对比发现运营中的问题和商机。在这个过程中,了解市场和竞品的动态是非常重要的。

部门分析:目的是对部门职能范围内的业务发展做出正确的诊断并给出适当的建议。前提是能充分理解部门在整个公司中的角色和地位、该部门与其他部门的协作关系、在工作流程中的上下游关系。基于以上理解,以配合公司业务发展为目的,以提升部门KPI或某个关键任务为分析目标,利用公司和部门运营数据去做分析。此类分析中,理解公司业务、有产品和业务思维很重要,指标的分解、对比,数据变化的归因往往是常用的分析方法。

业务环节分析:这是数据分析在业务最细粒度的应用。分析者只需要关注非常具体的某个业务环节,让大家感兴趣的是这个业务环节数据的变化原因和改善方式。此时分析的指标经常是确定的,目标也很直接。但所谓牵一发动全身,这个环节的变化通常是由其他环节的变化引起的。所以万万不能走入一叶障目不见泰山的误区。

数据分析按项目的阶段不同分类:咨询、实施

咨询分析:以前有过跟咨询公司合作的经历。在项目开始阶段,乙方通常需要花很多时间讨论项目立项的必要性、收益等,以此来说服甲方老板,你懂的。但是,我要说的是,即使是公司自行研发的项目,在立项阶段,数据分析需要做的是树立目标。通过数据分析,可以对业务有一个全面的诊断,发现问题,提出项目需要改善的主要指标,并预测出项目上线后的收益。立项是需要管理层批准的,因此这个阶段的分析需要简明扼要、一针见血,分析结果的呈现起着至关重要的作用。

实施分析:项目开始后,数据分析需要做的是过程控制。除了项目目标涉及的主要指标需要持续关注之外,还需要关注过程类指标。所谓过程类指标,是指能够反映出项目执行内容的数据。因为主要指标的表现通常是滞后的,而且是若干因素影响的结果,过程指标是为了明确各影响因素的作用效果。比如项目目标是提升使用时长,项目内容可能包括提升新用户和老用户的使用时长,那么则应该把新老用户的时长作为指标单独监控和分析。

2. 数据分析方法有哪些

常用的数据分析方法有:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析。

1、聚类分析(Cluster Analysis)

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。

2、因子分析(Factor Analysis)

因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。

3、相关分析(Correlation Analysis)

相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。

4、对应分析(Correspondence Analysis)

对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

5、回归分析

研究一个随机变量Y对另一个(X)或一组(X1,X2,?,Xk)变量的相依关系的统计分析方法。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。

6、方差分析(ANOVA/Analysis of Variance)

又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显着性检验。由于各种因素的影响,研究所得的数据呈现波动状。

想了解更多关于数据分析的信息,推荐到CDA数据认证中心看看,CDA(Certified Data Analyst),即“CDA 数据分析师”,是在数字经济大背景和人工智能时代趋势下,面向全行业的专业权威国际资格认证, 旨在提升全民数字技能,助力企业数字化转型,推动行业数字化发展。 “CDA 数据分析师”具体指在互联网、金融、零售、咨询、电信、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、 提供决策的新型数据分析人才。

3. 统计数据的类型有哪些

1、统计数据表达形式有统计表格和统计地图两种。

按表示方法分为:

①分区统计。即用图形的面积或同样图形的个数,代表所在区划单元内全部同类现象的总和;如2008美国社区调查一年数据样本文件总体

②分级统计。即以统计图形式按行政区划或经济区划分级,以不同深浅的颜色或疏密不等的晕线、晕点表示现象相对指标的差异;

③定位统计。以统计图表形式表示某一点上的特种现象和变化规律。

2、按统计指标统计数据分为 宏观经济指标统计和行业经济指标统计。

常见的宏观经济指标有:GDP,CPI,PPI,PMI及流通中的现金。

行业经济指标如煤炭行业,石油行业的景气状况分析等。

(3)数据的分类方法有哪些扩展阅读

统计数据是采用某种计量尺度对事物进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据。从上述四种计量尺度计量的结果来看,可以将统计数据分为以下四种类型:

1、定类数据——表现为类别,但不区分顺序,是由定类尺度计量形成的。

2、定序数据——表现为类别,但有顺序,是由定序尺度计量形成的。

3、定距数据——表现为数值,可进行加、减运算,是由定距尺度计量形成的。

4、定比数据——表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。

4. 统计学中的分类方法

介绍
理解不同的数据类型,是探索性数据分析(Exploratory Data Analysis,EDA)所需的关键预备知识,同时也有助于你选择正确的可视化方法。你可以将数据类型看成归类不同类型变量的方式。我们将讨论主要的变量类型,以及相应的示例。有时我们会称其为测量尺度(measurement scale)。

类别数据

类别数据(categrorical data)表示特性,例如一个人的性别,所说的语言,等等。类别数据同样可以使用数值(例如:1表示雌性,0表示雄性)。

名目数据

名目值(nominal value)指用于标记变量的定性离散单元。你可以直接把它们想象成“标签”。注意名目数据是无序的。因此,如果你改变名目值的顺序,其语义并不会改变。下面是一些名目特征的例子:

性别:雌性、雄性。
语言:英语、法语、德语、西班牙语。
上面的性别特征也被称为“二分(dichotomous)”值,因为它只包含两个类别。

次序数据

次序值(ordinal value)指离散、有序的定性单元。除了有序之外,它几乎和名目数据一样。例如,教育背景可以用次序值来表示:

初中
高中
大学
研究生
注意,其实初中、高中之间的差别,和高中、大学之间的差别,是不一样的。这是次序数据的主要限制,次序值之间的差别是未知的。因此,次序值通常用于衡量非数值特征,例如愉悦程度、客户满意度。

数值数据
离散数据

离散数据(discrete data)的值是不同而分散的,换句话说,只能接受一些特定值。这类数据无法测量但可以计数。它基本上用来表示可以分类的信息。例如,抛100次硬币正面向上的次数。

你可以通过以下两个问题检查你处理的是否是离散数据:你可以对其计数吗?它可以被切分成越来越小的部分吗?

相反,如果数据可以测量但无法计数,那就是连续数据。

连续数据

连续数据(continuous data)表示测量。例如身高。

连续数据可以分为等距数据(interval data)和等比数据(ratio data)。

等距值指间隔相等的有序单元,也就是说,等距变量包含有序数值,并且我们知道这些数值之间的间隔。例如,用等距数据表示温度:

-10
-5
0
+5
+10
+15
等距值的问题在于,它们没有“真正的零”。拿上面的例子来说,0度不是绝对零度。另外,我们可以加减等距值,而不能乘除等距值或计算比率。由于没有“真正的零”,无法应用许多描述统计学或推论统计学的方法。

等比值具有等距值的所有特性,同时也有绝对的零。因此,不仅可以加减,还可以乘除。高度、重量、长度、绝对温度等都属于等比值。

数据类型为什么重要?
数据类型是一个非常重要的概念,因为统计学方法只能应用于特定的数据类型。你需要使用不同的方式分析连续数据和类别数据。因此,理解你处理的数据的类型,让你能够选择正确的分析方法。

下面我们将重新查看上面提到的每种数据类型,了解它们可以应用什么样的统计学方法。为了理解我们将讨论的一些性质,你需要对描述性统计学有所了解。如果你对此不熟悉,可以先看下我写的描述性统计学介绍。

统计学方法
名目数据

处理名目数据时,你通过下述方式收集信息:

频数 在一段时间内或整个数据集中出现的次数。
比例 频数除以所有事件的频数之和,即可得到比例。
百分比 我想这无需解释了吧。
众数 出现次数最多,也就是频数最高的数据。
可视化方法 你可以使用饼图或直方图可视化名目数据。
统计学常用数据类型
左:饼图;右:直方图

次序数据

当你处理次序数据时,你可以使用以上用于名目数据的方法,不过,除此之外,你还可以使用一些额外的工具。也就是说,你可以使用频数、比例、百分比、众数概括次序数据,也可以使用饼图、直方图可视化次序数据。除此之外,你还可以使用:

百分位数 计算由小到大排列的次序数据的累计百分位,某一百分位对应的数据值就称为这一百分位的百分位数。百分位数可以用来描述数据的离散趋势。
中位数 即第50百分位数,它将数据分为相等的上下两部分。中位数可以用来描述数据的中间趋势。例如,如果我们用次序数据表示星巴克咖啡的容量:中杯、大杯、特大杯。那么,其中位数为大杯(也就是说,真正的中杯是大杯)。
四分位距 第75百分位数与第25百分位数之差即为四分位距。四分位距可以简要概述数据的离散趋势。
连续数据

大多数统计学方法都可以用于连续数据。你可以使用百分位数、中位数、四分位距、均值、众数、标准差、区间。

你可以使用矩形图或箱形图可视化连续数据。从矩形图上可以看到分布的中间趋势、离散程度、形态和峰态。注意,矩形图不体现离散值,因此我们有时使用箱形图。

5. 整理数据的常用方法有 分类、 ()分组、()等

编号
排序
我就是初二学生!
请采纳我的答案~

6. 分类数据和顺序数据的整理和图示方法各有那些

对于分类数据:
(1)数据的整理方法有列出所分的类别,计算每一类别的频数、频率、比例、比率等
(2)图示方法有条形图和圆形图
对于顺序数据:
(1)数据的整理方法中包括所有的处理分类数据的方法,同时还可以计算累积频数和累积频率
(2)图示方法包括累积分布图和环形图

7. 各种遥感数据分类方法比较

常用的遥感数据的专题分类方法有多种,从分类判别决策方法的角度可以分为统计分类器、神经网络分类器、专家系统分类器等;从是否需要训练数据方面,又可以分为监督分类器和非监督分类器。

一、统计分类方法

统计分类方法分为非监督分类方法和监督分类方法。非监督分类方法不需要通过选取已知类别的像元进行分类器训练,而监督分类方法则需要选取一定数量的已知类别的像元对分类器进行训练,以估计分类器中的参数。非监督分类方法不需要任何先验知识,也不会因训练样本选取而引入认为误差,但非监督分类得到的自然类别常常和研究感兴趣的类别不匹配。相应地,监督分类一般需要预先定义分类类别,训练数据的选取可能会缺少代表性,但也可能在训练过程中发现严重的分类错误。

1.非监督分类器

非监督分类方法一般为聚类算法。最常用的聚类非监督分类方法是 K-均值(K-Means Algorithm)聚类方法(Duda and Hart,1973)和迭代自组织数据分析算法(ISODATA)。其算法描述可见于一般的统计模式识别文献中。

一般通过简单的聚类方法得到的分类结果精度较低,因此很少单独使用聚类方法进行遥感数据专题分类。但是,通过对遥感数据进行聚类分析,可以初步了解各类别的分布,获取最大似然监督分类中各类别的先验概率。聚类分析最终的类别的均值矢量和协方差矩阵可以用于最大似然分类过程(Schowengerdt,1997)。

2.监督分类器

监督分类器是遥感数据专题分类中最常用的一种分类器。和非监督分类器相比,监督分类器需要选取一定数量的训练数据对分类器进行训练,估计分类器中的关键参数,然后用训练后的分类器将像元划分到各类别。监督分类过程一般包括定义分类类别、选择训练数据、训练分类器和最终像元分类四个步骤(Richards,1997)。每一步都对最终分类的不确定性有显着影响。

监督分类器又分为参数分类器和非参数分类器两种。参数分类器要求待分类数据满足一定的概率分布,而非参数分类器对数据的概率分布没有要求。

遥感数据分类中常用的分类器有最大似然分类器、最小距离分类器、马氏距离分类器、K-最近邻分类器(K-Nearest neighborhood classifier,K-NN)以及平行六面体分类器(parallelepiped classifier)。最大似然、最小距离和马氏距离分类器在第三章已经详细介绍。这里简要介绍 K-NN 分类器和平行六面体分类器。

K-NN分类器是一种非参数分类器。该分类器的决策规则是:将像元划分到在特征空间中与其特征矢量最近的训练数据特征矢量所代表的类别(Schowengerdt,1997)。当分类器中 K=1时,称为1-NN分类器,这时以离待分类像元最近的训练数据的类别作为该像元的类别;当 K >1 时,以待分类像元的 K 个最近的训练数据中像元数量最多的类别作为该像元的类别,也可以计算待分类像元与其 K 个近邻像元特征矢量的欧氏距离的倒数作为权重,以权重值最大的训练数据的类别作为待分类像元的类别。Hardin,(1994)对 K-NN分类器进行了深入的讨论。

平行六面体分类方法是一个简单的非参数分类算法。该方法通过计算训练数据各波段直方图的上限和下限确定各类别像元亮度值的范围。对每一类别来说,其每个波段的上下限一起就形成了一个多维的盒子(box)或平行六面体(parallelepiped)。因此 M 个类别就有M 个平行六面体。当待分类像元的亮度值落在某一类别的平行六面体内时,该像元就被划分为该平行六面体代表的类别。平行六面体分类器可以用图5-1中两波段的遥感数据分类问题来表示。图中的椭圆表示从训练数据估计的各类别亮度值分布,矩形表示各类别的亮度值范围。像元的亮度落在哪个类别的亮度范围内,就被划分为哪个类别。

图5-1 平行六面体分类方法示意图

3.统计分类器的评价

各种统计分类器在遥感数据分类中的表现各不相同,这既与分类算法有关,又与数据的统计分布特征、训练样本的选取等因素有关。

非监督聚类算法对分类数据的统计特征没有要求,但由于非监督分类方法没有考虑任何先验知识,一般分类精度比较低。更多情况下,聚类分析被作为非监督分类前的一个探索性分析,用于了解分类数据中各类别的分布和统计特征,为监督分类中类别定义、训练数据的选取以及最终的分类过程提供先验知识。在实际应用中,一般用监督分类方法进行遥感数据分类。

最大似然分类方法是遥感数据分类中最常用的分类方法。最大似然分类属于参数分类方法。在有足够多的训练样本、一定的类别先验概率分布的知识,且数据接近正态分布的条件下,最大似然分类被认为是分类精度最高的分类方法。但是当训练数据较少时,均值和协方差参数估计的偏差会严重影响分类精度。Swain and Davis(1978)认为,在N维光谱空间的最大似然分类中,每一类别的训练数据样本至少应该达到10×N个,在可能的条件下,最好能达到100×N以上。而且,在许多情况下,遥感数据的统计分布不满足正态分布的假设,也难以确定各类别的先验概率。

最小距离分类器可以认为是在不考虑协方差矩阵时的最大似然分类方法。当训练样本较少时,对均值的估计精度一般要高于对协方差矩阵的估计。因此,在有限的训练样本条件下,可以只估计训练样本的均值而不计算协方差矩阵。这样最大似然算法就退化为最小距离算法。由于没有考虑数据的协方差,类别的概率分布是对称的,而且各类别的光谱特征分布的方差被认为是相等的。很显然,当有足够训练样本保证协方差矩阵的精确估计时,最大似然分类结果精度要高于最小距离精度。然而,在训练数据较少时,最小距离分类精度可能比最大似然分类精度高(Richards,1993)。而且最小距离算法对数据概率分布特征没有要求。

马氏距离分类器可以认为是在各类别的协方差矩阵相等时的最大似然分类。由于假定各类别的协方差矩阵相等,和最大似然方法相比,它丢失了各类别之间协方差矩阵的差异的信息,但和最小距离法相比较,它通过协方差矩阵保持了一定的方向灵敏性(Richards,1993)。因此,马氏距离分类器可以认为是介于最大似然和最小距离分类器之间的一种分类器。与最大似然分类一样,马氏距离分类器要求数据服从正态分布。

K-NN分类器的一个主要问题是需要很大的训练数据集以保证分类算法收敛(Devijver and Kittler,1982)。K-NN分类器的另一个问题是,训练样本选取的误差对分类结果有很大的影响(Cortijo and Blanca,1997)。同时,K-NN分类器的计算复杂性随着最近邻范围的扩大而增加。但由于 K-NN分类器考虑了像元邻域上的空间关系,和其他光谱分类器相比,分类结果中“椒盐现象”较少。

平行六面体分类方法的优点在于简单,运算速度快,且不依赖于任何概率分布要求。它的缺陷在于:首先,落在所有类别亮度值范围之外的像元只能被分类为未知类别;其次,落在各类别亮度范围重叠区域内的像元难以区分其类别(如图5-1所示)。

各种统计分类方法的特点可以总结为表5-1。

二、神经网络分类器

神经网络用于遥感数据分类的最大优势在于它平等地对待多源输入数据的能力,即使这些输入数据具有完全不同的统计分布,但是由于神经网络内部各层大量的神经元之间连接的权重是不透明的,因此用户难以控制(Austin,Harding and Kanellopoulos et al.,1997)。

神经网络遥感数据分类被认为是遥感数据分类的热点研究领域之一(Wilkinson,1996;Kimes,1998)。神经网络分类器也可分为监督分类器和非监督分类器两种。由于神经网络分类器对分类数据的统计分布没有任何要求,因此神经网络分类器属于非参数分类器。

遥感数据分类中最常用的神经网络是多层感知器模型(multi-layer percep-tron,MLP)。该模型的网络结构如图5-2所示。该网络包括三层:输入层、隐层和输出层。输入层主要作为输入数据和神经网络输入界面,其本身没有处理功能;隐层和输出层的处理能力包含在各个结点中。输入的结构一般为待分类数据的特征矢量,一般情况下,为训练像元的多光谱矢量,每个结点代表一个光谱波段。当然,输入结点也可以为像元的空间上下文信息(如纹理)等,或多时段的光谱矢量(Paola and Schowengerdt,1995)。

表5-1 各种统计分类器比较

图5-2 多层感知器神经网络结构

对于隐层和输出层的结点来说,其处理过程是一个激励函数(activation function)。假设激励函数为f(S),对隐层结点来说,有:

遥感信息的不确定性研究

其中,pi为隐层结点的输入;hj为隐层结点的输出;w为联接各层神经之间的权重。

对输出层来说,有如下关系:

遥感信息的不确定性研究

其中,hj为输出层的输入;ok为输出层的输出。

激励函数一般表达为:

遥感信息的不确定性研究

确定了网络结构后,就要对网络进行训练,使网络具有根据新的输入数据预测输出结果的能力。最常用的是后向传播训练算法(Back-Propagation)。这一算法将训练数据从输入层进入网络,随机产生各结点连接权重,按式(5-1)(5-2)和(5-3)中的公式进行计算,将网络输出与预期的结果(训练数据的类别)相比较并计算误差。这个误差被后向传播的网络并用于调整结点间的连接权重。调整连接权重的方法一般为delta规则(Rumelhart,et al.,1986):

遥感信息的不确定性研究

其中,η为学习率(learning rate);δk为误差变化率;α为动量参数。

将这样的数据的前向和误差后向传播过程不断迭代,直到网络误差减小到预设的水平,网络训练结束。这时就可以将待分类数据输入神经网络进行分类。

除了多层感知器神经网络模型,其他结构的网络模型也被用于遥感数据分类。例如,Kohonen自组织网络被广泛用于遥感数据的非监督聚类分析(Yoshida et al.,1994;Schaale et al.,1995);自适应共振理论(Adaptive Resonance Theory)网络(Silva,S and Caetano,M.1997)、模糊ART图(Fuzzy ART Maps)(Fischer,M.M and Gopal,S,1997)、径向基函数(骆剑承,1999)等也被用于遥感数据分类。

许多因素影响神经网络的遥感数据分类精度。Foody and Arora(1997)认为神经网络结构、遥感数据的维数以及训练数据的大小是影响神经网络分类的重要因素。

神经网络结构,特别是网络的层数和各层神经元的数量是神经网络设计最关键的问题。网络结构不但影响分类精度,而且对网络训练时间有直接影响(Kavzoglu and Mather,1999)。对用于遥感数据分类的神经网络来说,由于输入层和输出层的神经元数目分别由遥感数据的特征维数和总的类别数决定的,因此网络结构的设计主要解决隐层的数目和隐层的神经元数目。一般过于复杂的网络结构在刻画训练数据方面较好,但分类精度较低,即“过度拟合”现象(over-fit)。而过于简单的网络结构由于不能很好的学习训练数据中的模式,因此分类精度低。

网络结构一般是通过实验的方法来确定。Hirose等(1991)提出了一种方法。该方法从一个小的网络结构开始训练,每次网络训练陷入局部最优时,增加一个隐层神经元,然后再训练,如此反复,直到网络训练收敛。这种方法可能导致网络结构过于复杂。一种解决办法是每当认为网络收敛时,减去最近一次加入的神经元,直到网络不再收敛,那么最后一次收敛的网络被认为是最优结构。这种方法的缺点是非常耗时。“剪枝法”(pruning)是另一种确定神经网络结构的方法。和Hirose等(1991)的方法不同,“剪枝法”从一个很大的网络结构开始,然后逐步去掉认为多余的神经元(Sietsma and Dow,1988)。从一个大的网络开始的优点是,网络学习速度快,对初始条件和学习参数不敏感。“剪枝”过程不断重复,直到网络不再收敛时,最后一次收敛的网络被认为最优(Castellano,Fanelli and Pelillo,1997)。

神经网络训练需要训练数据样本的多少随不同的网络结构、类别的多少等因素变化。但是,基本要求是训练数据能够充分描述代表性的类别。Foody等(1995)认为训练数据的大小对遥感分类精度有显着影响,但和统计分类器相比,神经网络的训练数据可以比较少。

分类变量的数据维对分类精度的影响是遥感数据分类中的普遍问题。许多研究表明,一般类别之间的可分性和最终的分类精度会随着数据维数的增大而增高,达到某一点后,分类精度会随数据维的继续增大而降低(Shahshahani and Landgrebe,1994)。这就是有名的Hughes 现象。一般需要通过特征选择去掉信息相关性高的波段或通过主成分分析方法去掉冗余信息。分类数据的维数对神经网络分类的精度同样有明显影响(Battiti,1994),但Hughes 现象没有传统统计分类器中严重(Foody and Arora,1997)。

Kanellopoulos(1997)通过长期的实践认为一个有效的ANN模型应考虑以下几点:合适的神经网络结构、优化学习算法、输入数据的预处理、避免振荡、采用混合分类方法。其中混合模型包括多种ANN模型的混合、ANN与传统分类器的混合、ANN与知识处理器的混合等。

三、其他分类器

除了上述统计分类器和神经网络分类器,还有多种分类器被用于遥感图像分类。例如模糊分类器,它是针对地面类别变化连续而没有明显边界情况下的一种分类器。它通过模糊推理机制确定像元属于每一个类别的模糊隶属度。一般的模糊分类器有模糊C均值聚类法、监督模糊分类方法(Wang,1990)、混合像元模型(Foody and Cox,1994;Settle and Drake,1993)以及各种人工神经网络方法等(Kanellopoulos et al.,1992;Paola and Schowengerdt,1995)。由于模糊分类的结果是像元属于每个类别的模糊隶属度,因此也称其为“软分类器”,而将传统的分类方法称为“硬分类器”。

另一类是上下文分类器(contextual classifier),它是一种综合考虑图像光谱和空间特征的分类器。一般的光谱分类器只是考虑像元的光谱特征。但是,在遥感图像中,相邻的像元之间一般具有空间自相关性。空间自相关程度强的像元一般更可能属于同一个类别。同时考虑像元的光谱特征和空间特征可以提高图像分类精度,并可以减少分类结果中的“椒盐现象”。当类别之间的光谱空间具有重叠时,这种现象会更明显(Cortijo et al.,1995)。这种“椒盐现象”可以通过分类的后处理滤波消除,也可以通过在分类过程中加入代表像元邻域关系的信息解决。

在分类过程中可以通过不同方式加入上下文信息。一是在分类特征中加入图像纹理信息;另一种是图像分割技术,包括区域增长/合并常用算法(Ketting and Landgrebe,1976)、边缘检测方法、马尔可夫随机场方法。Rignot and Chellappa(1992)用马尔可夫随机场方法进行SAR图像分类,取得了很好的效果,Paul Smits(1997)提出了保持边缘细节的马尔可夫随机场方法,并用于SAR图像的分类;Crawford(1998)将层次分类方法和马尔可夫随机场方法结合进行SAR图像分类,得到了更高的精度;Cortijo(1997)用非参数光谱分类对遥感图像分类,然后用ICM算法对初始分类进行上下文校正。

8. 数据分析的方法有哪些

数据分析是指通过统计分析方法对收集到的数据进行分析,将数据加以汇总、理解并消化,通过数据分析可以帮助人们作出判断,根据分析结果采取恰当的对策,常用的数据分析方法如下:

将收集到的数据通过加工、整理和分析的过程,使其转化为信息,通常来说,数据分析常用的方法有列表法和作图法,所谓列表法,就是将数据按一定规律用列表方式表达出来,是记录和处理数据最常用的一种方法;

表格设计应清楚表明对应关系,简洁明了,有利于发现要相关量之间的关系,并且在标题栏中还要注明各个量的名称、符号、数量级和单位等;

而作图法则能够醒目地表达各个物理量间的变化关系,从图线上可以简便求出实验需要的某些结果,一些复杂的函数关系也可以通过一定的变化用图形来表现。

想要了解更多关于数据分析的问题,可以咨询一下CDA认证中心。CDA行业标准由国际范围数据领域的行业专家、学者及知名企业共同制定并每年修订更新,确保了标准的公立性、权威性、前沿性。通过CDA认证考试者可获得CDA中英文认证证书。

9. 计算机处理数据分析分类方法有哪些

1.按信息的形式和处理方式可分类:
(1)电子数字计算机:所有信息以二进制数表示。
(2)电子模拟计算机:内部信息形式为连续变化的模拟电压,基本运算部件为运算放大器。
(3)混合式电子计算机:既有数字量又能表示模拟量,设计比较困难。

2.按使用可分类为:
(1)通用机:适用于各种应用场合,功能齐全、通用性好的计算机。
(2)专用机:为解决某种特定问题专门设计的计算机,如工业控制机、银行专用机、超级市场收银机(POS)等。

3.按计算机系统的规模和处理性能分类为:
所谓计算机系统规模主要指计算机的速度、容量和功能。一般可分巨型机、大型机、中小型机、微型机和工作站等。其中工作站(Workstation)是介于小型机和微型机之间的面向工程的计算机系统。

10. 数据挖掘中常见的分类方法有哪些

判别分析、规则归纳、决策树、神经网络、K最近邻、基于案例的推理、遗传算法等等挺多的,这个问题范围太大了,云速数据挖掘分类挺多。

阅读全文

与数据的分类方法有哪些相关的资料

热点内容
山东琪鸿保险代理公司怎么样 浏览:242
怎么找厂做代理商 浏览:734
win7怎么让程序开机启动 浏览:179
武汉野生菌交易市场在哪里 浏览:676
怎么可以交易原油 浏览:991
美国服装技术有哪些 浏览:397
苹果怎么切换程序快捷键 浏览:555
thefolktale产品如何 浏览:575
市场运营成本由哪些组成 浏览:210
淘宝产品在哪些地方推广 浏览:457
公共物品导致市场失灵具有什么性 浏览:313
微信数据系统分析在哪里 浏览:418
专利产品如何改进 浏览:709
启信宝数据服务在哪个位置 浏览:504
控制面板为什么没有程序 浏览:47
领导让我代理一千怎么办 浏览:841
谌家矶二手车市场电话多少 浏览:674
养生美容保健产品有哪些 浏览:82
百度地图怎么取消百度大数据优先 浏览:459
人才市场查个人档案应该去哪个区 浏览:987