A. 数据挖掘的六大主要功能
数据挖掘的六大主要功能
数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义,例如:SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”确切地说,数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。
数据挖掘的主要功能
数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下:
1、数据总结:继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效方法。另外还可以用直方图、饼状图等图形方式表示这些值。广义上讲,多维分析也可以归入这一类。
2、分类:目的是构造一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,…,vn;c),其中vi表示字段值,c表示类别。
例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。
3、聚类:是把整个数据库分成不同的群组。它的目的是使群与群之间差别很明显,而同一个群之间的数据尽量相似。这种方法通常用于客户细分。在开始细分之前不知道要把用户分成几类,因此通过聚类分析可以找出客户特性相似的群体,如客户消费特性相似或年龄特性相似等。在此基础上可以制定一些针对不同客户群体的营销方案。
例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。
4、关联分析:是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性;序列模式与此类似,寻找的是事件之间时间上的相关性,例如:今天银行利率的调整,明天股市的变化。
5、预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。
6、偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。
以上数据挖掘的各项功能不是独立存在的,它们在数据挖掘中互相联系,发挥作用。
B. 运行文件时提示 数据库连接不成功,错误号:-2147024770错误描述:Automationerror
automation直接文艺就是;自动化【技术】自动操作;建议您备好数据,重新安装您的软件,多半是系统中度受损,缺文件。我的答案您满意吗。
C. 数据来源与处理
区域地壳稳定性基础数据来源于中国地质科学院地质力学研究所主编的《中国区域地壳稳定性图(1∶500万)》,1997年由地质出版社出版[19]。基于ArcGIS平台,将中国区域地质稳定性图数字化,并对栅格化后的数据统计分析。
断裂活动性基础数据来源于邓启东主编的《中国活动构造图(1∶400万)》,2007年由地震出版社出版[20]。
海拔与地表起伏度基础数据来源于美国太空总署(NASA)和国防部国家测绘局(NIMA)联合测量的数字地表高程模型SRTM DEM,数据精度为3弧秒(90×90m),由中国科学院资源环境数据中心提供。基于SRTM DEM数据,利用ArcGIS空间分析模块Spatial Analyst中邻域统计工具Neighbor-hood Statistics,以4×4像元的矩形作为模版算子对整个研究区进行遍历计算,分别提取各区域最高海拔和最低海拔数据,运用栅格计算器calculator,将两者求差,得到一个新栅格图层,其每个栅格的值是以这个栅格为中心的确定领域的地形起伏度值。
植被覆盖度基础数据来源于2009年全球旬NDVI数据集,空间分辨率:0.05°×0.05°,坐标系统:WGS1984,NDVI值域为[-1,+1],由地球系统科学数据共享平台提供。旬NDVI数据均通过国际通用的可以进一步消除云、大气、太阳高度角等部分干扰的最大合成法获得,利用像元二分模型估算植被覆盖度。
岩溶发育程度基础数据来源于中国地质调查局发展研究中心“区域地质调查跟踪与部署研究项目”(121201110)。
地表湿润指数基础数据来源于1961~2013年中国地面降水月值0.5°×0.5°格点数据集(V2.0)数据、1961~2013年中国地面气温月值0.5°×0.5°格点数据集(V2.0)和日照时数数据,由中国气象科学数据共享服务网提供。地表湿润指数计算公式为:
W=P/ET0
式中:W为湿润指数;P为降水量(mm);ET0为潜在蒸散量(mm)。ET0采用Thornthwaite模型计算。
土壤可蚀性基础数据来源于世界土壤数据库(HWSD v1.1),由地球系统科学数据共享平台提供。数据比例尺为1km格网,数据格式为Geotiff,时间为2009年。该数据库由联合国粮农组织(FAO)、国际应用系统分析研究所(IIASA)、荷兰ISRIC-World Soil Information、中国科学院南京土壤研究所(ISSCAS)、欧洲委员会联合研究中心(JRC)于2009年3月共同发布。数据库提供了各个格网点的土壤类型(FAO-74、85、90)、土壤相位、土壤(0~100cm)理化性状(16个指标)等信息。采用在我国广泛使用的EPIC模型,利用土壤有机质和颗粒组成因子(粘粒、粉粒、砂粒)进行估算土壤可蚀性因子K。
土壤侵蚀强度基础数据来源于中国1∶10万土壤侵蚀强度等级图(1997~2000年),由地球系统科学数据共享平台黄土高原科学数据共享平台提供。数据内容覆盖1997~2000年1∶10万各省土壤侵蚀强度等级数据,包括水力侵蚀、风力侵蚀、冻融侵蚀、重力侵蚀、工程侵蚀5个一级类别;微度、轻度、中度、强度、极强度、剧烈6个二级另类别,由第二次全国遥感水土流失普查获得。
社会经济数据采用的是全国千米网格GDP分布数据集和全国千米网格人口分布数据集,由国家科技基础条件平台:地球系统科学数据共享平台(www.geodata.cn)提供。
土地覆被数据采用的是地球系统科学数据共享平台提供的2009年全球1km土地覆被数据集(GlobCover)。GlobCover是欧洲空间局(European Space Agency)建立的全球土地覆被数据集,数据集是根据UNLCCS分类标准,综合采用监督分类和非监督分类两种方法对多时相的MERIS L1B数据进行分类而得到的。GlobCover数据集空间分辨率5°×5°。根据需要,本书将土地覆被类型合并为耕地、林地、草地、水域、未利用地、城乡工矿居民用地等6种土地覆被类型。
本书栅格图层统一重采样为1km×1km的格网,各图层投影参数统一设定为:Projection: Albers;False_Easting: 0.000000;False_Northing: 0.000000;Central_Meridian: 105.000000;Standard_Parallel_1:25.000000;Standard_Parallel_2: 47.000000;Latitude_Of_ Origin: 0.000000;Linear Unit: Meter(1.000000);Geographic Coordinate System: GCS_WGS_1984。