❶ 大数据的定义是什么
大数据首先是一个非常大的数据集,可以达到TB(万亿字节)甚至ZB(十万亿亿字节)。这里面的数据可能既有结构化的数据,也有半结构化和非结构化的数据,而且来自于不同的数据源。
结构化的数据是什么呢?对于接触过关系型数据库的小伙伴来说,应该一点都不陌生。对了,就是我们关系型数据库中的一张表,每行都具有相同的属性。如下面的一张表:
(子标签的次序和个数不一定完全一致)
那什么又是非结构化数据呢?这类数据没有预定义完整的数据结构,在我们日常工作生活中可能更多接触的就是这类数据,比如,图片、图像、音频、视频、办公文档等等。
知道了这三类结构的数据,我们再来看看大数据的数据源有哪些呢?归纳起来大致有五种数据源。
一是社交媒体平台。如有名气的Facebook、Twitter、YouTube和Instagram等。媒体是比较受欢迎的大数据来源之一,因为它提供了关于消费者偏好和变化趋势的宝贵依据。并且因为媒体是自我传播的,可以跨越物理和人口障碍,因此它是企业深入了解目标受众、得出模式和结论、增强决策能力的方式。
二是云平台。公有的、私有的和第三方的云平台。如今,越来越多的企业将数据转移到云上,超越了传统的数据源。云存储支持结构化和非结构化数据,并为业务提供实时信息和随需应变的依据。云计算的主要特性是灵活性和可伸缩性。由于大数据可以通过网络和服务器在公共或私有云上存储和获取,因此云是一种高效、经济的数据源。
三是Web资源。公共网络构成了广泛且易于访问的大数据,个人和公司都可以从网上或“互联网”上获得数据。此外,国内的大型购物网站,淘宝、京东、阿里巴巴,更是云集了海量的用户数据。
四是IoT(Internet of Things)物联网数据源。物联网目前正处于迅猛发展势头。有了物联网,我们不仅可以从电脑和智能手机获取数据,还可以从医疗设备、车辆流程、视频游戏、仪表、相机、家用电器等方面获取数据。这些都构成了大数据宝贵的数据来源。
五是来自于数据库的数据源。现今的企业都喜欢融合使用传统和现代数据库来获取相关的大数据。这些数据都是企业驱动业务利润的宝贵资源。常见的数据库有MS Access、DB2、Oracle、MySQL以及大数据的数据库Hbase、MongoDB等。
我们再来总结一下,什么样的数据就属于大数据呢?通常来大数据有4个特点,这就是业内人士常说的4V,volume容量、 variety多样性、velocity速度和veracity准确性。
❷ 什么是空间数据,它包括那几种类型
空间数据又称几何数据,它用来表示物体的位置、形态、大小分布等各方面的信息,是对现世界中存在的具有定位意义的事物和现象的定量描述。根据在计算机系统中对地图是对现实教想的存储组织、处理方法的不同,以及空间数据本身的几何特征,空间数据又可分为图形数据和图像数据。
空间数据包括以下五种类型:
1、地图数据:这类数据主要来源于各种类型的普通地图和专题地图,这些地图的内容非常丰富。
2、影像数据:这类数据主要来源于卫星、航空遥感,包括多平台、多层面、多种传感器、多时相、多光谱、多角度和多种分辨率的遥感影像数据,构成多元海量数据。
3、地形数据:这类数据来源于地形等高线图的数字化,已建立的数据高程模型(DEM)和其他实测的地形数据。
4、属性数据:这类数据主要来源于各类调查统计报告、实测数据、文献资料等。
5、混合数据:这类数据来源于卫星、航空遥感与各种类型的普通地图和专题地图形成多方面数据。
空间数据结构是空间数据适合于计算机存储、管理、处理的逻辑结构,是空间数据在计算机内的组织和编码形式,是地理实体的空间排列和相互关系的抽象描述。它是对空间数据的一种理解和解释。
空间数据结构又是指空间数据的编排方式和组织关系。空间数据编码是指空间数据结构的具体实现,是将图形数据、影像数据、统计数据等资料按一定的数据结构转换为适合计算机存储和处理的形式。不同数据源采用不同的数据结构处理,内容相差极大,计算机处理数据的效率很大程度取决于数据结构。
(2)高维数据由什么构成扩展阅读:
空间数据库管理系统是空间数据库的核心软件,将对空间数据和属性数据进行统一管理,为GIS应用开发提供空间数据库管理系统除了必须具备普通数据库管理系统的功能外,还具有以下三方面研究内容:
1、空间数据存储管理,实现空间数据强大的基础平台。和属性数据的统一存储和管理,提高数据的存储性能和共享程度,设计实现空间数据的索引机制,为查询处理提供快速可靠的支撑环境。
2、支持空间查询的SQL语言,参照SQL-92和OpenGIS标准,对核心SQL进行扩充,使之支持标准的空间运算,具有最短路径、连通性等空间查询功能。
3、查询,供相关人士查询数据。
参考资料来源:网络-空间数据
❸ GIS包括哪些组成部分
GIS系统由什么组成从计算机的角度看,地理信息系统(GIS系统)是由计算机硬件、软件、数据和用户4大要素组成。
1.计算机硬件系统;
2.计算机软件系统;
3.地理空间数据库;
4系统管理操作人员;
其中, 软硬件系统是GIS系统的核心,地理空间数据库反映了GIS的地理内容,而系统管理操作人员则决定GIS系统的工作方式和信息表示方式。
①硬件包括各类计算机处理机及其输入输出和网络设备,计算机硬件是GIS的物理外壳。GIS的规模、精度、速度、功能、形式、使用方法,甚至软件等都受到硬件指标的支持或制约。GIS的硬件配置一般包括计算机主机、 数据输入设备、数据存储设备和数据输出设备4个部分。
1.计算机主机:包括机箱内部的各种硬件;
2.数据输入设备:包括数字化仪、图像扫描仪、手写笔、光笔等;
3.数据存储设备:包括光盘刻录机、磁带机、磁盘阵列、光盘塔、移动硬盘等;
4.数据输出设备:包括笔式绘图仪、喷墨绘图仪(打印机)、激光打印机等。
②软件是支持信息的采集、处理、存储管理和可视化输出的计算机程序系统;
计算机软件系统:
1.计算机系统软件:计算机系统软件是GIS日常工作所必需的,是由计算机厂家提供的、为用户开发和使用计算机提供方便的程序系统,通常包括操作系统、汇编程序、编译程序、诊断程序、库程序,以及各种维护使用手册、程序说明等。
2.GIS软件和其他支撑软件:该部分既包括通用的GIS软件包,也可以包括数据库管理系统、计算机图形软件包、计算机图像处理系统、CAD软件等,用于支持对空间数据的输入、存储、转换、输出和与用户接口。
3.应用分析程序:应用分析程序是系统开发人员或用户根据地理专题或区域分析模型编制的用于某种特定应用任务的程序,是系统功能的扩充与延伸。应用程序作用于地理专题数据或区域数据,构成GIS的具体内容,这是用户最为关心的真正用于地理分析的部分,也是从空间数据中提取地理信息的关键。用户进行系统开发的大部分工作是开发应用程序,而应用程序的水平在很大程度上决定系统的优劣与成败。
③数据则包括图形和非图形数据、定性和定量数据、影像数据及多媒体数据等;
地理空间数据库:地理空间数据库主要用于储存、管理和检索地理空间数据。地理空间数据是指以地球表面空间位置为参照的自然、社会和人文景观数据,可以用图形、图像、文字、表格和数字等表示,由系统建立者通过数字化仪、扫描仪、键盘或其他通信系统输入GIS,是系统程序作用的对象。不同用途的GIS,其地理空间数据的种类和精度都是不同的,但基本上都包括以下3种互相联系的数据类型。
1.某个已知坐标系中的位置:即几何坐标,用于标识地理景观在自然界或某个区域的地图中的空间位置,可以是经纬度、平面直角坐标、极坐标等,也可以是矩阵的行、列数等。
2.实体间的空间相关性:即拓扑关系,表示点、线、面实体之间的空间联系,如网络节点与网络线之间的枢纽关系、边界线与面实体之间的构成关系、面实体与点的包含关系等。空间拓扑关系对于地理空间数据的编码、录入、格式转换、存储管理、查询检索和模型分析等都有重要意义。
3.与几何位置无关的属性:即通常所说的属性或非几何属性,是与地理实体相联系的地理变量或地理意义,可分为定性属性和定量属性两种。其中,定性描述的属性包括名称、类型、特性等,如岩石类型、行政区划等:定量描述的属性主要是数量和等级,如面积、长度、河流长度、水土流失土量等。
④用户是地理信息系统所服务的对象,是地理信息系统的主人,GIS的用户分一般用户和从事系统的建立、维护、管理和更新的高级用户。
系统管理操作人员:人员是GIS的重要组成要素。GIS从设计、 建立、运行到维护的整个生命周期,都离不开人的作用。除了系统软硬件和数据之外,GIS系统还需要相关人员进行系统组织、管理、维护和数据更新、系统扩充完善、应用程序开发,并灵活应用地理分析模型提取多种信息,为研究和决策服务。
❹ 什么是高维数据
高维数据挖掘,是基于高维度的一种数据挖掘,和传统的数据挖掘最主要的区别在于它的高维度。高维数据挖掘已成为数据挖掘的重点和难点。
随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web 文档、基因表达数据、文档词频数据、用户评分数据、WEB使用数据及多媒体数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高。
(4)高维数据由什么构成扩展阅读:
数据挖掘的广义观点:数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。它是计算机技术研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,已成为国际上数据库和信息决策领域中最前沿的研究方向之一,引起了学术界和工业界的广泛关注。
随着数据维数的升高,高维索引结构的性能迅速下降,在低维空间中,我们经常采用欧式距离作为数据之间的相似性度量,但在高维空间中很多情况下这种相似性的概念不复存在,这就给高维数据挖掘带来了很严峻的考验,一方面引起基于索引结构的数据挖掘算法的性能下降,另一方面很多基于全空间距离函数的挖掘方法也会失效。
解决的方法可以有以下几种:可以通过降维将数据从高维降到低维,然后用低维数据的处理办法进行处理;对算法效率下降问题可以通过设计更为有效的索引结构、采用增量算法及并行算法等来提高算法的性能;对失效的问题通过重新定义使其获得新生。