① 大数据处理软件用什么比较好
常见的数据处理软件有Apache Hive、SPSS、Excel、Apache Spark、Jaspersoft BI 套件。
1、Apache Hive
Hive是一个建立在Hadoop上的开源数据仓库基础设施,通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。 Hive提供了一种简单的类似SQL的查询语言—HiveQL,这为熟悉SQL语言的用户查询数据提供了方便。
数据分析与处理方法:
采集
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。
并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的大量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等。
而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些大量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。
也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
② 常用的数据库软件哪个好
这个要看你的项目应用场景的,也与自身所使用的开发语言密切相关。
开发语言
假如你是基于.net平台开发的项目,最好的数据库当然是微软自己家的,大型数据库可以用SQLServer,小的数据库用Access。
假如用的是php开发,二话不说必须用MySQL,天生自然配。
开发成虚嫌本
选择数据库时,还要考虑开发成本。比如,php的最佳搭档是MySQL,如果改用其它库,就是自找麻烦,开发起来耗费的人工和时间成本可不低。
我之前曾做过一个php的小项目,还是带中文字段的,如果用mysql很简单,即使是中文,只要在连接之后设置一下编码就没问题了,各种select返回数据正常。可改用access之后,由于差灶手同样存在的中文编码问题,不仅连接时要转辩戚码,后期使用select时也要转码,麻烦了很多很多。
以下是获取结果集的代码,因为表名和字段名都是中文的,好一顿折腾:
数据库成本
数据库有的是免费的(比如MySQL),有的是收费的,而且费用还不低(比如SQLServer),这也是考虑的重要因素之一。