导航:首页 > 数据处理 > spark数据怎么用

spark数据怎么用

发布时间:2023-08-26 01:03:04

① 什么是Spark,如何使用Spark进行数据分析

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapRece的通用并行框架,Spark,拥有Hadoop MapRece所具有的优点;但不同于MapRece的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapRece的算法
数据科学家为了回答一个问题或进行深入研究,会使用相关的技术分析数据。通常,他们的工作包含特殊的分析,所以他们使用交互式shell,以使得他们能在最短的时间内看到查询结果和代码片段。Spark的速度和简单的API接口很好地符合这个目标,它的内建库意味着很多算法可以随时使用。
Spark通过若干组件支持不同的数据科学任务。Spark shell使得用Python或Scala进行交互式数据分析变得简单。Spark SQL也有一个独立的SQL shell,可以用SQL进行数据分析,也可以在Spark程序中或Spark shell中使用Spark SQL。MLlib库支持机器学习和数据分析。而且,支持调用外部的MATLAB或R语言编写的程序。Spark使得数据科学家可以用R或Pandas等工具处理包含大量数据的问题。

② Spark 应用场景示例

使用IDE新建Scala 或 Java 工程,确保项目结构符合 Maven 推荐的项目结构。

以IDEA为例:

从静态数据源(Parquet,Json,CVS,JDBC,Hive,RDDs)读取数据,运行分析

再 resource 目录构建一个 Json 数据源 data.json :

新建 Static Data Spark Demo.scala :

以上,我们拟对数据进行展示和基本的筛选工作(age > 10)

开启调试,可以看到 log 中Spark执行了 3 个 Job ,并已经正确输出了预期的结果。

接下来就可以根据需求进行更复杂的数据处理操作

从Kafka、Flume、S3/HDFS、kinesis、Twitter等数据源读取数据进行实时分析

例:从 Kafka 读取流数据,进行实时处理。

由于读取Kafka流式数据,我们需要模拟kafka流。

参考Kafka文档

核心文件 KafkaApplication.java

application.yml

以上,我们向Kafka服务器的 topic 为 saprk 上不断发送数据以模拟数据流。
现在,启动程序开始模拟数据流

复用上例中的目录结构,也可以新建一个 sbt 项目。

新建文件 StreamDataSparkDemo.scala

以上,我们从Kafaka服务器读取一个 topic 为 spark 的流,然后进行展示。

运行程序,输出如下:

取出数据之后,就可以用于实时分析了。

假设topic spark 为新注册的用户信息,我们可以统计新用户的每实时注册量,以及阶段内新注册用户性别比例。

在 StreamDataSparkDemo.scala 中修改

<未完待续...>

③ 科普Spark,Spark是什么,如何使用Spark

科普Spark,Spark是什么,如何使用Spark


1.Spark基于什么算法的分布式计算(很简单)

2.Spark与MapRece不同在什么地方

3.Spark为什么比Hadoop灵活

4.Spark局限是什么

5.什么情况下适合使用Spark

Spark与Hadoop的对比

Spark的中间数据放到内存中,对于迭代运算效率更高。

Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。

Spark比Hadoop更通用

Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Rece两种操作。比如map, filter, flatMap, sample, groupByKey, receByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型,Spark把这些操作称为Transformations。同时还提供Count, collect, rece, lookup, save等多种actions操作。

这些多种多样的数据集操作类型,给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。

不过由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。

容错性

在分布式数据集计算时通过checkpoint来实现容错,而checkpoint有两种方式,一个是checkpoint data,一个是logging the updates。用户可以控制采用哪种方式来实现容错。

可用性

Spark通过提供丰富的Scala, Java,Python API及交互式Shell来提高可用性。

Spark与Hadoop的结合

Spark可以直接对HDFS进行数据的读写,同样支持Spark on YARN。Spark可以与MapRece运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用Hive,几乎与Hive完全兼容。

Spark的适用场景

Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数据库架构中这是是否考虑使用Spark的重要因素)

由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。总的来说Spark的适用面比较广泛且比较通用。

运行模式

本地模式

Standalone模式

Mesoes模式

yarn模式

Spark生态系统

Shark ( Hive on Spark): Shark基本上就是在Spark的框架基础上提供和Hive一样的H iveQL命令接口,为了最大程度的保持和Hive的兼容性,Shark使用了Hive的API来实现query Parsing和 Logic Plan generation,最后的PhysicalPlan execution阶段用Spark代替Hadoop MapRece。通过配置Shark参数,Shark可以自动在内存中缓存特定的RDD,实现数据重用,进而加快特定数据集的检索。同时,Shark通过UDF用户自定义函数实现特定的数据分析学习算法,使得SQL数据查询和运算分析能结合在一起,最大化RDD的重复使用。

Spark streaming: 构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100ms+)可以用于实时计算,另一方面相比基于Record的其它处理框架(如Storm),RDD数据集更容易做高效的容错处理。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。

Bagel: Pregel on Spark,可以用Spark进行图计算,这是个非常有用的小项目。Bagel自带了一个例子,实现了Google的PageRank算法。

End.

阅读全文

与spark数据怎么用相关的资料

热点内容
勘验检查的程序是什么 浏览:712
平衡车控制板怎么改程序 浏览:934
北流房屋出售信息多少 浏览:776
团队活动怎么植入产品 浏览:773
被强迫交易的人是什么心理 浏览:355
小程序葵花知识达人怎么进不去 浏览:123
如何做好数据孤岛 浏览:502
产品试用活动怎么促销 浏览:193
汽车过户多久更新成新车主的信息 浏览:880
海产品有哪些怎么做 浏览:937
青岛个体户代理记账需要什么 浏览:546
嘴角周围黑用什么产品 浏览:893
华泰证券非交易日怎么不能开户 浏览:224
如何获取商场数据 浏览:854
华为手机如何快速撤回错误信息 浏览:306
怎么发出更多的微信信息 浏览:250
如何代理首饰 浏览:912
excel数据高级技巧有哪些 浏览:378
农民工报了工伤后程序怎么走 浏览:540
农村工程与信息技术要学哪些专业 浏览:134