导航:首页 > 数据处理 > spark处理数据需要多少内存

spark处理数据需要多少内存

发布时间:2022-04-17 03:43:23

‘壹’ linuxspark数据超过内存大小

在执行task之前先进行repartition,有时候由于key的分布极不均匀,repartition解决不了数据倾斜问题,可以使用PartitionBy方法,自定义partition的分区方式。
数据之间的join往往很耗费资源,执行时间较长甚至引起任务失败,一般来说应尽量避免,比如,如果其中一个rdd数据量比较小,可以先collect,然后广播到各个excutor。
如果不能避免,在join之前,两个RDD应该分别进行repartition操作,并且partition的数量与分区方法一致,这样在join的时候就不会出现大量的数据shuffle。

‘贰’ spark处理数据如何用服务器内存

RDD通过persist方法或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。通过查看源码发现cache最终也是调用了persist方法,默认的存储级别都是仅在内存存储一份,Spark的存储级别还有好多种,存储级别在object StorageLevel中定义的。缓存有可能丢失,或者存储存储于内存的数据由于内存不足而被删除,RDD的缓存容错机制保证了即使缓存丢失也能保证计算的正确执行。通过基于RDD的一系列转换,丢失的数据会被重算,由于RDD的各个Partition是相对独立的,因此只需要计算丢失的部分即可,并不需要重算全部Partition。
拓展资料:Spark是一种安全的、经正式定义的编程语言,被设计用来支持一些安全或商业集成为关键因素的应用软件的设计。其通过运行用户定义的main函数,在集群上执行各种并发操作和计算Spark提供的最主要的抽象,Spark的正式和明确的定义使得多种静态分析技术在Spark源代码的应用中成为可能。

‘叁’ Linux里面spark作用是什么

Spark是通用数据处理引擎,适用于多种情况。 应用程序开发人员和数据科学家将Spark集成到他们的应用程序中,以快速地大规模查询,分析和转换数据。 与Spark最频繁相关的任务包括跨大型数据集的交互式查询,来自传感器或金融系统的流数据处理以及机器学习任务。
Spark于2009年开始运作,最初是加州大学伯克利分校AMPLab内部的一个项目。 更具体地说,它是出于证明Mesos概念的需要而诞生的,Mesos概念也是在AMPLab中创建的。 在Mesos白皮书《 Mesos:数据中心中的细粒度资源共享平台》中首次讨论了Spark,其中最着名的作者是Benjamin Hindman和Matei Zaharia。
2013年,Spark成为Apache Software Foundation的孵化项目,并于2014年初被提升为该基金会的顶级项目之一。 Spark是基金会管理的最活跃的项目之一,围绕该项目成长的社区包括多产的个人贡献者和资金雄厚的企业支持者,例如Databricks,IBM和中国的华为。
从一开始,Spark就被优化为在内存中运行。 它比Hadoop的MapRece等替代方法更快地处理数据,后者倾向于在处理的每个阶段之间向计算机硬盘写入数据或从计算机硬盘写入数据。 Spark的支持者声称,Spark在内存中的运行速度可以比Hadoop MapRece快100倍,并且在以类似于Hadoop MapRece本身的方式处理基于磁盘的数据时也可以快10倍。 这种比较并不完全公平,这不仅是因为原始速度对Spark的典型用例而言比对批处理更为重要,在这种情况下,类似于MapRece的解决方案仍然很出色。

‘肆’ hadoop和spark的区别

1、解决问题的层面不一样

首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。
同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

2、两者可合可分

Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapRece的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapRece来完成数据的处理。

相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。

以下是从网上摘录的对MapRece的最简洁明了的解析:

3、Spark数据处理速度秒杀MapRece

Spark因为其处理数据的方式不一样,会比MapRece快上很多。MapRece是分步对数据进行处理的: ”从集群中读取数据,进行一次处理,将结果写到集群,从集群中读取更新后的数据,进行下一次的处理,将结果写到集群,等等…“ Booz Allen Hamilton的数据科学家Kirk Borne如此解析。
反观Spark,它会在内存中以接近“实时”的时间完成所有的数据分析:“从集群中读取数据,完成所有必须的分析处理,将结果写回集群,完成,” Born说道。Spark的批处理速度比MapRece快近10倍,内存中的数据分析速度则快近100倍。
如果需要处理的数据和结果需求大部分情况下是静态的,且你也有耐心等待批处理的完成的话,MapRece的处理方式也是完全可以接受的。
但如果你需要对流数据进行分析,比如那些来自于工厂的传感器收集回来的数据,又或者说你的应用是需要多重数据处理的,那么你也许更应该使用Spark进行处理。
大部分机器学习算法都是需要多重数据处理的。此外,通常会用到Spark的应用场景有以下方面:实时的市场活动,在线产品推荐,网络安全分析,机器日记监控等。

4、灾难恢复

两者的灾难恢复方式迥异,但是都很不错。因为Hadoop将每次处理后的数据都写入到磁盘上,所以其天生就能很有弹性的对系统错误进行处理。
Spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集(RDD: Resilient Distributed Dataset)中。这些数据对象既可以放在内存,也可以放在磁盘,所以RDD同样也可以提供完成的灾难恢复功能。

‘伍’ 最近想学习一下关于大数据spark方面的东西,在搭建整个spark环境时,对电脑的配置要求是什么

如果只是学习基本概念和算子,对配置要求不太高,搭一个伪分布式或者直接local模式就行;
如果真要拿来处理大量数据,内存小了是不行的,spark很吃内存的。

‘陆’ 如何用好spark

Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、网络、阿里、腾讯、京东、携程、优酷薯仔。当前网络的Spark已应用于凤巢、大搜索、直达号、网络大数据等业务;阿里利用GraphX构建了大规模的图计算和图挖掘系统,实现了很多生产系统的推荐算法;腾讯Spark集群达到8000台的规模,是当前已知的世界上最大的Spark集群。
与Hadoop的MapRece相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。
Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell,可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法。
Spark可以非常方便地与其他的开源产品进行融合。比如,Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等。这对于已经部署Hadoop集群的用户特别重要,因为不需要做任何数据迁移就可以使用Spark的强大处理能力。Spark也可以不依赖于第三方的资源管理和调度器,它实现了Standalone作为其内置的资源管理和调度框架,这样进一步降低了Spark的使用门槛,使得所有人都可以非常容易地部署和使用Spark。此外,Spark还提供了在EC2上部署Standalone的Spark集群的工具。

‘柒’ spark实时处理

还想看啥你的回答就开始看斯巴达就打

‘捌’ 用linux操作spark要多少内存

我有64内存,spark设置了40G;这个是自己根据需求设定的;
spark-env.sh中的这三个参数都设置一下,是内存、cpu的关系
export SPARK_EXECUTOR_INSTANCES=1
export SPARK_EXECUTOR_MEMORY=40G
export SPARK_EXECUTOR_CORES=14

‘玖’ spark和hadoop的区别

直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠。

比如说,Spark没有文件管理功能,因而必须依赖Hadoop分布式文件系统(HDFS)或另外某种解决方案。

Hadoop框架的主要模块包括如下:

‘拾’ 大缰晓spark支持多大内存卡

支持存储卡类型,Micro SD卡
最大支持128 GB容量,写入速度≥15 MB/s,传输速度为Class 10及以上或达到UHS-1评级的Micro SD卡

阅读全文

与spark处理数据需要多少内存相关的资料

热点内容
恢复移动硬盘数据得多少钱 浏览:386
转钱信息没有是什么问题 浏览:398
债券融资看什么数据 浏览:372
60个交易日是什么 浏览:430
消防哪些产品需3c认证 浏览:733
深圳最大的茶具批发市场在哪里 浏览:148
西山下综合市场都卖什么 浏览:680
时光代理人黄毛为什么要杀人 浏览:266
东莞哪些市场有100个猪肉档口 浏览:41
推背产品哪些好 浏览:964
成都货车收购二手市场在哪里 浏览:553
方舟模组数据块有什么用 浏览:288
his数据什么意思 浏览:824
砂糖桔市场前景如何 浏览:839
常平镇卖毛线的市场有哪些 浏览:468
股票找不到交易怎么办 浏览:974
技术市场是什么类型 浏览:131
南宁农药批发市场在哪里 浏览:774
开网店做代理怎么和厂家签合同 浏览:862
汇通快递怎么做代理 浏览:66