`
功夫小当家
  • 浏览: 186422 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

spark - 启动优化之参数spark.yarn.archive 和 spark.yarn.jars

阅读更多

测试下spark.yarn.archive 和 spark.yarn.jars  参数的作用,官网对这俩参数的描述如下:



 

 

(1)spark-defaults.conf配置下面两个参数

spark.yarn.archive    hdfs://hd1:9000/archive/spark-libs.jar

spark.yarn.jars    hdfs://hd1:9000/spark_jars/*



 

查看web ui

 

 

(2)只配置spark.yarn.jars    hdfs://hd1:9000/spark_jars/*


 

查看web ui(显示的参数值是空),但是通过上面的日志可知,确实没有上传,.staging下只有一个conf的zip包



 

 

(3)只配置spark.yarn.archive    hdfs://hd1:9000/archive/spark-libs.jar


 

查看web ui



 

 

 

(4)俩参数都不设置,会zip压缩上报jars和conf


 

 

总结:

  • spark.yarn.archive参数和spark.yarn.jars参数同时配置,只有spark.yarn.archive会生效
  • 配置spark.yarn.archive参数或者spark.yarn.jars参数, 都不会上传spark目录下的jars到application临时目录
  • 如果只配置spark.yarn.jars,web页面上显示的spark.yarn.jars值是空(暂不确定是不是bug)
  • 不配置spark.yarn.archive参数或者spark.yarn.jars参数, 会同时传conf和jars到application临时目录,spark2.x 是以zip压缩包的形式上传的
  • spark2.x默认情况下,启动spark-sql -master yarn,不配置spark.yarn.archive参数或spark.yarn.jars参数会比配置其中一个参数的情况慢1~2s左右启动时间
  • 大小: 26.3 KB
  • 大小: 77 KB
  • 大小: 127 KB
  • 大小: 76.4 KB
  • 大小: 49.2 KB
  • 大小: 73.6 KB
  • 大小: 46.6 KB
  • 大小: 37.5 KB
0
0
分享到:
评论

相关推荐

    spark-3.1.2.tgz & spark-3.1.2-bin-hadoop2.7.tgz.rar

    - 启动:启动Spark的Master和Worker节点,准备运行任务。 - 运行应用:使用Spark Shell或提交Spark应用程序到集群执行。 6. 开发与交互: - 使用Scala、Java、Python或R语言编写Spark应用。 - 使用SparkSubmit...

    spark-2.1.1-bin-hadoop2.7.tgz.7z

    在部署Spark时,你需要配置几个关键的参数,比如`master`地址(本地模式、standalone模式、YARN模式或Mesos模式),以及`executor`的数量和内存大小。此外,如果你打算在Hadoop YARN上运行Spark,还需要正确配置...

    spark-3.2.1-bin-hadoop2.7.tgz

    接着,可以启动Spark的独立模式或者与YARN、Mesos等集群管理器结合的集群模式。在开发应用程序时,可以使用Scala、Java、Python或R语言的Spark API,编写分布式数据处理代码。 Spark支持多种数据源,包括HDFS、...

    spark-3.1.3-bin-hadoop3.2.tgz

    在解压并安装"spark-3.1.3-bin-hadoop3.2.tgz"后,你需要配置环境变量,如SPARK_HOME,然后可以通过启动Master和Worker节点来建立Spark集群。对于单机测试,可以使用本地模式。使用Spark时,你可以编写Python、Scala...

    spark-3.1.2-bin-hadoop3.2.tgz

    3. **YARN改进**:优化了资源调度器,提高了集群利用率和性能。 4. **提升HDFS容量**:支持更大的块大小和更高级别的硬件配置,适应大规模存储需求。 **Spark在Linux上的部署** 在Linux环境下安装Spark 3.1.2涉及...

    spark-1.6.0-bin-hadoop2.6.tgz

    - 如果需要运行在Hadoop YARN上,还需要配置`yarn-site.xml`和`core-site.xml`等相关Hadoop配置文件。 - 启动Spark相关服务,如Master和Worker节点。 **4. 使用Spark Shell** Spark提供了一个交互式的Shell,可以...

    spark-2.2.0-yarn-shuffle.jar

    spark-2.2.0-yarn-shuffle.jar

    spark-assembly-1.5.2-hadoop2.6.0.jar

    这意味着它可以无缝地运行在Hadoop YARN或HDFS之上,充分利用Hadoop的分布式存储和计算能力。 4. 使用场景: - 开发者在编写Spark程序时,可以将此jar作为依赖引入,无需再单独管理其他Spark模块的jar。 - 在集群...

    spark-2.3.1-bin-hadoop2.7.zip

    - `jars`:包含Spark运行所需的JAR文件,包括Spark自身的实现和其他依赖库。 - `lib`:库文件,可能包含额外的依赖或扩展。 - `python`:Python相关的源代码和库,支持PySpark的开发。 - `examples`:包含一些Spark...

    spark-3.1.2-bin-hadoop2.7.tgz

    这个"spark-3.1.2-bin-hadoop2.7.tgz"是一个压缩包,包含了Spark 3.1.2版本,针对Hadoop 2.7优化的二进制发行版。在Linux环境下,这个版本的Spark可以与Hadoop生态系统无缝集成,用于大数据分析和处理任务。 Spark...

    spark-2.4.0-bin-hadoop2.7.tgz

    与hadoop2.7版本的集成,意味着Spark可以很好地兼容Hadoop生态系统,包括HDFS(Hadoop分布式文件系统)和YARN(资源调度器)。 在"spark-2.4.0-bin-hadoop2.7.tgz"这个压缩包中,主要包含以下几个部分: 1. **...

    spark-2.4.7-bin-hadoop2.6.tgz

    - `bin/`:包含可执行文件,如`spark-submit`,`pyspark`,`spark-shell`等,用于启动和管理Spark作业。 - `conf/`:存放配置文件,如`spark-defaults.conf`,用户可以在此自定义Spark的默认配置。 - `jars/`:包含...

    spark-2.4.4-bin-hadoop2.6.tgz

    总的来说,"spark-2.4.4-bin-hadoop2.6.tgz"这个压缩包是开发和部署大数据应用的重要资源,涵盖了Spark的主要组件和针对Hadoop 2.6的优化,使得数据处理变得更加高效和便捷。无论是数据科学家、工程师还是分析师,都...

    spark-1.6.0-bin-hadoop2.4.tgz

    5. **启动Spark**:启动Spark的Master和Worker节点,如果使用的是standalone模式,可以通过`sbin/start-all.sh`命令启动。 6. **测试运行**:使用简单的Spark应用,如WordCount,验证Spark是否安装和配置成功。 在...

    spark-3.0.1-bin-hadoop2.7.tgz

    Spark 3.0.1在2020年9月2日发布,它包含了多项性能优化和新功能,旨在提升数据分析和机器学习任务的效率。 首先,Spark的核心特性是其内存计算(In-Memory Computing)能力,它通过将数据存储在内存中,减少了磁盘I...

    spark-3.3.3-bin-hadoop3.tgz

    在Spark 3.3.3中,对RDD的优化和性能提升使得大规模数据处理更加高效。 其次,Spark SQL是Spark处理结构化数据的重要组件,它允许用户使用SQL查询语言进行数据处理,并与多种数据源如Hive、Parquet、JSON等无缝集成...

    spark-2.3.4-bin-hadoop2.6.tgz

    Hadoop 2.6是Hadoop生态系统的一个版本,它引入了YARN(Yet Another Resource Negotiator),作为资源管理和调度器,使得Hadoop不再局限于MapReduce一种计算模型,为Spark等其他计算框架提供了运行环境。 在Spark ...

    spark-2.4.0-bin-hadoop2.6.tgz

    5. **运行模式**:Spark支持多种运行模式,包括本地模式(方便开发测试)、standalone模式(Spark自带的集群管理器)、YARN模式(使用Hadoop的资源管理器)和Mesos模式(Mesos集群管理器)。在Hadoop 2.6环境中,...

    spark-1.6.3-bin-hadoop2.6.tgz

    Spark 1.6.3是Spark的一个稳定版本,它在1.6系列中包含了多个优化和改进,旨在提高数据处理的效率和用户体验。与Hadoop 2.6集成,意味着它能够充分利用Hadoop生态系统中的存储和计算资源。 Spark的核心特性包括内存...

    spark-2.4.7-bin-hadoop2.7.tgz

    Spark 2.4.7是Apache Spark的一个稳定版本,它为大数据处理提供了高效、易用且可扩展的框架...一旦下载并解压"spark-2.4.7-bin-hadoop2.7.tgz",就可以开始设置环境、配置参数,然后根据业务需求编写和运行Spark应用。

Global site tag (gtag.js) - Google Analytics