`
m635674608
  • 浏览: 5028636 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

spark-submit工具参数说明

 
阅读更多

http://blog.csdn.net/sa14023053/article/details/51986549

https://my.oschina.net/u/140462/blog/519409

–master 指定spark运行模式

参数 模式
Local[N] 本地模式。使用N个线程
Local cluster[worker,core,Memory] 伪分布式模式,可以配置所需要启动的虚拟工作节点数量,以及每个工作节点所管理的CPU的数量和内存大小
Spark://hostname:port Standalone 模式、需要部署Spark到相关节点,URL 为Spark Master 主机地址和端口(Spark://master:7077)
Mesos://hostname:port Mesos 模式, 需要部署Spark 和Mesos到相关节点,URL为Mesos主机地址和端口
YARN standalone/YARN cluster YARN 模式一,主程序逻辑和任务都运行在YARN集群中
YARN client YARN 模式二,主程序逻辑运行在本地,具体任务运行在YARN集群

 

 

执行时需要传入的参数说明

Usage: spark-submit [options] <app jar | python file> [app options]

 

参数名称

含义

--master MASTER_URL

可以是spark://host:port, mesos://host:port, yarn,  yarn-cluster,yarn-client, local

--deploy-mode DEPLOY_MODE

Driver程序运行的地方,client或者cluster

--class CLASS_NAME

主类名称,含包名

--name NAME

Application名称

--jars JARS

Driver依赖的第三方jar

--py-files PY_FILES

用逗号隔开的放置在Python应用程序PYTHONPATH上的.zip,  .egg, .py文件列表

--files FILES

用逗号隔开的要放置在每个executor工作目录的文件列表

--properties-file FILE

设置应用程序属性的文件路径,默认是conf/spark-defaults.conf

--driver-memory MEM

Driver程序使用内存大小

--driver-java-options

 

--driver-library-path

Driver程序的库路径

--driver-class-path

Driver程序的类路径

--executor-memory MEM

executor内存大小,默认1G

--driver-cores NUM

Driver程序的使用CPU个数,仅限于Spark Alone模式

--supervise

失败后是否重启Driver,仅限于Spark  Alone模式

--total-executor-cores NUM

executor使用的总核数,仅限于Spark AloneSpark on Mesos模式

--executor-cores NUM

每个executor使用的内核数,默认为1,仅限于Spark on Yarn模式

--queue QUEUE_NAME

提交应用程序给哪个YARN的队列,默认是default队列,仅限于Spark on Yarn模式

--num-executors NUM

启动的executor数量,默认是2个,仅限于Spark on Yarn模式

--archives ARCHIVES

仅限于Spark on Yarn模式

 

 

 

分享到:
评论

相关推荐

    spark-submit工具参数说明.pdf

    以下是对`spark-submit`工具主要参数的详细说明: 1. **--master MASTER_URL**:指定Spark运行的集群地址。它可以是`spark://host:port`(Spark Standalone模式),`mesos://host:port`(Mesos集群),或者是`yarn`...

    spark-2.4.7-bin-hadoop2.6.tgz

    在部署和使用Spark时,需要根据实际需求配置`spark-defaults.conf`,设置如master节点地址、内存分配、日志级别等参数。此外,可以通过`spark-submit`脚本提交应用程序到Spark集群执行,或直接在Spark Shell中交互式...

    spark-1.6.0-bin-hadoop2.6.tgz

    开发者可以根据需求选择合适的语言编写应用程序,然后使用`spark-submit`脚本来提交任务到集群。 **6. 性能调优** Spark性能优化主要包括内存管理、任务调度和数据本地性等方面。可以通过调整`spark.executor....

    spark-3.2.4-bin-hadoop3.2-scala2.13 安装包

    5. **运行Spark**: Spark可以通过命令行工具启动,例如`spark-shell`(交互式Spark会话)或`pyspark`(Python版本的交互式会话)。对于应用程序开发,可以使用Scala、Java、Python或R编写代码,然后通过`spark-...

    spark-2.2.0-bin-hadoop2.6.tgz

    - `bin`目录包含Spark的可执行脚本,如`spark-submit`用于提交应用程序,`spark-shell`用于交互式Spark会话,以及其他的管理工具。 - `conf`目录存放配置文件模板,例如`spark-defaults.conf`,用户可以在此处配置...

    spark-2.3.1-bin-hadoop2.7.rar

    3. **配置Spark**:修改`conf\spark-env.sh`(或者在Windows上是`conf\spark-env.cmd`),根据你的环境配置JVM参数、Hadoop相关路径等。 4. **验证安装**:打开命令行,输入`pyspark`或`spark-shell`启动交互式...

    spark-2.3.4-bin-hadoop2.6.tgz

    1. **bin**:包含可执行脚本,如启动Spark的`spark-shell`、`pyspark`、`spark-submit`等。 2. **conf**:存放配置文件,如`spark-defaults.conf`,用户可以在这里设置Spark的相关参数。 3. **jars**:包含Spark运行...

    spark-2.0.0-bin-hadoop2-without-hive.tgz

    对于开发和部署,了解如何配置`spark-submit`参数也非常重要,比如指定主类、JAR包、内存分配等。 总之,Spark 2.0.0是一个强大的大数据处理框架,与Hadoop 2.x兼容,但不集成Hive,这意味着用户需要单独配置Hive...

    spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz

    在实际操作中,用户可以使用Spark的`spark-submit`命令提交应用程序到集群,或者通过`pyspark`、`spark-shell`或`spark-sql`交互式接口来试验和开发Spark程序。对于数据科学家和工程师来说,Spark的DataFrame API...

    spark-1.6.3-bin-hadoop2.4.tgz

    1. `bin`:包含Spark的命令行工具,如`spark-shell`(Scala交互式Shell)、`pyspark`(Python Shell)和`spark-submit`(用于提交应用程序到集群的脚本)。 2. `conf`:配置文件存放处,你可以在这里修改`spark-...

    spark-2.3.3-bin-hadoop2.6.tgz

    1. `bin/`:包含各种命令行工具,如`spark-shell`用于启动Spark的交互式 Scala shell,`pyspark`用于Python环境,以及`spark-submit`用于提交Spark应用到集群。 2. `conf/`:存放配置文件,如`spark-defaults.conf`...

    spark-2.2.1-bin-2.6.0-cdh5.14.2.tar.gz

    5. 可以通过`spark-shell`或`pyspark`启动交互式环境,或者编写Spark应用程序并使用`spark-submit`提交到集群上运行。 在实际应用中,你可能还需要考虑Spark与CDH中其他组件的集成,例如Hive、Impala,以实现更高效...

    Sparkjobsubmit.zip

    Spark作业提交有两种主要方式:1) 通过`spark-submit`命令行工具,2) 在代码中集成`SparkSession`的`sparkContext`提交。对于初学者,使用`spark-submit`是最常见且直观的方式。 三、无需本地Hadoop环境的提交 ...

    spark-3.0.1-bin-hadoop2.7.zip

    接着,你可以使用`spark-submit`命令来提交Spark应用程序,或者通过`pyspark`、`spark-shell`或`spark-sql`命令启动交互式会话。此外,为了与其他服务(如HDFS或YARN)集成,还需要配置相应的连接参数。 Spark的...

    spark-3.2.0-bin-without-hadoop.tgz

    例如,`bin`目录下有启动和管理Spark的各种命令行工具,如`spark-shell`(Scala交互式环境)、`pyspark`(Python交互式环境)和`spark-submit`(提交Spark应用)。 由于这个版本不包含Hadoop依赖,你需要确保你的...

    spark-3.2.1 安装包 集成 hadoop3.2

    解压`spark-3.2.1-bin-hadoop3.2.zip`后,你可以根据官方文档的指导进行安装和配置,包括设置SPARK_HOME环境变量、配置Spark与Hadoop之间的连接参数等。 在实际使用中,你可以通过以下方式操作Spark: - 使用`spark...

    spark-2.3.1源码包

    6. **部署与运行**:将生成的jar包分发到集群,配置相应的环境变量,如`SPARK_HOME`,然后通过`spark-submit`命令提交应用程序或者直接运行`bin/spark-shell`进入交互式环境。 总结来说,Spark 2.3.1源码的打包编译...

    (word完整版)windows下非submit-方式运行spark-on-yarn(CDH集群).doc

    - 虽然不使用`spark-submit`命令,但在IDEA中,可以通过模拟`spark-submit`的参数来提交应用,比如设置`--master yarn-cluster`或`--master yarn-client`,以及相关的配置选项,如`--num-executors`、`--executor-...

    本地调试所需spark-x.x.x-bin-hadoop包

    在本地运行Spark应用程序,你可以使用Spark Shell(交互式 Scala shell)、PySpark(Python版本的shell)或者直接通过Java、Scala或Python编写Spark程序并使用spark-submit脚本提交。在调试过程中,注意监控日志输出...

    spark-3.0.3-bin-hadoop2.7.tgz

    6. 使用`spark-submit`工具提交你的Spark应用到集群上执行。 通过Spark,用户可以快速构建复杂的分布式数据处理应用,涵盖实时流处理、批处理、机器学习和图计算等多种任务。Spark的生态系统还在不断发展,不断吸引...

Global site tag (gtag.js) - Google Analytics