http://blog.csdn.net/sa14023053/article/details/51986549
https://my.oschina.net/u/140462/blog/519409
–master 指定spark运行模式
Local[N] | 本地模式。使用N个线程 |
Local cluster[worker,core,Memory] | 伪分布式模式,可以配置所需要启动的虚拟工作节点数量,以及每个工作节点所管理的CPU的数量和内存大小 |
Spark://hostname:port | Standalone 模式、需要部署Spark到相关节点,URL 为Spark Master 主机地址和端口(Spark://master:7077) |
Mesos://hostname:port | Mesos 模式, 需要部署Spark 和Mesos到相关节点,URL为Mesos主机地址和端口 |
YARN standalone/YARN cluster | YARN 模式一,主程序逻辑和任务都运行在YARN集群中 |
YARN client | YARN 模式二,主程序逻辑运行在本地,具体任务运行在YARN集群 |
执行时需要传入的参数说明
Usage: spark-submit [options] <app jar | python file> [app options]
参数名称 |
含义 |
--master MASTER_URL |
可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local |
--deploy-mode DEPLOY_MODE |
Driver程序运行的地方,client或者cluster |
--class CLASS_NAME |
主类名称,含包名 |
--name NAME |
Application名称 |
--jars JARS |
Driver依赖的第三方jar包 |
--py-files PY_FILES |
用逗号隔开的放置在Python应用程序PYTHONPATH上的.zip, .egg, .py文件列表 |
--files FILES |
用逗号隔开的要放置在每个executor工作目录的文件列表 |
--properties-file FILE |
设置应用程序属性的文件路径,默认是conf/spark-defaults.conf |
--driver-memory MEM |
Driver程序使用内存大小 |
--driver-java-options |
|
--driver-library-path |
Driver程序的库路径 |
--driver-class-path |
Driver程序的类路径 |
--executor-memory MEM |
executor内存大小,默认1G |
--driver-cores NUM |
Driver程序的使用CPU个数,仅限于Spark Alone模式 |
--supervise |
失败后是否重启Driver,仅限于Spark Alone模式 |
--total-executor-cores NUM |
executor使用的总核数,仅限于Spark Alone、Spark on Mesos模式 |
--executor-cores NUM |
每个executor使用的内核数,默认为1,仅限于Spark on Yarn模式 |
--queue QUEUE_NAME |
提交应用程序给哪个YARN的队列,默认是default队列,仅限于Spark on Yarn模式 |
--num-executors NUM |
启动的executor数量,默认是2个,仅限于Spark on Yarn模式 |
--archives ARCHIVES |
仅限于Spark on Yarn模式 |
相关推荐
以下是对`spark-submit`工具主要参数的详细说明: 1. **--master MASTER_URL**:指定Spark运行的集群地址。它可以是`spark://host:port`(Spark Standalone模式),`mesos://host:port`(Mesos集群),或者是`yarn`...
在部署和使用Spark时,需要根据实际需求配置`spark-defaults.conf`,设置如master节点地址、内存分配、日志级别等参数。此外,可以通过`spark-submit`脚本提交应用程序到Spark集群执行,或直接在Spark Shell中交互式...
开发者可以根据需求选择合适的语言编写应用程序,然后使用`spark-submit`脚本来提交任务到集群。 **6. 性能调优** Spark性能优化主要包括内存管理、任务调度和数据本地性等方面。可以通过调整`spark.executor....
5. **运行Spark**: Spark可以通过命令行工具启动,例如`spark-shell`(交互式Spark会话)或`pyspark`(Python版本的交互式会话)。对于应用程序开发,可以使用Scala、Java、Python或R编写代码,然后通过`spark-...
- `bin`目录包含Spark的可执行脚本,如`spark-submit`用于提交应用程序,`spark-shell`用于交互式Spark会话,以及其他的管理工具。 - `conf`目录存放配置文件模板,例如`spark-defaults.conf`,用户可以在此处配置...
3. **配置Spark**:修改`conf\spark-env.sh`(或者在Windows上是`conf\spark-env.cmd`),根据你的环境配置JVM参数、Hadoop相关路径等。 4. **验证安装**:打开命令行,输入`pyspark`或`spark-shell`启动交互式...
1. **bin**:包含可执行脚本,如启动Spark的`spark-shell`、`pyspark`、`spark-submit`等。 2. **conf**:存放配置文件,如`spark-defaults.conf`,用户可以在这里设置Spark的相关参数。 3. **jars**:包含Spark运行...
对于开发和部署,了解如何配置`spark-submit`参数也非常重要,比如指定主类、JAR包、内存分配等。 总之,Spark 2.0.0是一个强大的大数据处理框架,与Hadoop 2.x兼容,但不集成Hive,这意味着用户需要单独配置Hive...
在实际操作中,用户可以使用Spark的`spark-submit`命令提交应用程序到集群,或者通过`pyspark`、`spark-shell`或`spark-sql`交互式接口来试验和开发Spark程序。对于数据科学家和工程师来说,Spark的DataFrame API...
1. `bin`:包含Spark的命令行工具,如`spark-shell`(Scala交互式Shell)、`pyspark`(Python Shell)和`spark-submit`(用于提交应用程序到集群的脚本)。 2. `conf`:配置文件存放处,你可以在这里修改`spark-...
1. `bin/`:包含各种命令行工具,如`spark-shell`用于启动Spark的交互式 Scala shell,`pyspark`用于Python环境,以及`spark-submit`用于提交Spark应用到集群。 2. `conf/`:存放配置文件,如`spark-defaults.conf`...
5. 可以通过`spark-shell`或`pyspark`启动交互式环境,或者编写Spark应用程序并使用`spark-submit`提交到集群上运行。 在实际应用中,你可能还需要考虑Spark与CDH中其他组件的集成,例如Hive、Impala,以实现更高效...
Spark作业提交有两种主要方式:1) 通过`spark-submit`命令行工具,2) 在代码中集成`SparkSession`的`sparkContext`提交。对于初学者,使用`spark-submit`是最常见且直观的方式。 三、无需本地Hadoop环境的提交 ...
接着,你可以使用`spark-submit`命令来提交Spark应用程序,或者通过`pyspark`、`spark-shell`或`spark-sql`命令启动交互式会话。此外,为了与其他服务(如HDFS或YARN)集成,还需要配置相应的连接参数。 Spark的...
例如,`bin`目录下有启动和管理Spark的各种命令行工具,如`spark-shell`(Scala交互式环境)、`pyspark`(Python交互式环境)和`spark-submit`(提交Spark应用)。 由于这个版本不包含Hadoop依赖,你需要确保你的...
解压`spark-3.2.1-bin-hadoop3.2.zip`后,你可以根据官方文档的指导进行安装和配置,包括设置SPARK_HOME环境变量、配置Spark与Hadoop之间的连接参数等。 在实际使用中,你可以通过以下方式操作Spark: - 使用`spark...
6. **部署与运行**:将生成的jar包分发到集群,配置相应的环境变量,如`SPARK_HOME`,然后通过`spark-submit`命令提交应用程序或者直接运行`bin/spark-shell`进入交互式环境。 总结来说,Spark 2.3.1源码的打包编译...
- 虽然不使用`spark-submit`命令,但在IDEA中,可以通过模拟`spark-submit`的参数来提交应用,比如设置`--master yarn-cluster`或`--master yarn-client`,以及相关的配置选项,如`--num-executors`、`--executor-...
在本地运行Spark应用程序,你可以使用Spark Shell(交互式 Scala shell)、PySpark(Python版本的shell)或者直接通过Java、Scala或Python编写Spark程序并使用spark-submit脚本提交。在调试过程中,注意监控日志输出...
6. 使用`spark-submit`工具提交你的Spark应用到集群上执行。 通过Spark,用户可以快速构建复杂的分布式数据处理应用,涵盖实时流处理、批处理、机器学习和图计算等多种任务。Spark的生态系统还在不断发展,不断吸引...