`

spark 提交任务参数说明

阅读更多
1.参数选取

当我们的代码写完,打好jar,就可以通过bin/spark-submit 提交到集群,命令如下:

./bin/spark-submit \ 
--class <main-class>
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \ 
     ... # other options 
<application-jar> \ 
[application-arguments]
一般情况下使用上面这几个参数就够用了

--class: The entry point for your application (e.g. org.apache.spark.examples.SparkPi)

--master: The master URL for the cluster (e.g. spark://23.195.26.187:7077)

--deploy-mode: Whether to deploy your driver on the worker nodes (cluster) or locally as an external client (client) (default: client) †

--conf: Arbitrary Spark configuration property in key=value format. For values that contain spaces wrap “key=value” in quotes (as shown).

application-jar: Path to a bundled jar including your application and all dependencies. The URL must be globally visible inside of your cluster, for instance, an hdfs:// path or a file:// path that is present on all nodes.

application-arguments: Arguments passed to the main method of your main class, if any

对于不同的集群管理,对spark-submit的提交列举几个简单的例子

# Run application locally on 8 cores

./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[8] \
  /path/to/examples.jar \
100

# Run on a Spark standalone cluster in client deploy mode

./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://207.184.161.138:7077 \
--executor-memory 20G \
--total-executor-cores 100 \
/path/to/examples.jar \
1000

# Run on a Spark standalone cluster in cluster deploy mode with supervise
# make sure that the driver is automatically restarted if it fails with non-zero exit code

./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://207.184.161.138:7077 \
--deploy-mode cluster
--supervise
--executor-memory 20G \
--total-executor-cores 100 \
/path/to/examples.jar \
   1000
  
# Run on a YARN cluster export HADOOP_CONF_DIR=XXX

./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn-cluster \  # can also be `yarn-client` for client mode
--executor-memory 20G \
  --num-executors 50 \
  /path/to/examples.jar \
1000

# Run a Python application on a Spark standalone cluster

./bin/spark-submit \
  --master spark://207.184.161.138:7077 \
examples/src/main/python/pi.py \
1000
2.具体提交步骤

代码实现一个简单的统计

public class SimpleSample {
public static void main(String[] args) {
String logFile = "/home/bigdata/spark-1.5.1/README.md";
SparkConf conf = new SparkConf().setAppName("Simple Application");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> logData = sc.textFile(logFile).cache();

long numAs = logData.filter(new Function<String, Boolean>() {
public Boolean call(String s) {
return s.contains("a");
}
}).count();

long numBs = logData.filter(new Function<String, Boolean>() {
public Boolean call(String s) {
return s.contains("b");
}
}).count();

System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs);
}

}
打成jar



上传命令

./bin/spark-submit --class cs.spark.SimpleSample --master spark://spark1:7077 /home/jar/spark-test-0.0.1-SN


本文转自:https://my.oschina.net/u/2529303/blog/541685
分享到:
评论

相关推荐

    spark-2.0.1集群安装及编写例子提交任务

    3. **提交任务**:运行`bin/spark-submit`命令,指定Master地址、应用jar文件、主类以及其它相关配置。 总的来说,Spark 2.0.1集群的安装和任务提交涉及多方面的知识,包括系统配置、集群管理、Spark编程和任务调度...

    java提交spark任务到yarn平台的配置讲解共9页.pdf.zip

    使用`spark-submit`命令提交任务到YARN,需要提供JAR路径、主类名、YARN相关参数等。 7. **YARN资源管理**: YARN通过Container来分配资源,每个Container包含一定的内存和CPU核心。Spark作业会根据需求申请和释放...

    hue提交spark jar任务的使用文档

    ### Hue 提交 Spark Jar 任务使用指南 #### 前言 随着大数据处理需求的日益增长,Apache Hue 作为一款优秀的 Web 界面工具,在大数据生态中扮演着越来越重要的角色。它不仅支持 Hadoop 文件系统、Hive 数据库等操作...

    web管理spark任务

    "web管理spark任务"指的是利用Spark自带的Web UI以及相关的工具,通过Web界面来提交、监控和管理Spark作业。这种方式提供了可视化的方式,使得开发者和运维人员能够更直观地了解作业的运行状态。 首先,我们来详细...

    java提交spark任务到yarn平台的配置讲解共9页

    2. 提交任务:在命令行中,使用`spark-submit`工具提交Spark任务到YARN集群: ```bash $ spark-submit \ --class com.example.SubmitToYarn \ --master yarn \ --deploy-mode cluster \ --jars /path/to/your/...

    一种基于历史任务分析的Apache Spark应用自动化调优方法.pdf

    任务提交接口是指Spark应用的入口点,用户可以通过该接口提交任务并对其进行配置。本文档提出了一种基于历史任务分析的自动化调优方法,该方法可以对任务提交接口进行封装,以提高任务的执行效率和性能。 知识点5: ...

    spark-submit工具参数说明.pdf

    `cluster`模式下,Driver在集群内部运行,更适用于远程提交任务。 3. **--class CLASS_NAME**:指定应用的主类全名,包括包名。 4. **--name NAME**:给应用程序命名,方便在集群监控界面识别。 5. **--jars JARS...

    Apache Spark源码走读之2 -- Job的提交与运行

    Apache Spark的作业提交与运行机制是其核心组成部分之一,涉及到进程、线程的创建以及任务的调度等多个方面。 首先,要想深入理解Spark作业的提交与运行,需要搭建实验环境。搭建步骤主要包括下载Spark二进制包,...

    spark 分布式集群搭建

    - **spark-defaults.conf**: Spark 提交 Job 时的默认配置文件,用于定义 Spark 的全局配置参数,例如 Executor 的内存大小等。 - **spark-env.sh**: Spark 的环境变量配置文件,可以设置一些特定于系统的环境变量,...

    Spark安装使用教程PDF

    要安装 Spark,需要先下载 Pre-built Apache Hadoop xx 和 later 的安装包,然后按照官方文档的说明进行安装。在 PyCharm 中,可以使用 File-&gt;Settings-&gt;Project-&gt;Project Structure 中的 Add ContentRoot 选项将 ...

    Spark实验:Standalone模式安装部署(带答案)1

    4. Spark配置文件:如`spark-env.sh`、`slaves`,用于指定Spark集群的运行参数和从节点列表。 5. Spark Web UI的使用:提供可视化界面监控Spark集群状态和应用运行情况。 **四、实验步骤** 1. **解压Spark安装包**...

    超详细Spark思维导图

    5. **调优**:Spark调优涉及到对执行性能的优化,包括配置参数如executor内存、并行度、缓存策略等,以及代码层面的优化,如减少shuffle操作,优化join操作,利用broadcast变量等。 6. **调度**:Spark的调度系统...

    Spark安装包及部署文档

    同时,还需要将Spark提交到YARN的客户端或集群模式,通过`spark-submit`命令进行操作。 4. **部署步骤**: - **安装Hadoop**:首先,确保Hadoop已经在集群中正确安装并运行,包括HDFS和YARN服务。 - **下载Spark*...

    Spark2.4.3集群部署

    * 使用spark-submit命令提交计算任务 * 查看任务执行的界面和历史日志 5. Spark集群的配置文件 Spark集群的配置文件包括: * spark-env.sh:配置Java_HOME、Scala_HOME、Master IP 地址、Worker 运行内存等参数 * ...

    在Kettle(PDI)跑Apache Spark作业

    作业中可能包含启动Spark Context、提交Spark Transformation或Job、监控Spark任务状态等步骤。 4. **Job文件解析**:`Job Spark.kjb`是一个Kettle的工作流文件,使用XML格式存储。这个文件会定义各个步骤及其执行...

    spark-1.6.0-bin-hadoop2.6.tgz

    开发者可以根据需求选择合适的语言编写应用程序,然后使用`spark-submit`脚本来提交任务到集群。 **6. 性能调优** Spark性能优化主要包括内存管理、任务调度和数据本地性等方面。可以通过调整`spark.executor....

Global site tag (gtag.js) - Google Analytics