1.参数选取
当我们的代码写完,打好jar,就可以通过bin/spark-submit 提交到集群,命令如下:
./bin/spark-submit \
--class <main-class>
--master <master-url> \
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]
一般情况下使用上面这几个参数就够用了
--class: The entry point for your application (e.g. org.apache.spark.examples.SparkPi)
--master: The master URL for the cluster (e.g. spark://23.195.26.187:7077)
--deploy-mode: Whether to deploy your driver on the worker nodes (cluster) or locally as an external client (client) (default: client) †
--conf: Arbitrary Spark configuration property in key=value format. For values that contain spaces wrap “key=value” in quotes (as shown).
application-jar: Path to a bundled jar including your application and all dependencies. The URL must be globally visible inside of your cluster, for instance, an hdfs:// path or a file:// path that is present on all nodes.
application-arguments: Arguments passed to the main method of your main class, if any
对于不同的集群管理,对spark-submit的提交列举几个简单的例子
# Run application locally on 8 cores
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[8] \
/path/to/examples.jar \
100
# Run on a Spark standalone cluster in client deploy mode
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://207.184.161.138:7077 \
--executor-memory 20G \
--total-executor-cores 100 \
/path/to/examples.jar \
1000
# Run on a Spark standalone cluster in cluster deploy mode with supervise
# make sure that the driver is automatically restarted if it fails with non-zero exit code
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://207.184.161.138:7077 \
--deploy-mode cluster
--supervise
--executor-memory 20G \
--total-executor-cores 100 \
/path/to/examples.jar \
1000
# Run on a YARN cluster export HADOOP_CONF_DIR=XXX
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn-cluster \ # can also be `yarn-client` for client mode
--executor-memory 20G \
--num-executors 50 \
/path/to/examples.jar \
1000
# Run a Python application on a Spark standalone cluster
./bin/spark-submit \
--master spark://207.184.161.138:7077 \
examples/src/main/python/pi.py \
1000
2.具体提交步骤
代码实现一个简单的统计
public class SimpleSample {
public static void main(String[] args) {
String logFile = "/home/bigdata/spark-1.5.1/README.md";
SparkConf conf = new SparkConf().setAppName("Simple Application");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> logData = sc.textFile(logFile).cache();
long numAs = logData.filter(new Function<String, Boolean>() {
public Boolean call(String s) {
return s.contains("a");
}
}).count();
long numBs = logData.filter(new Function<String, Boolean>() {
public Boolean call(String s) {
return s.contains("b");
}
}).count();
System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs);
}
}
打成jar
上传命令
./bin/spark-submit --class cs.spark.SimpleSample --master spark://spark1:7077 /home/jar/spark-test-0.0.1-SN
本文转自:https://my.oschina.net/u/2529303/blog/541685
分享到:
相关推荐
3. **提交任务**:运行`bin/spark-submit`命令,指定Master地址、应用jar文件、主类以及其它相关配置。 总的来说,Spark 2.0.1集群的安装和任务提交涉及多方面的知识,包括系统配置、集群管理、Spark编程和任务调度...
使用`spark-submit`命令提交任务到YARN,需要提供JAR路径、主类名、YARN相关参数等。 7. **YARN资源管理**: YARN通过Container来分配资源,每个Container包含一定的内存和CPU核心。Spark作业会根据需求申请和释放...
### Hue 提交 Spark Jar 任务使用指南 #### 前言 随着大数据处理需求的日益增长,Apache Hue 作为一款优秀的 Web 界面工具,在大数据生态中扮演着越来越重要的角色。它不仅支持 Hadoop 文件系统、Hive 数据库等操作...
"web管理spark任务"指的是利用Spark自带的Web UI以及相关的工具,通过Web界面来提交、监控和管理Spark作业。这种方式提供了可视化的方式,使得开发者和运维人员能够更直观地了解作业的运行状态。 首先,我们来详细...
2. 提交任务:在命令行中,使用`spark-submit`工具提交Spark任务到YARN集群: ```bash $ spark-submit \ --class com.example.SubmitToYarn \ --master yarn \ --deploy-mode cluster \ --jars /path/to/your/...
任务提交接口是指Spark应用的入口点,用户可以通过该接口提交任务并对其进行配置。本文档提出了一种基于历史任务分析的自动化调优方法,该方法可以对任务提交接口进行封装,以提高任务的执行效率和性能。 知识点5: ...
`cluster`模式下,Driver在集群内部运行,更适用于远程提交任务。 3. **--class CLASS_NAME**:指定应用的主类全名,包括包名。 4. **--name NAME**:给应用程序命名,方便在集群监控界面识别。 5. **--jars JARS...
Apache Spark的作业提交与运行机制是其核心组成部分之一,涉及到进程、线程的创建以及任务的调度等多个方面。 首先,要想深入理解Spark作业的提交与运行,需要搭建实验环境。搭建步骤主要包括下载Spark二进制包,...
- **spark-defaults.conf**: Spark 提交 Job 时的默认配置文件,用于定义 Spark 的全局配置参数,例如 Executor 的内存大小等。 - **spark-env.sh**: Spark 的环境变量配置文件,可以设置一些特定于系统的环境变量,...
要安装 Spark,需要先下载 Pre-built Apache Hadoop xx 和 later 的安装包,然后按照官方文档的说明进行安装。在 PyCharm 中,可以使用 File->Settings->Project->Project Structure 中的 Add ContentRoot 选项将 ...
4. Spark配置文件:如`spark-env.sh`、`slaves`,用于指定Spark集群的运行参数和从节点列表。 5. Spark Web UI的使用:提供可视化界面监控Spark集群状态和应用运行情况。 **四、实验步骤** 1. **解压Spark安装包**...
5. **调优**:Spark调优涉及到对执行性能的优化,包括配置参数如executor内存、并行度、缓存策略等,以及代码层面的优化,如减少shuffle操作,优化join操作,利用broadcast变量等。 6. **调度**:Spark的调度系统...
同时,还需要将Spark提交到YARN的客户端或集群模式,通过`spark-submit`命令进行操作。 4. **部署步骤**: - **安装Hadoop**:首先,确保Hadoop已经在集群中正确安装并运行,包括HDFS和YARN服务。 - **下载Spark*...
作业中可能包含启动Spark Context、提交Spark Transformation或Job、监控Spark任务状态等步骤。 4. **Job文件解析**:`Job Spark.kjb`是一个Kettle的工作流文件,使用XML格式存储。这个文件会定义各个步骤及其执行...
* 使用spark-submit命令提交计算任务 * 查看任务执行的界面和历史日志 5. Spark集群的配置文件 Spark集群的配置文件包括: * spark-env.sh:配置Java_HOME、Scala_HOME、Master IP 地址、Worker 运行内存等参数 * ...
开发者可以根据需求选择合适的语言编写应用程序,然后使用`spark-submit`脚本来提交任务到集群。 **6. 性能调优** Spark性能优化主要包括内存管理、任务调度和数据本地性等方面。可以通过调整`spark.executor....