#!/bin/bash
# Here, I am assuming that you want to run your Spark program in "Spark Cluster"
# Assuming that your Spark master is running on server "myserver100"
# This script is a kind of template ...
# --------------------------------------------------------------------------------
# 1. You have installed the data-algorithms-book in /home/mp/data-algorithms-book (BOOK_HOME)
# 2. Spark 1.5.2 is installed at /usr/local/spark-1.5.2
# 3. And you have built the source code and generated $DAB/dist/data_algorithms_book.jar
# 4. And you have two input parameters identified as P1 and P2
# 5. You need to modify spark-submit parameters accordingly
# --------------------------------------------------------------------------------
#
export JAVA_HOME=/home/nianhua/soft/jdk1.8.0_45
# java is defined at $JAVA_HOME/bin/java
export BOOK_HOME=/data/spark/demo3
export SPARK_HOME=/home/nianhua/soft/spark-1.3.0-bin-hadoop2.4
export SPARK_MASTER=spark://tuijian-mnger.cando.site:7077
#export SPARK_JAR=$BOOK_HOME/lib/spark-assembly-1.5.2-hadoop2.6.0.jar
export APP_JAR=$BOOK_HOME/sparkwordcount.jar
#
# build all other dependent jars in OTHER_JARS
JARS=`find $BOOK_HOME/lib -name '*.jar'`
OTHER_JARS=""
for J in $JARS ; do
OTHER_JARS=$J,$OTHER_JARS
done
#
echo $JAVA_HOME
echo ${JAVA_HOME}
P1=local
P2=1
DRIVER_CLASS_NAME=$1
nohup $SPARK_HOME/bin/spark-submit --class $DRIVER_CLASS_NAME --master $SPARK_MASTER --num-executors 10 --driver-memory 2g --executor-memory 5g --total-executor-cores 12 --executor-cores 10 --driver-java-options "-Dspark.akka.frameSize=25" --jars $OTHER_JARS $APP_JAR $P1 $P2 &
分享到:
相关推荐
在Spark生态系统中,Web界面是管理和监控Spark任务的重要工具,特别是在大规模数据处理场景下。"web管理spark任务"指的是利用Spark自带的Web UI以及相关的工具,通过Web界面来提交、监控和管理Spark作业。这种方式...
Java提交Spark任务到YARN平台是一项常见的大数据处理操作,它结合了Java的编程能力和Spark的高性能计算框架,以及Hadoop的资源管理系统YARN。在这个过程中,开发者需要理解多个关键概念和配置步骤,以便有效地调度和...
本文档详细的介绍了spark的shell启动命令,具体细节等要求
部署Spark集群,分析TiDB以及Hadoop的大数据,入门而已
windows中使用yarn-cluster模式提交spark任务,百度找不着的啦,看我这里。另外spark的版本要使用正确哦 更简单的方式参考: https://blog.csdn.net/u013314600/article/details/96313579
基于 Spark 任务流执行平台项目源码+使用说明.zip基于 Spark 任务流执行平台项目源码+使用说明.zip基于 Spark 任务流执行平台项目源码+使用说明.zip基于 Spark 任务流执行平台项目源码+使用说明.zip基于 Spark 任务...
脚本功能:启动集群 前提:配置好执行脚本的主机到其他主机的ssh登录 脚本使用:vim编辑脚本,按照自己的配置修改主机号,我的是hadoop1、2是NN;hadoop2、3是Spark Master;hadoop3还是RM;hadoop4、5、6是DN、NM、...
本项目涉及的是一个基于Spark的数仓任务设计,主要目的是从原始数据中...综上所述,这个Spark任务设计涵盖了数据仓库、大数据处理、Spark SQL、任务调度、数据迁移和分析等多个关键领域,体现了大数据分析的完整流程。
spark任务task分析
本文详细的描述了spark 的启动过程,帮助你快速了解spark
本地开发Spark/Hadoop报错“ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.” ...
本文将详细介绍如何在集群环境中安装Spark 2.0.1,并提供编写Spark应用程序的实例以及如何将任务提交到Spark Standalone集群。 首先,我们来看【spark集群安装.doc】。这份文档应该包含详细的Spark集群安装步骤。...
本教程将详细讲解如何使用Java编程语言将Spark任务提交到YARN平台上,实现高效的数据处理。 一、环境准备 在开始之前,确保你的环境中已经安装了Java、Spark和Hadoop,并且它们的版本相互兼容。Java通常需要JDK 8或...
spark源码下载安装启动,包括遇到的问题,下载地址,.编译spark源码
对于熟悉Scala开发的人来说,对于spark-sql的使用,直接jar包中...但是对于我,不打算学习Scala和Java语言,但是又想定时执行时间推延的周期、定时任务,该肿么办? spark-sql CLI几个参数,完全满足我等非专业人员。
《Spark技术深度解析:从SparkCount到SparkSQL与SparkStreaming》 Spark,作为大数据处理领域的重要框架,以其高效、易用的特点受到了广泛的关注。在"SparkDemo.rar"这个压缩包中,包含了三个关键领域的示例:Spark...
Spark任务调度机制是Spark核心功能之一,它负责高效地组织和执行Spark应用程序中的计算任务。在深入理解这一机制之前,我们需要了解几个关键概念:Job、Stage和Task。 1. Job:Job是由Spark应用程序中的Action操作...
在 Spark Standalone 模式下,Master 负责接收任务并将任务分发给 Worker 节点。具体操作如下: - 下载 wordcount 示例代码。 - 使用 Maven 打包项目并上传至 Spark 集群。 - 使用以下命令提交作业: ```bash ./...