`

spark 2.3.1 Standalone 集群

阅读更多

1.先下载spark 2.3.1

下载地址:http://spark.apache.org/downloads.html

2.安装spark 2.3.1

   上传到 /usr/spark 目录下

   解压安装 : 

  

tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz

 3.修改/etc/hosts文件如下:

vim /etc/hosts

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.2.185 sky1

 修改/etc/sysconfig/network文件如下:

vim /etc/sysconfig/network

NETWORKING=yes
HOSTNAME=sky1
GATEWAY=192.168.2.1

 

4. 修改spark 配置文件(以4台机器为例)

   conf/slaves

 vim conf/slaves
sky1
sky2
sky3
sky4


   conf/spark-env.sh

vim conf/spark-env.sh
export JAVA_HOME=/usr/java/jdk
export SPARK_MASTER_HOST=sky1
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=1
export SPARK_WORKER_MEMORY=1g

 

5.修改完成后,把spark cp 到其它机器

scp -r /usr/spark/spark-2.3.1-bin-hadoop2.7 root@sky2:/usr/spark

 

6.启动spark

启动注意关闭防火墙(service iptables stop)

./sbin/start-all.sh

其它启动命令(http://spark.apache.org/docs/latest/spark-standalone.html):

sbin/start-master.sh - Starts a master instance on the machine the script is executed on.
sbin/start-slaves.sh - Starts a slave instance on each machine specified in the conf/slaves file.
sbin/start-slave.sh - Starts a slave instance on the machine the script is executed on.
sbin/start-all.sh - Starts both a master and a number of slaves as described above.
sbin/stop-master.sh - Stops the master that was started via the sbin/start-master.sh script.
sbin/stop-slaves.sh - Stops all slave instances on the machines specified in the conf/slaves file.
sbin/stop-all.sh - Stops both the master and the slaves as described above.

 

  7.查看启动情况:

    http://IP:8080/ 查看spark web控制台

   netstat -antlp :查看spark 端口监听情况

   

  8. 测试(http://spark.apache.org/docs/latest/submitting-applications.html)

     ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://sky1:7077 examples/jars/spark-examples_2.11-2.3.1.jar  10000

   其它

# Run application locally on 8 cores
./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master local[8] \
  /path/to/examples.jar \
  100

# Run on a Spark standalone cluster in client deploy mode
./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master spark://207.184.161.138:7077 \
  --executor-memory 20G \
  --total-executor-cores 100 \
  /path/to/examples.jar \
  1000

# Run on a Spark standalone cluster in cluster deploy mode with supervise
./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master spark://207.184.161.138:7077 \
  --deploy-mode cluster \
  --supervise \
  --executor-memory 20G \
  --total-executor-cores 100 \
  /path/to/examples.jar \
  1000

# Run on a YARN cluster
export HADOOP_CONF_DIR=XXX
./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master yarn \
  --deploy-mode cluster \  # can be client for client mode
  --executor-memory 20G \
  --num-executors 50 \
  /path/to/examples.jar \
  1000

# Run a Python application on a Spark standalone cluster
./bin/spark-submit \
  --master spark://207.184.161.138:7077 \
  examples/src/main/python/pi.py \
  1000

# Run on a Mesos cluster in cluster deploy mode with supervise
./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master mesos://207.184.161.138:7077 \
  --deploy-mode cluster \
  --supervise \
  --executor-memory 20G \
  --total-executor-cores 100 \
  http://path/to/examples.jar \
  1000

# Run on a Kubernetes cluster in cluster deploy mode
./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master k8s://xx.yy.zz.ww:443 \
  --deploy-mode cluster \
  --executor-memory 20G \
  --num-executors 50 \
  http://path/to/examples.jar \
  1000

 

 

 

 

  

分享到:
评论

相关推荐

    spark 2.3.1 支持Hive Yarn Hadoop 2.7 已编译版本

    Spark 2.3.1是Apache Spark的一个重要版本,它为大数据处理提供了高效、可扩展的计算框架。这个版本特别强调了对Hive和YARN的兼容性,并且与Hadoop 2.7版本进行了良好的集成。以下是关于这些关键组件及其相互作用的...

    spark-2.3.1-bin-hadoop2.7.zip

    Spark 2.3.1是Spark的一个稳定版本,它在2.3系列中包含了多个性能优化和新功能的引入。这次我们讨论的是Spark 2.3.1与Hadoop 2.7的集成版本,名为"spark-2.3.1-bin-hadoop2.7.zip"的压缩包。 首先,Spark的核心设计...

    spark2.3.1-with-hive

    Spark 2.3.1 是一个重要的大数据处理框架,它提供了高效的分布式计算能力,而与 Hive 的集成使得 Spark 可以充分利用 Hive 的元数据、SQL 查询功能和存储系统,为大数据分析提供更丰富的选择。Hive 是一种基于 ...

    spark-2.3.1-bin-hadoop2.9-without-hive.tgz

    Spark 2.3.1是Apache Spark的一个稳定版本,它是一个快速、通用且可扩展的大数据处理框架。这个版本在2.3.0的基础上进行了优化和改进,提供了更丰富的功能和更高的性能。Hadoop 2.9.0是用于分布式存储和计算的开源...

    spark-2.3.1源码包

    6. **部署与运行**:将生成的jar包分发到集群,配置相应的环境变量,如`SPARK_HOME`,然后通过`spark-submit`命令提交应用程序或者直接运行`bin/spark-shell`进入交互式环境。 总结来说,Spark 2.3.1源码的打包编译...

    spark-2.3.1-bin-hadoop2.6.tgz

    6. **Hadoop集成**:Spark 2.3.1与Hadoop 2.6集成,意味着它可以读写HDFS上的数据,并可以与其他Hadoop组件(如YARN或MapReduce)配合工作,实现大数据处理的集群资源管理。 7. **DataFrame和Dataset API**:这些...

    spark-2.3.1-bin-hadoop2.7.rar

    "spark-2.3.1-bin-hadoop2.7.rar"是一个压缩包文件,包含了Spark的所有核心组件,包括Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图处理库)。用户无需进行复杂的安装过程,只需将其...

    Spark-2.3.1源码解读

    Spark-2.3.1源码解读。 Spark Core源码阅读 Spark Context 阅读要点 Spark的缓存,变量,shuffle数据等清理及机制 Spark-submit关于参数及部署模式的部分解析 GroupByKey VS ReduceByKey OrderedRDDFunctions...

    spark-docs-api_2.3.1.zip

    1. **RDD(Resilient Distributed Datasets)**:这是Spark的基础数据抽象,是一个容错的、只读的数据集,可以在集群中的多个节点上分区存储。RDD支持转换和动作两种操作,转换创建新的RDD,动作触发计算并返回结果...

    spark-2.3.1-bin-hadoop2-without-hive.tgz

    Spark 2.3.1是Apache Spark的一个稳定版本,它包含了许多重要的性能改进和新特性。这个特定的压缩包"spark-2.3.1-bin-hadoop2-without-hive.tgz"是针对Hadoop 2.x平台编译的Spark二进制发行版,但不包括对Hive的支持...

    spark的单机和集群安装与配置

    ### Spark的单机和集群安装与配置 #### 一、单机Spark的安装与配置 在开始安装Spark之前,需要确保已经安装了Scala环境。这是因为Spark是基于Scala编写的,并且许多Spark应用都是用Scala语言编写的。 ##### 1. ...

    spark-3.2.1-bin-hadoop2.7.tgz

    接着,可以启动Spark的独立模式或者与YARN、Mesos等集群管理器结合的集群模式。在开发应用程序时,可以使用Scala、Java、Python或R语言的Spark API,编写分布式数据处理代码。 Spark支持多种数据源,包括HDFS、...

    sjf0115#PubLearnNotes#[Spark]Spark Streaming 2.3.1 监控应用程序1

    当使用 StreamingContext 时,Spark Web UI 会额外显示一个 Streaming 选项卡,用来显示正在运行的 Receivers 的统

    spark-1.6.3-bin-hadoop2.6.tgz

    此外,它还支持HDFS(Hadoop分布式文件系统),可以方便地读写Hadoop集群中的数据。 总的来说,"spark-1.6.3-bin-hadoop2.6.tgz"这个压缩包包含了一个完整的Spark 1.6.3发行版,预编译为与Hadoop 2.6兼容。安装这个...

    spark-2.3.0-bin-hadoop2.7版本.zip

    3. **多模式支持**:Spark支持多种工作模式,包括本地模式、Standalone集群模式、YARN模式(与Hadoop2.7集成)以及Mesos模式,适应不同的部署环境。 4. **组件丰富**:Spark包含多个模块,如Spark Core、Spark SQL...

    Spark-2.3.1:Spark-2.3.1源码解读

    浪尖带着你阅读spark原始码 Spark Core源码阅读 Spark Sql源码阅读 Spark Streaming源码阅读 更多大数据文章请关注浪尖微信公众号:Spark学习技巧 浪尖和阿里大神一起创造了知识星球-spark技术学院,欢迎大家扫码...

    spark开发压缩包

    这个版本的Spark是2.3.1,它与Hadoop 2.7版本兼容,这意味着它可以很好地运行在使用Hadoop 2.7版本的集群上,或者可以与该版本的Hadoop进行数据交互。 **Spark组件详解:** 1. **Spark Core**:Spark的核心组件,...

    apache-seatunnel-incubating-2.3.1源码

    4. **分布式运行**:Seatunnel支持在分布式环境下运行,可以充分利用集群资源,实现高并发和大规模数据处理。通过Flink或Spark作为后端执行引擎,Seatunnel可以在大规模数据集上高效运行。 5. **Flink与Spark集成**...

    nacos2.3.1 windows 版本

    7. **Web控制台**:Nacos 2.3.1版本的Web控制台提供图形化界面,方便用户进行服务管理、配置查看和修改、集群状态监控等操作,降低了运维难度。 8. **热更新**:Nacos支持配置的热更新,意味着在不重启服务的情况下...

Global site tag (gtag.js) - Google Analytics