1.先下载spark 2.3.1
下载地址:http://spark.apache.org/downloads.html
2.安装spark 2.3.1
上传到 /usr/spark 目录下
解压安装 :
tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
3.修改/etc/hosts文件如下:
vim /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 192.168.2.185 sky1
修改/etc/sysconfig/network文件如下:
vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=sky1 GATEWAY=192.168.2.1
4. 修改spark 配置文件(以4台机器为例)
conf/slaves
vim conf/slaves sky1 sky2 sky3 sky4
conf/spark-env.sh
vim conf/spark-env.sh export JAVA_HOME=/usr/java/jdk export SPARK_MASTER_HOST=sky1 export SPARK_MASTER_PORT=7077 export SPARK_WORKER_CORES=1 export SPARK_WORKER_MEMORY=1g
5.修改完成后,把spark cp 到其它机器
scp -r /usr/spark/spark-2.3.1-bin-hadoop2.7 root@sky2:/usr/spark
6.启动spark
启动注意关闭防火墙(service iptables stop)
./sbin/start-all.sh
其它启动命令(http://spark.apache.org/docs/latest/spark-standalone.html):
sbin/start-master.sh - Starts a master instance on the machine the script is executed on. sbin/start-slaves.sh - Starts a slave instance on each machine specified in the conf/slaves file. sbin/start-slave.sh - Starts a slave instance on the machine the script is executed on. sbin/start-all.sh - Starts both a master and a number of slaves as described above. sbin/stop-master.sh - Stops the master that was started via the sbin/start-master.sh script. sbin/stop-slaves.sh - Stops all slave instances on the machines specified in the conf/slaves file. sbin/stop-all.sh - Stops both the master and the slaves as described above.
7.查看启动情况:
http://IP:8080/ 查看spark web控制台
netstat -antlp :查看spark 端口监听情况
8. 测试(http://spark.apache.org/docs/latest/submitting-applications.html)
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://sky1:7077 examples/jars/spark-examples_2.11-2.3.1.jar 10000
其它
# Run application locally on 8 cores ./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master local[8] \ /path/to/examples.jar \ 100 # Run on a Spark standalone cluster in client deploy mode ./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://207.184.161.138:7077 \ --executor-memory 20G \ --total-executor-cores 100 \ /path/to/examples.jar \ 1000 # Run on a Spark standalone cluster in cluster deploy mode with supervise ./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://207.184.161.138:7077 \ --deploy-mode cluster \ --supervise \ --executor-memory 20G \ --total-executor-cores 100 \ /path/to/examples.jar \ 1000 # Run on a YARN cluster export HADOOP_CONF_DIR=XXX ./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ # can be client for client mode --executor-memory 20G \ --num-executors 50 \ /path/to/examples.jar \ 1000 # Run a Python application on a Spark standalone cluster ./bin/spark-submit \ --master spark://207.184.161.138:7077 \ examples/src/main/python/pi.py \ 1000 # Run on a Mesos cluster in cluster deploy mode with supervise ./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master mesos://207.184.161.138:7077 \ --deploy-mode cluster \ --supervise \ --executor-memory 20G \ --total-executor-cores 100 \ http://path/to/examples.jar \ 1000 # Run on a Kubernetes cluster in cluster deploy mode ./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master k8s://xx.yy.zz.ww:443 \ --deploy-mode cluster \ --executor-memory 20G \ --num-executors 50 \ http://path/to/examples.jar \ 1000
相关推荐
Spark 2.3.1是Apache Spark的一个重要版本,它为大数据处理提供了高效、可扩展的计算框架。这个版本特别强调了对Hive和YARN的兼容性,并且与Hadoop 2.7版本进行了良好的集成。以下是关于这些关键组件及其相互作用的...
Spark 2.3.1是Spark的一个稳定版本,它在2.3系列中包含了多个性能优化和新功能的引入。这次我们讨论的是Spark 2.3.1与Hadoop 2.7的集成版本,名为"spark-2.3.1-bin-hadoop2.7.zip"的压缩包。 首先,Spark的核心设计...
Spark 2.3.1 是一个重要的大数据处理框架,它提供了高效的分布式计算能力,而与 Hive 的集成使得 Spark 可以充分利用 Hive 的元数据、SQL 查询功能和存储系统,为大数据分析提供更丰富的选择。Hive 是一种基于 ...
Spark 2.3.1是Apache Spark的一个稳定版本,它是一个快速、通用且可扩展的大数据处理框架。这个版本在2.3.0的基础上进行了优化和改进,提供了更丰富的功能和更高的性能。Hadoop 2.9.0是用于分布式存储和计算的开源...
6. **部署与运行**:将生成的jar包分发到集群,配置相应的环境变量,如`SPARK_HOME`,然后通过`spark-submit`命令提交应用程序或者直接运行`bin/spark-shell`进入交互式环境。 总结来说,Spark 2.3.1源码的打包编译...
6. **Hadoop集成**:Spark 2.3.1与Hadoop 2.6集成,意味着它可以读写HDFS上的数据,并可以与其他Hadoop组件(如YARN或MapReduce)配合工作,实现大数据处理的集群资源管理。 7. **DataFrame和Dataset API**:这些...
"spark-2.3.1-bin-hadoop2.7.rar"是一个压缩包文件,包含了Spark的所有核心组件,包括Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和GraphX(图处理库)。用户无需进行复杂的安装过程,只需将其...
Spark-2.3.1源码解读。 Spark Core源码阅读 Spark Context 阅读要点 Spark的缓存,变量,shuffle数据等清理及机制 Spark-submit关于参数及部署模式的部分解析 GroupByKey VS ReduceByKey OrderedRDDFunctions...
1. **RDD(Resilient Distributed Datasets)**:这是Spark的基础数据抽象,是一个容错的、只读的数据集,可以在集群中的多个节点上分区存储。RDD支持转换和动作两种操作,转换创建新的RDD,动作触发计算并返回结果...
Spark 2.3.1是Apache Spark的一个稳定版本,它包含了许多重要的性能改进和新特性。这个特定的压缩包"spark-2.3.1-bin-hadoop2-without-hive.tgz"是针对Hadoop 2.x平台编译的Spark二进制发行版,但不包括对Hive的支持...
### Spark的单机和集群安装与配置 #### 一、单机Spark的安装与配置 在开始安装Spark之前,需要确保已经安装了Scala环境。这是因为Spark是基于Scala编写的,并且许多Spark应用都是用Scala语言编写的。 ##### 1. ...
接着,可以启动Spark的独立模式或者与YARN、Mesos等集群管理器结合的集群模式。在开发应用程序时,可以使用Scala、Java、Python或R语言的Spark API,编写分布式数据处理代码。 Spark支持多种数据源,包括HDFS、...
当使用 StreamingContext 时,Spark Web UI 会额外显示一个 Streaming 选项卡,用来显示正在运行的 Receivers 的统
此外,它还支持HDFS(Hadoop分布式文件系统),可以方便地读写Hadoop集群中的数据。 总的来说,"spark-1.6.3-bin-hadoop2.6.tgz"这个压缩包包含了一个完整的Spark 1.6.3发行版,预编译为与Hadoop 2.6兼容。安装这个...
3. **多模式支持**:Spark支持多种工作模式,包括本地模式、Standalone集群模式、YARN模式(与Hadoop2.7集成)以及Mesos模式,适应不同的部署环境。 4. **组件丰富**:Spark包含多个模块,如Spark Core、Spark SQL...
浪尖带着你阅读spark原始码 Spark Core源码阅读 Spark Sql源码阅读 Spark Streaming源码阅读 更多大数据文章请关注浪尖微信公众号:Spark学习技巧 浪尖和阿里大神一起创造了知识星球-spark技术学院,欢迎大家扫码...
这个版本的Spark是2.3.1,它与Hadoop 2.7版本兼容,这意味着它可以很好地运行在使用Hadoop 2.7版本的集群上,或者可以与该版本的Hadoop进行数据交互。 **Spark组件详解:** 1. **Spark Core**:Spark的核心组件,...
4. **分布式运行**:Seatunnel支持在分布式环境下运行,可以充分利用集群资源,实现高并发和大规模数据处理。通过Flink或Spark作为后端执行引擎,Seatunnel可以在大规模数据集上高效运行。 5. **Flink与Spark集成**...
7. **Web控制台**:Nacos 2.3.1版本的Web控制台提供图形化界面,方便用户进行服务管理、配置查看和修改、集群状态监控等操作,降低了运维难度。 8. **热更新**:Nacos支持配置的热更新,意味着在不重启服务的情况下...