一,安装Scala
下载 :http://www.scala-lang.org/download/
配置环境变量的方式同Java,为了方便全部写在一起放入/etc/profile.d目录
hadoop.sh
#set Java Enviroment export JAVA_HOME=/usr/java/jdk1.6.0_45 export JRE_HOME=$JAVA_HOME/jre export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH #set Scala Enviroment export SCALA_HOME=/usr/scala/scala-2.10.4 export PATH=$SCALA_HOME/bin:$PATH #set hadoop path export HADOOP_HOME=/usr/local/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/libexec:$PATH export HADOOP_HOME_WARN_SUPPRESS=1 # set hbase path export HBASE_HOME=/usr/local/hbase export PATH=$HBASE_HOME/bin:$PATH # set hive path export HIVE_HOME=/usr/local/hive export PATH=$HIVE_HOME/bin:$HIVE_HOME/conf:$PATH # set mahout path export MAHOUT_HOME=/usr/local/mahout export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf export PATH=$MAHOUT_CONF_DIR:$MAHOUT_HOME/bin:$PATH #set pig path export PIG_HOME=/usr/local/pig export PATH=$PIG_HOME/bin:$PIG_HOME/conf:$PATH export PIG_CLASSPATH=$HADOOP_HOME/conf #set ant path export ANT_HOME=/usr/local/apache-ant-1.8.4 export PATH=$ANT_HOME/bin:$PATH # set maven path export M2_HOME=/usr/local/apache-maven-3.1.1 export PATH=$M2_HOME/bin:$PATH #set zookeeper path export ZOOKEEPER_HOME=/usr/local/zookeeper export PATH=$ZOOKEEPER_HOME/bin:$ZOOKEEPER_HOME/conf:$PATH #set dog path export DOG_HOME=/usr/local/dog export PATH=$DOG_HOME/bin:$PATH
二,安装Hadoop2
http://yeelor.iteye.com/blog/2002623
三,安装Spark
下载 http://spark.apache.org/downloads.html 一个提前编译过的版本,注意scala版本是否支持。
编辑conf/spark-env.sh文件,加入:
export SCALA_HOME=/usr/scala/scala-2.10.4 export SPARK_WORKER_MEMORY=24g export SPARK_MASTER_IP=218.193.154.216 export MASTER=spark://218.193.154.216:7077
编辑conf/slaves文件,加入
slave1 slave2
将spark文件夹拷贝到每台机器
1.sh
#for i in {1..10}; do for host in {master,slave1,slave2}; do #for((i=1;i<=num;i++)); do echo "开始安装${host}..." echo "拷贝几个配置文件" scp -r /usr/local/spark root@${host}:/usr/local scp -r /usr/scala root@${host}:/usr/ scp /etc/profile.d/hadoop.sh root@${host}:/etc/profile.d scp 2.sh root@${host}:/tmp/2.sh ssh root@${host} sh /tmp/2.sh echo "安装${host}完毕" done
2.sh
chown -R hadoop:hadoop /usr/local/spark echo "使环境变量生效" source /etc/profile exit
四,启动集群
在spark根目录
启动:
./sbin/start-all.sh
关闭:
./sbin/stop-all.sh
用 jps 命令查看进程,Master上有Master进程,Slave上有Worker进程。
五,测试
http://hmaster:8080/
1)
./bin/run-example org.apache.spark.examples.SparkPi
2)
./bin/spark-shell
六,参考
图书:《spark大数据处理》
相关推荐
### Spark集群安装部署与初步开发知识点详述 #### 一、Spark概述 - **定义**:Spark是一款基于内存计算的大数据并行计算框架,旨在提供高效的数据处理能力。 - **特性**: - **内存计算**:利用内存提高数据处理...
Spark分布式集群安装部署 Spark 是一种基于内存的分布式计算框架,它提供了高效的数据处理能力和灵活的编程模型。 Spark 集群安装部署是 Spark 的一个重要组成部分,它可以帮助用户快速部署 Spark 集群,并对其...
1. 实验描述:本实验旨在搭建一个基于Standalone模式的Spark集群,包括解压安装包、配置环境变量、启动集群及验证安装效果。 2. 实验环境:使用3台虚拟机,操作系统为Centos 7.5,Hadoop版本为2.7.3,Spark版本为...
Spark2.4.3集群部署是将Spark集群安装到多台机器上,以达到分布式计算和大规模数据处理的目的。下面是Spark2.4.3集群部署的详细知识点: 1. Master 节点配置 Master 节点是Spark集群的中心节点,负责协调和管理整个...
Spark 集群部署及入门 Spark 集群部署是大数据处理和分析的关键组件之一,本文档旨在指导 Spark 入门级人员了解 Spark 集群的部署和环境测试。 硬件环境 在部署 Spark 集群之前,需要具备一定的硬件环境,包括: ...
spark集群安装搭建,step by step,详细记录整个安装过程。
在这个实验中,我们将详细探讨如何在Yarn模式下安装和部署Spark集群。 首先,我们需要准备实验环境,这里包括三台虚拟机,操作系统为CentOS 7.5,Hadoop版本为2.7.3,Spark版本为2.1.1。这些版本的兼容性对于实验的...
### Spark集群安装与配置详解 #### 一、整体流程概览 为了搭建一个高效且稳定的Spark集群,我们首先需要理解整个部署过程的关键步骤。本文档将详细介绍如何通过配置三台虚拟机来完成这一任务,包括一台Master节点...
### Spark2.3.0与Hadoop2.7.4集群部署详解 #### 一、部署环境准备 在部署Spark2.3.0与Hadoop2.7.4集群之前,首先需要确保运行环境的稳定性与兼容性。本文将基于RedHat服务器进行详细讲解。 ##### 1.1 系统环境 - ...
CentOS 7.5 部署 Hbase + Spark 集群 CentOS 7.5 部署 Hbase + Spark 集群 CentOS 7.5 部署 Hbase + Spark 集群 CentOS 7.5 部署 Hbase + Spark 集群
5. 启动Spark:按照不同的部署模式启动Spark集群。 关于Spark的实用工具,有许多第三方工具可以和Spark配合使用,比如Hive、HBase等可以提供数据存储支持;Kafka、Flume等可以用于数据的实时流输入;Jupyter ...
在本例中,我们将搭建一个3节点的Spark集群,其中每个节点上都部署了Worker服务,同时为了保证高可用,我们还在hadoop001、hadoop002和hadoop003上分别部署了Master服务,Master服务由ZooKeeper集群进行协调管理,...
总之,Spark集群部署是一个涉及多方面因素的过程,需要根据实际需求选择合适的部署模式,并进行细致的配置以保证集群的稳定性和性能。在YARN模式下,Spark能够充分利用Hadoop的资源管理能力,实现灵活、高效的计算...
本文档旨在提供一套完整的Spark集群环境搭建指南,涵盖从基础系统环境的构建到各组件的安装与配置,最终实现一个功能完备的Spark集群环境。该环境适用于Spark 1.6及2.x版本,并支持Standalone与YARN模式下的部署。 ...
4. **启动与停止Spark**:启动Spark集群使用start-all.sh脚本,停止使用stop-all.sh脚本。启动后,Master和Worker进程会在相应节点上启动。 5. **验证集群状态**:访问Spark Web UI,默认端口为8080,可以查看集群...
- **Apache Spark**:需要提前部署好 Spark 集群。 - **Hadoop**:因为 Spark 常常与 Hadoop 配合使用,所以也需要安装 Hadoop。 #### 三、详细步骤 ##### 1. 安装 Scala 插件 打开 IntelliJ IDEA,依次点击 `...
【Spark集群环境部署实验】 Spark是大数据处理领域中的一款高效、通用、并行及分布式计算框架,它在处理大规模数据时具有快速、易用和可扩展的特性。本实验旨在帮助学习者理解Spark的设计理念,熟悉Spark生态系统,...