1、Scala 安装
http://www.scala-lang.org/files/archive/scala-2.10.3.tgz
# tar xvzf scala-2.10.3.tgz -C /usr/lib/
环境变量配置
export SCALA_HOME=/usr/lib/scala-2.10.3
export PATH=$SCALA_HOME/bin:$PATH
# scala -v
2、Maven 安装
下载maven到服务器,解压并安装
# tar xvzf apache-maven-3.1.1.tgz -C /usr/lib/
环境变量配置
export MAVEN_HOME=/usr/lib/apache-maven-3.1.1
export PATH=$MAVEN_HOME/bin:$PATH
安装成功.
3、Spark 编译
在Spark官网上可以下载到CDH4版本的hadoop对应Spark包,但目前无法下载到CDH5版本的Spark.
所以去Cloudera网站去下载 http://archive.cloudera.com/cdh5/cdh/5/
spark-1.2.0-cdh5.3.2.tar.gz 编译完成的部署包
spark-1.2.0-cdh5.3.2-src.tar.gz 源码包
由于编译完成的包下载后,看到有问题,少文件。所以就用Maven重新编译源码,得出新的部署包,当然,如果下载的部署包不存在问题,那么就不需要重新编译了。
编译需要make-distribution.sh脚本进行编译,可以打开进行查看,如需要编译包含hive等
需要进行以上配置到make-distribution.sh中,详细了解这个脚本就知道了。
然后执行./make-distribution.sh开始进行编译。(也可以执行mvn -DskipTests clean package进行编译,但是它不会生成部署包)
经过漫长的过程,编译成功。(由于这个过程需要下载很多jar,下载很慢,我当时也奋战了很久才弄成功的)
4、Spark 部署
hadoop-2.5.0-cdh5.3.2
hadoop lzo压缩
zookeeper-3.4.5 (Spark HA需要用到)
以上安装就不介绍了,资料很多。
解压部署包:
修改配置文件
export JAVA_HOME=/usr/java/jdk1.7.0_25
export JRE_HOME=$JAVA_HOME/jre
export HADOOP_HOME=/home/hadoop/hadoop-2.5.0-cdh5.3.2
export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.5.0-cdh5.3.2/etc/hadoop
export SCALA_HOME=/usr/lib/scala-2.10.1
#spark on standalone
export SPARK_WORKER_MEMORY=24G
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_CORES=24
#spark on yarn
export SPARK_EXECUTOR_INSTANCES=2
export SPARK_EXECUTOR_CORES=12
export SPARK_EXECUTOR_MEMORY=2G
export SPARK_DRIVER_MEMORY=3G
export SPARK_YARN_APP_NAME="Spark ON YARN"
#context
export LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib
export SPARK_LIBRARY_PATH=$SPARK_LIBRARY_PATH:/home/hadoop/hadoop-2.5.0-cdh5.3.2/lib/native/
export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop/hadoop-2.5.0- cdh5.3.2/share/hadoop/common/hadoop-lzo-0.4.20-SNAPSHOT.jar
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=slave38:2181,slave54:2181,slave55:2181 -Dspark.deploy.zookeeper.dir=/spark"
export SPARK_JAVA_OPTS="-Dspark.cores.max=12 -Dspark.kryoserializer.buffer.mb=30 -verbose:gc -XX:-PrintGCDetails -XX:+PrintGCTimeStamps -XX:MaxPermSize=256m -Dspark.local.dir=/tmp "
添加节点列表 slaves
拷贝到各个机器后启动Spark
./start-all.sh
启动 STANDBY
./start-master.sh
相关推荐
Spark3.2.2是Apache Spark的一个重要版本,它提供了许多新特性和性能优化,而适配CDH6.3.2则意味着该版本的Spark已经经过了与Cloudera Data Hub (CDH) 6.3.2的兼容性验证。CDH是一个流行的Hadoop发行版,包含了...
### 基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优 #### 概述 随着大数据技术的发展,Hadoop生态系统不断成熟与完善,其中Apache Hive作为数据仓库工具,支持通过SQL语句进行查询、分析存储在Hadoop文件系统...
### CDH6.3.2升级Spark至3.3.1详细步骤与注意事项 #### 一、背景介绍 在CDH6.3.2中,默认的Spark版本为2.4.0。为了满足更高的性能需求及功能扩展,本文将详细介绍如何将Spark升级至3.3.1版本的过程。此次升级的...
内容概要:由于cdh6.3.2的spark版本为2.4.0,并且spark-sql被阉割,现基于cdh6.3.2,scala2.12.0,java1.8,maven3.6.3,,对spark-3.2.2源码进行编译 应用:该资源可用于cdh6.3.2集群配置spark客户端,用于spark-sql
### CDH上安装Spark2的操作说明 #### 一、引言 随着大数据处理技术的不断发展,Apache Spark作为一款快速、通用的大数据处理引擎,在实际应用中的需求也日益增长。为了更好地利用Spark的强大功能,有时我们需要在...
基于CDH的spark集群搭建,包括了httpd等服务的部署过程
《CDH集群部署手册(For CDH5)》是一份详尽的指南,旨在帮助用户成功部署和管理CDH(Cloudera Distribution Including Apache Hadoop)5版本的集群。CDH是Cloudera公司提供的一个全面、经过企业级优化的Apache Hadoop...
### CDH HA (High Availability) 部署详解 #### 一、概述 在大数据处理领域,Cloudera Distribution Including Apache Hadoop (CDH) 是一个广泛使用的平台,它不仅包含Hadoop的核心组件,还提供了丰富的附加服务。...
输入本地CDH仓库URL,例如`http://10.64.43.135/cdh5`,并删除其他 URL。 六、开始下载和部署 开始下载和部署CDH,等待一段时间,直到所有节点已经激活。根据网络速度和主机情况,进度可能不同。 七、主机参数调整...
5. 主机名配置:修改主机名为新的主机名,例如cdh01、cdh02、cdh03。 二、网络配置 1. 网卡配置:配置网卡的IP地址、子网掩码、网关等信息。 2. 主机hosts文件配置:在集群内所有主机的Host文件中添加配置。 3. ...
3. Cloudera Manager安装包:这是管理CDH集群的主要工具,提供监控、配置和部署等功能。 4. CDH Parcel:这是CDH的安装文件,包含了CDH5.14.4的所有组件。 5. SHA1校验文件:用于验证下载的Parcel文件的完整性。 请...
CDH是Cloudera公司推出的基于Hadoop的分布式处理框架,提供了一个完整的解决方案,包括数据存储、数据处理、数据分析等功能。CDH集群可以处理大量数据,满足大数据时代的需求。 大数据CDH集群架构 大数据CDH集群...
CDH部署安装文档,纯手敲非复制,有截图,一看就懂
由于文档是基于本地环境进行伪分布式的部署,因此在实际生产环境中可能还需要添加额外的步骤来确保集群稳定运行。 #### 二、系统环境需求 部署CDH集群前,首先要确保所有节点的操作系统满足以下条件: - 操作系统...
CDH5.4部署文档
利用flume将mysql的数据同步到kafak,flume是基于CDH6.2.0安装的。解决已下问题:java.lang.NoSuchMethodError: org.apache.flume.Context.getSubProperties(Ljava/lang/String;)Lcom/google/common/collect/...
### CDH5部署指南及产品详尽介绍 #### 一、Cloudera公司背景与优势 **Cloudera** 成立于2008年,是一家由来自Google、Yahoo、Oracle和Facebook等科技巨头的技术专家共同创立的企业。作为全球首个专注于提供企业级...
当Spark 2.4.6与CDH 5.16.2集成时,用户可以利用CDH提供的统一管理界面(如Cloudera Manager)来部署、监控和管理Spark集群。此外,CDH的HDFS和YARN为Spark提供了可靠的数据存储和计算资源分配,使得Spark作业能够在...
本人在大数据行业工作多年,该手册是通过实践写的部署手册,供大家参考。