在先前装的CDH5.14集群中,默认安装的spark是1.6.0版本。我们现在可以现有的集群中再装spark2.x版本,能和spark1.6版本并存。
当前CDH支持的Spark2.X最新版本是Spark2.3.0,目前Apache Spark最近版本是2.3.1,即CDH的版本更新是慢半拍的,但基本上不影响使用。
下面是在CDH中安装Spark2.3的步骤:
这是官方给出安装和升级方法说明:
https://www.cloudera.com/documentation/spark2/latest/topics/spark2_installing.html
一. 安装准备
1. 下载所需的安装包
http://archive.cloudera.com/spark2/csd/
SPARK2_ON_YARN-2.3.0.cloudera3.jar
http://archive.cloudera.com/spark2/parcels/2.3.0.cloudera3/
SPARK2-2.3.0.cloudera3-1.cdh5.13.3.p0.458809-el6.parcel
SPARK2-2.3.0.cloudera3-1.cdh5.13.3.p0.458809-el6.parcel.sha1
manifest.json
说明:要选择相对应的系统、CDH版本
我的系统是CentOS6.7所以选择了el6,都选择cloudera3相应的parcel包
2. Spark2.3安装需求
二、安装步骤
1. 上传CSD包到CM节点的/opt/cloudera/csd目录
# chown cloudera-scm:cloudera-scm SPARK2_ON_YARN-2.3.0.cloudera3.jar
2. 上传parcel的3个包到CM的/opt/cloudera/parcel-repo目录下
[root@hadoop0 parcel-repo]# ls
SPARK2-2.3.0.cloudera3-1.cdh5.13.3.p0.458809-el6.parcel
SPARK2-2.3.0.cloudera3-1.cdh5.13.3.p0.458809-el6.parcel.sha
manifest.json
如之前有manifest.json文件,先把之前的更名后再上传
3. 安装JDK1.8
安装Spark2.X必需要安装JDK1.8以上版本,因我们在安装CDH5.14时默认选择安装的是JDK1.7.0_67版本,所以要把JDK进行版本升级。否则在后面在安装spark2时会报错:
Java version 1.8 is required for Spark 2.3.
具体安装过程和报错解决在后面详细介绍。
4. 重启CM和集群
# service cloudera-scm-agent restart
5. 通过CM安装Spark2
CM页面-> 主机 -> Parcel页面可以看到新的spark2的parcel包
2.3.0.cloudera3-1.cdh5.13.3.p0.458809
然后点击 下载-进行分配-激活
6. 在集中添加服务
可以看到正常启动
三、遇到的问题
在集群中安装jdk1.8,修改CDH的JAVA_HOME方法
下面解决安装Spark2时出现jdk版本低的问题,
问题:在添加Spark服务进出现下面的错误
解决:
在每个节点安装JDK1.8(可以与jdk1.7版本并存)
[root@hadoop1 ~]# rpm -ivh jdk-8u181-linux-x64.rpm
warning: jdk-8u181-linux-x64.rpm: Header V3 RSA/SHA256 Signature, key ID ec551f03: NOKEY
Preparing... ########################################### [100%]
1:jdk1.8 ########################################### [100%]
在CM节点配置JAVA_HOME
[root@hadoop0 ~]# vi /etc/default/cloudera-scm-server
export JAVA_HOME=/usr/java/jdk1.8.0_181-amd64
在CM中每个主机的上配置JAVA_HOME
在CM中的点 -> 主机 -> 选择一host
在高级页添加新的JAVA_HOME目录
Spark1.6与Spark2出现兼容性问题
如果新装的Spark2与之前的Spark1.6出现兼容性问题,请删除Spark1.6服务后再添加Spark2服务器
CDH (5.8 and higher) parcel required for SPARK2 (2.2.0.cloudera4-1.cdh5.13.3.p0.603055) is not available.
在Parcel Settings里面uncheck 包的依赖关系检验
---------------------
作者:常飞梦
来源:CSDN
原文:https://blog.csdn.net/lichangzai/article/details/82225494
版权声明:本文为博主原创文章,转载请附上博文链接!
相关推荐
CDH5.13版本是其重要的一个迭代,集成了多种组件,如Hadoop、HBase、Spark等。而Phoenix作为一款建立在HBase之上的SQL查询引擎,极大地简化了NoSQL数据库的查询操作。本文将详细介绍如何编译CDH5.13中的Phoenix ...
- 将解压后的Spark目录复制到CDH的安装目录下:`cp -r spark-3.3.1-bin-3.0.0-cdh6.3.2 /opt/cloudera/parcels/CDH/lib/spark3` 3. **配置文件复制**: - **hive-site.xml**:`cp /etc/hive/conf/hive-site.xml /...
本次升级的主要目的是将现有的 Cloudera Manager 和 CDH 版本从 5.4.8 更新至 5.12.1,并同时升级 JDK 至 1.8 版本,以及安装 Spark 2.2。此升级涉及多个组件和服务,因此需要进行详尽的规划和准备。 #### 集群现状...
"phoenix-CDH-cdh-5.13-parcel" 这个文件名暗示了这是Apache Phoenix针对CDH 5.13版本的一个Parcel包,包含了所有必要的组件和配置,可以直接在CDH集群上安装使用。 **知识扩展:** Apache Phoenix优化了对HBase的...
Spark3.2.2是Apache Spark的一个重要版本,它提供了许多新特性和性能...需要注意的是,安装和配置Spark时,要遵循CDH的官方文档,以确保所有依赖项和设置正确无误。此外,定期更新和打补丁以保持系统的安全性至关重要。
3. **安装Spark2服务**:Spark2是一个重要的大数据处理组件,可以极大地提高数据处理速度。安装过程可能涉及依赖项检查、配置文件修改等步骤。 4. **安装Elasticsearch (ES) 和 Kibana**:这两个工具主要用于日志...
### CDH上安装Spark2的操作说明 #### 一、引言 随着大数据处理技术的不断发展,Apache Spark作为一款快速、通用的大数据处理引擎,在实际应用中的需求也日益增长。为了更好地利用Spark的强大功能,有时我们需要在...
内容概要:由于cdh6.3.2的spark版本为2.4.0,并且spark-sql被阉割,现基于cdh6.3.2,scala2.12.0,java1.8,maven3.6.3,,对spark-3.2.2源码进行编译 应用:该资源可用于cdh6.3.2集群配置spark客户端,用于spark-sql
### 基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优 #### 概述 随着大数据技术的发展,Hadoop生态系统不断成熟与完善,其中Apache Hive作为数据仓库工具,支持通过SQL语句进行查询、分析存储在Hadoop文件系统...
为了在CDH 5.14.2上安装和运行Spark 2.2.1,你需要执行以下步骤: 1. 下载并解压"spark-2.2.1-bin-2.6.0-cdh5.14.2.tar.gz"到服务器的适当位置。 2. 配置Spark环境变量,如`SPARK_HOME`,并将Spark的bin目录添加到...
在这个CDH5.14的安装过程中,我们将关注如何在CentOS7.4环境下离线安装CDH,同时包括Spark2和Kafka。 首先,你需要下载以下组件: 1. JDK:这是Java Development Kit,用于运行和开发Java应用程序,CDH中的服务依赖...
cdh5.13的安装文档,详细记录了安装的步骤和一下常见问题的解决办法
CDH5.13.0资源下载
cdh离线安装教程;enterprise-debuginfo-6.3.1-1466458.el7.x86_64.rpm;cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpm;cloudera-manager-agent-6.3.1-1466458.el7.x86_64.rpm;cloudera-manager-server-...
用户可以通过解压此文件,在CDH集群上安装和配置Spark,以实现数据处理和分析任务。 总的来说,Spark 2.4.6与CDH 5.16.2的结合为大数据处理提供了一个强大而稳定的平台,它集成了高效的数据处理、实时流处理、机器...
hadoop-eclipse-plugin
CDH5.13.2资源下载
CDH5.8+Oryx2.2 推荐系统环境搭建是一个复杂的过程,涉及到多个步骤和组件的安装配置。下面将详细讲解这个过程中的关键知识点。 **1. 安装准备** - **主机集群**:搭建推荐系统环境通常需要多台服务器形成一个集群...
### CM5.12.1环境下安装Spark 2.2.0详细步骤 #### 一、准备工作 在正式安装Spark 2.2.0之前,需要确保满足以下环境要求: 1. **Scala版本要求**:根据Cloudera官方文档,Spark 2不支持Scala 2.10,仅支持Scala ...