`
FeiNiBukeZyh
  • 浏览: 13114 次
  • 性别: Icon_minigender_1
  • 来自: 沈阳
社区版块
存档分类
最新评论

基于CDH5部署Spark记录

 
阅读更多

1、Scala 安装

 http://www.scala-lang.org/files/archive/scala-2.10.3.tgz

 # tar xvzf scala-2.10.3.tgz -C /usr/lib/

 环境变量配置

 export SCALA_HOME=/usr/lib/scala-2.10.3

 export PATH=$SCALA_HOME/bin:$PATH

 # scala -v

2、Maven 安装

 下载maven到服务器,解压并安装

 # tar xvzf apache-maven-3.1.1.tgz -C /usr/lib/

 
 环境变量配置

 export MAVEN_HOME=/usr/lib/apache-maven-3.1.1

 export PATH=$MAVEN_HOME/bin:$PATH

 安装成功.

3、Spark 编译

  在Spark官网上可以下载到CDH4版本的hadoop对应Spark包,但目前无法下载到CDH5版本的Spark.

  所以去Cloudera网站去下载 http://archive.cloudera.com/cdh5/cdh/5/

  spark-1.2.0-cdh5.3.2.tar.gz 编译完成的部署包

  spark-1.2.0-cdh5.3.2-src.tar.gz 源码包

  由于编译完成的包下载后,看到有问题,少文件。所以就用Maven重新编译源码,得出新的部署包,当然,如果下载的部署包不存在问题,那么就不需要重新编译了。

  编译需要make-distribution.sh脚本进行编译,可以打开进行查看,如需要编译包含hive等

  
 需要进行以上配置到make-distribution.sh中,详细了解这个脚本就知道了。

 然后执行./make-distribution.sh开始进行编译。(也可以执行mvn -DskipTests clean package进行编译,但是它不会生成部署包)

 经过漫长的过程,编译成功。(由于这个过程需要下载很多jar,下载很慢,我当时也奋战了很久才弄成功的)

4、Spark 部署

 hadoop-2.5.0-cdh5.3.2

 hadoop lzo压缩

 zookeeper-3.4.5 (Spark HA需要用到)

 以上安装就不介绍了,资料很多。

 解压部署包:

 
 修改配置文件

 export JAVA_HOME=/usr/java/jdk1.7.0_25

 export JRE_HOME=$JAVA_HOME/jre

 export HADOOP_HOME=/home/hadoop/hadoop-2.5.0-cdh5.3.2

 export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.5.0-cdh5.3.2/etc/hadoop

 export SCALA_HOME=/usr/lib/scala-2.10.1

 #spark on standalone

 export SPARK_WORKER_MEMORY=24G

 export SPARK_WORKER_INSTANCES=1

 export SPARK_WORKER_CORES=24

 #spark on yarn

 export SPARK_EXECUTOR_INSTANCES=2

 export SPARK_EXECUTOR_CORES=12

 export SPARK_EXECUTOR_MEMORY=2G

 export SPARK_DRIVER_MEMORY=3G

 export SPARK_YARN_APP_NAME="Spark ON YARN"

 #context

 export LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib

 export SPARK_LIBRARY_PATH=$SPARK_LIBRARY_PATH:/home/hadoop/hadoop-2.5.0-cdh5.3.2/lib/native/

 export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/hadoop/hadoop-2.5.0- cdh5.3.2/share/hadoop/common/hadoop-lzo-0.4.20-SNAPSHOT.jar

 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=slave38:2181,slave54:2181,slave55:2181 -Dspark.deploy.zookeeper.dir=/spark"

 

 export SPARK_JAVA_OPTS="-Dspark.cores.max=12 -Dspark.kryoserializer.buffer.mb=30 -verbose:gc -XX:-PrintGCDetails -XX:+PrintGCTimeStamps -XX:MaxPermSize=256m -Dspark.local.dir=/tmp "

    添加节点列表 slaves

 拷贝到各个机器后启动Spark

 ./start-all.sh

 启动 STANDBY
 ./start-master.sh

  
 

 

分享到:
评论

相关推荐

    基于cdh6.3.2 apache-atlas-2.2.0,完整编译打包

    CDH 6.3.2是一个全面的企业级Hadoop发行版,包含了多种开源组件,如HDFS、YARN、HBase、Spark等,以及针对这些组件的优化和管理工具。在该版本中,Apache Atlas的集成使得企业能够更好地管理其大数据资产,确保数据...

    基于hadoop-2.6.0-cdh5.4.3版本的源码阅读,以注释及博客的形式记录阅读笔记.zip

    Hadoop 2.6.0-cdh5.4.3 版本是 Cloudera Distribution 包含 Hadoop(CDH)的一个发行版,CDH 提供了对 Hadoop 生态系统的预编译、测试和优化,使得企业能够更方便地部署和管理 Hadoop 集群。此版本包含了多项改进和...

    Python库 | sahara_plugin_cdh-1.0.0-py2.py3-none-any.whl

    2. **数据处理工作流**:支持创建、启动和监控基于CDH服务的数据处理作业,如MapReduce、Spark作业等。 3. **版本适配**:插件会根据CDH的不同版本来调整配置,确保与CDH的兼容性。 4. **资源优化**:自动调整集群...

    Doris介绍、原理、安装、集成hive

    2. **部署Frontend和Backend**:根据系统需求部署FE和BE实例。 3. **配置环境**:包括网络配置、系统参数调整等。 4. **启动服务**:启动FE和BE服务,确保正常运行。 #### 五、集成Hive 为了更好地利用现有Hive生态...

    apache-atlas-2.1.0-server.tar.gz

    5. **安全与审计**:Apache Atlas 支持与 Apache Sentry 和 Apache Ranger 等安全框架集成,可以实现基于角色的访问控制(RBAC),确保只有授权的用户或服务才能访问特定的数据资源。同时,它还提供审计日志,以便...

    Cloudera最新认证体系2024.docx

    ### Cloudera 最新认证体系2024 随着大数据技术的发展与应用,Cloudera作为全球领先的大数据处理解决方案提供商,...此外,最新的认证体系基于CDH7版本的CDP,而之前的CDH6版本的考试已被官方下架,不再接受考生报考。

Global site tag (gtag.js) - Google Analytics