`
zhangxiong0301
  • 浏览: 359717 次
社区版块
存档分类
最新评论

SPARK 1.2.0 编译

阅读更多

编译的是 CDH5.3.0版本的spark,跟我们现在的hadoop(HADOOP-2.5.0-CDH5.3.0)集群匹配 ,下载地址:http://archive.cloudera.com/cdh5/cdh/5/

 

1.准备MAVEN,这是必须的,当然机器要能联网,以便MAVEN可以在线下载依赖的jar包。装maven就是下载和配置MAVEN_HOME,PATH,简单。

 

2.查看SPARK home目录的make-distribution.sh,个文件是cdh用来帮你编译和打发布包的脚本,脚本并不复杂,流程是脚本使用说明函数,识别用户传递的参数,调用maven编译打包,拷贝编译后的文件并打包(是否打包tgz是可选的,命令行加--tgz就行)。从脚本内容可以看出需要传递两种类型的参数:通用选项(--skip-java-test,--with-tachyon,--tgz,--name,--help)和maven参数。maven编译参数可以参考spark官网编译spark教程的说明文档:http://spark.apache.org/docs/1.2.1/building-spark.html,主要是指定对应的hadoop版本,以及是否包含yarn,hive等功能。

 

3.执行make-distribution.sh脚本。对于我的编译,命令如下:

./make-distribution.sh --tgz --skip-java-test -Pyarn -Phadoop-2.4 -Dhadoop.version=2.5.0-cdh5.3.0 -Phive -Phive-0.13.1-cdh5.3.0 -Phive-thriftserver -DskipTests

 

如果执行时指定了--tgz,则会在spark的home目录生成tgz格式的发布包,这个包就是最终需要的spark软件;如果未指定,则在spark home下的dist子目录里包含了未打包的spark软件,自己打包拷贝就行了。

 

 4.拷贝生成的发布包,测试运行。只需要解压步骤三生成的tgz包就行了。应该spark on yarn是趋势,因此配在spark配置文件中配置下yarn或hadoop的配置文件地址。具体来说就是在 $YARN_HOME/conf/spark-env.sh

文件中添加:

HADOOP_CONF_DIR=/home/hadoop/cdh5/hadoop250/etc/hadoop/

YARN_CONF_DIR=/home/hadoop/cdh5/hadoop250/etc/hadoop/

HADOOP_HOME=/home/hadoop/cdh5/hadoop250/

这就是最简单的配置了,当然还有log4j和spark.conf以及metrics配置需要在正式用的时候配置优化。

接下来测试例子:

 ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --num-executors 6  --driver-memory 1g --executor-memory 2g --executor-cores 1 lib/spark-examples*.jar 5

 

执行没问题就可以正式优化使用了。

 

 

分享到:
评论

相关推荐

    spark 高级数据分析 高清 书签

    , 《深入理解SPARK:核心思想与源码分析》一书对Spark1.2.0版本的源代码进行了全面而深入的分析,旨在为Spark的优化、定制和扩展提供原理性的指导。阿里巴巴集团专家鼎力推荐 、阿里巴巴资深Java开发和大数据专家...

    深入理解Spark 核心思想与源码分析

    , 《深入理解SPARK:核心思想与源码分析》一书对Spark1.2.0版本的源代码进行了全面而深入的分析,旨在为Spark的优化、定制和扩展提供原理性的指导。阿里巴巴集团专家鼎力推荐 、阿里巴巴资深Java开发和大数据专家...

    apache-atlas-2.1.0-bin.tar.gz--基于cdh6.3.1编译完成

    CDH是Cloudera的Hadoop发行版,集成了多个大数据处理组件,包括HDFS、HBase、Spark等。在CDH 6.3.1中集成Apache Atlas,意味着用户可以直接在CDH平台上进行数据治理操作,无需额外安装Apache Atlas,简化了部署和...

    atlas编译安装包 apache-atlas-1.2.0-server.tar.gz

    这个编译安装包 "apache-atlas-1.2.0-server.tar.gz" 包含了运行Apache Atlas 1.2.0版本所需的所有组件和服务。下面将详细介绍这个包中的关键知识点以及如何进行安装和配置。 1. **Apache Atlas 的核心概念**: - ...

    SparkTest_BD

    Spark1.2.0 Scala2.10.x Jdk1.6 IntelliJ IDEA14.0.2 (+ plugin scala) 使用方法 目前只包含了以下两个功能类。 类MLAppLR 机器学习中的Logistic Regression模型,支持两种求解方法:SGD和LBFGS。支持的所有参数如下...

    Linux环境Hadoop2.6+Hbase1.2集群安装部署

    安装Spark需要下载预编译的二进制包,配置环境变量,以及在Hadoop配置文件中指定HDFS的地址。同时,还需要配置Spark的master和worker节点,启动Spark服务。 通过以上步骤,我们构建了一个完整的分布式大数据处理...

    sbt-1.0.2.zip

    它提供了命令行界面,允许开发者通过简单的命令执行各种任务,如编译、测试、打包和发布应用程序。sbt以其高效、灵活和强大的特性,成为Scala社区的首选构建工具。 在【描述】中提到的"sbt-1.0.2.zip"是sbt的一个...

    这是一款使用 dtk 写的一个简易远程桌面连接工具 1.2.0,基于 rdesktop

    这是一款使用 dtk 写的一个简易远程连接工具,基于 rdesktop,适用于连接...是无法连接 Windows XP(不知道是不是个例),而编译的 rdesktop 1.9.0 是没有问题的,所以我也把编译好的应用放进 deb 包并支持选择版本

    SparkR安装部署及数据分析实例

    SPARK_HADOOP_VERSION=2.4.1 SPARK_VERSION=1.2.0 ./install-dev.sh ``` **1.3.3 分布式SparkR的部署配置** 1. **打包SparkR**: 编译完成后,在lib文件夹中将SparkR打包成SparkR.tar.gz文件。 2. **分发至集群**...

    ranger-admin集成

    Ranger提供了一套集中的策略管理系统,支持Hadoop、HBase、Kafka、Hive、Spark等大数据组件的权限控制,使得企业能够更好地管理和保护其数据资产。在本案例中,我们关注的是Ranger的1.2版本,特别是其管理员接口——...

    大数据精通组件——DolphinScheduler⼯作流调度引擎

    2. 支持多种任务类型,包括但不限于Shell、MR(MapReduce)、Spark、SQL(MySQL、PostgreSQL、Hive、SparkSQL)、Python、Sub_Process、Procedure等,DolphinScheduler 1.2.0版本新增支持Flink和httpTask。...

    DolphinScheduler工作流调度引擎.pdf

    - 包括Shell、MapReduce、Spark、SQL(MySQL、PostgreSQL、Hive、SparkSQL)、Python、Sub_Process、Procedure等。 - 1.2.0版本新增支持Flink和HTTP任务。 - **多样化的调度模式**: - 支持定时调度、依赖调度、...

    相关软件安装文档.docx

    整个过程涉及大量的命令行操作,包括编译源代码安装、配置文件编辑、启动和停止服务等。在部署时,需注意组件之间的依赖关系,例如Hadoop需要Zookeeper,Hive需要Hadoop和MySQL,Spark需要Hadoop和JDK等。同时,为了...

    hive X86_64的工具包

    7. **Java类库**:Hive的核心实现,包括了查询解析、编译、优化以及执行等模块的源代码和编译后的class文件。 安装和使用Hive X86_64工具包通常涉及以下步骤: 1. 解压压缩包到指定目录。 2. 配置`hive-site.xml`以...

Global site tag (gtag.js) - Google Analytics