本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作。
需要注意两点:(1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4、CDH5等,将Spark运行在 Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能,资源调度要依托于第三方系统,比如YARN或Mesos等 (2)之所以不采用Mesos而是YARN,是因为YARN拥有强大的社区支持,且逐步已经成为资源管理系统中的标准。
注意,目前官方已经发布了0.8.1版本,可以直接从这里选择合适的版本下载,如果你使用的是hadoop 2.2.0或者CDH5,可以直接从这里下载。
将Spark部署到Hadoop 2.2.0上需要经过以下几步:
步骤1:准备基础软件
步骤2:下载编译spark 0.8.1或者更高版本
步骤3:运行Spark实例
接下来详细介绍这几个步骤。
步骤1:准备基础软件
(1) 基本软件
包括linux操作系统、Hadoop 2.2.0或者更高版本、Maven 3.0.4版本(或者最新3.0.x版本),其中,Hadoop 2.2.0只需采用最简单的方式安装即可,具体可参考我的这篇文章:Hadoop YARN安装部署,Maven安装方法很简单,可以在http://maven.apache.org/download.cgi上下载binary版本,解压后,配置MAVEN_HOME和PATH两个环境变量,具体可自行在网上查找相关方法,比如这篇“Linux下安装maven”,但需要注意,版本不是3.0.x版,Spark对版本要求很严格。
(2)硬件准备
Spark 2.2.0专门搞出来一个yarn-new支持hadoop 2.2.0,因为hadoop 2.2.0的API发生了不兼容变化,需要使用Maven单独编译并打包,而编译过程非常慢(一般机器,2个小时左右),且占用内存较多,因此,你需要一 台满足以下条件的机器作为编译机:
条件1:可以联网:第一次编译时,maven需要从网上下载大量的jar包,速度比较慢,如果你网络不行,建议直接放弃编译。
条件2:内存2GB以上
步骤2:下载编译spark 0.8.1或者更高版本
可以用git下载或者直接wget或者spark 0.8.1版本
wget https://github.com/apache/incubator-spark/archive/v0.8.1-incubating.zip |
注意,0.8.1之前的版本不支持hadoop 2.2.0,从0.8.1版本开始支持。
下载之后,对其解压:
unzip v0.8.1-incubating |
然后进入解压目录,输入以下命令:
|
一般需要等待很长时间,编译完成后,将spark内核打包成一个独立的jar包,命令如下:
原文链接:http://dongxicheng.org/framework-on-yarn/build-spark-on-hadoop-2-yarn/
【编辑推荐】
http://developer.51cto.com/art/201401/426600.htm
相关推荐
### Hadoop 2.2.0 部署详尽指南 #### 一、安装Linux **1. 安装wmware11** - **待补充:** 这部分需要更详细的说明来指导用户如何顺利安装wmware11,包括系统的最低配置要求、安装过程中需要注意的关键步骤等。 **...
总的来说,"spark-2.2.0-bin-hadoop2.6.tgz"是为Hadoop环境准备的Spark发行版,提供了一套完整的工具集,支持用户在YARN上部署和运行Spark应用,实现大规模数据处理任务。通过熟练掌握Spark和Hadoop的相关知识,...
### Hadoop 2.2.0 集群搭建详细指南 #### 一、环境配置与准备工作 在开始搭建 Hadoop 2.2.0 的集群之前,我们需要确保所有节点都处于良好的工作状态,并完成一系列的基础环境配置。具体步骤如下: 1. **更新 ...
这个压缩文件包含了运行Hadoop所需的所有组件和配置文件,用户可以将其解压后在64位Linux系统上部署和使用Hadoop集群。 Hadoop的主要组件包括: 1. HDFS(Hadoop Distributed File System):这是一个分布式文件...
### Spark编译与部署(中)--Hadoop编译安装 #### 1. 编译Hadoop 在本文档中,我们将详细介绍如何从源码编译Hadoop,并完成其安装配置过程。本教程适用于希望通过从源码编译来深入了解Hadoop内部机制的读者。 ###...
在安装和部署Spark 2.2.2时,你需要设置环境变量,例如`SPARK_HOME`指向解压后的目录,并将`bin`路径添加到PATH中。如果你的环境已经配置了Hadoop,那么Spark可以自动与之交互;如果没有,你可能需要手动指定Hadoop...
Spark是Apache软件基金会下的一个开源大数据处理框架,它以其高效的计算性能、易用性以及对多种...通过与Hadoop 2.7的集成,用户可以方便地在现有的Hadoop集群上部署和运行Spark应用程序,实现高效的数据分析和挖掘。
这个"spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz"压缩包是Spark的一个特定版本,用于与Cloudera Distribution Including Apache Hadoop (CDH) 5.14.0兼容。CDH是Cloudera公司提供的一个全面、集成、管理的Hadoop堆栈,...
总结,本文详细介绍了在CentOS 6.4 X64上利用Vmware虚拟环境搭建Hadoop-2.2.0和Spark 1.0集群的步骤,涵盖了从基础环境准备、JDK安装、Hadoop配置到Spark部署的全过程。这对于学习和实践Hadoop和Spark的大数据处理...
总之,SparkR是Apache Spark和R语言的完美结合,它提供了在R中处理大规模数据的强大工具,而SparkR_2.2.0.tar.gz则是这一工具的可部署版本,包含了完整的SparkR库和相关依赖。无论是数据科学家还是开发者,都能从中...
整体来看,这份文档详细阐述了如何在多台机器上部署和配置一个完整的Hadoop-HBase-Hive分布式环境,适合对云计算和大数据处理感兴趣的读者学习。作者提醒,这个文档仅用于学习交流,未经授权不得用于商业目的。有...
在安装过程中,首先你需要解压下载的Spark-2.2.0-bin-hadoop2.7压缩包,然后根据官方文档或者网络上的教程配置Spark的环境变量,如SPARK_HOME、PATH等。接着,你需要配置Spark与你的Hadoop集群的连接,包括设置...
在这个特定的场景中,Spark2运行在YARN(Yet Another Resource Negotiator)上,这是Hadoop的资源管理器,负责调度和分配集群中的计算资源。 Cloudera的集成使得Spark与Hadoop以及其他生态系统组件(如Kafka)有更...
### Spark编译与部署(上)--基础环境搭建 #### 运行环境说明 ##### 硬件与软件环境 为了进行Spark的编译与部署,首先需要搭建一个合适的基础环境。本文档介绍了一个典型的实验环境,具体配置如下: - **主机...
这个项目的Web接口可能是一个用户界面,允许用户通过浏览器输入查询,然后将这些请求发送到后端的Hadoop搜索引擎。这个接口通常使用Java Servlets、JSP(JavaServer Pages)或者现代的Web框架如Spring MVC来实现。 ...
标签列出了"hive"、"hadoop"、"apache"和"spark",这为我们提供了上下文。Hadoop是分布式存储和计算框架,Hive与之紧密集成,将数据存储在HDFS(Hadoop Distributed File System)中,并利用MapReduce或YARN进行并行...
1. 解压`spark-2.2.0-bin-hadoop2.7.tgz`到一个目录,例如`/usr/local`。 2. 同样配置环境变量: ``` export SPARK_HOME=/usr/local/spark-2.2.0-bin-hadoop2.7 export PATH=$SPARK_HOME/bin:$PATH ``` **步骤...
该平台旨在利用Hadoop-2.2.0进行大数据存储和分析,通过部署在4个物理节点上的Hadoop集群,实现对海量数据的深层加工和处理,以揭示隐藏的业务模式,为电力企业的决策提供数据支持。平台运行在Linux操作系统(Ubuntu...
Apache Atlas 还支持与其他Apache项目集成,如Hadoop、Hive、Spark等,使得在整个大数据生态系统中实现全面的数据治理成为可能。在2.2.0版本中,这些集成可能已经过测试和优化,提供了更加稳定和流畅的用户体验。 ...