`
linxiao
  • 浏览: 12828 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop源码编译

阅读更多

在hadoop的官方网站,每个发行的版本都提供了 源码包 和 编译后的二进制发行包,那如何选择了?

下载编译后的包,在系统上解压,设置配置文件后就可以直接使用,但在使用hadoop命名过程中,每次都会显示一个警告,如

hadoop fs -ls /
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

 
提示不能使用本地的lib,使用内部的java class来应用。这个本地的native library是需要根据自己的环境编译的,
虽说不影响使用,但每次都提示,看着也不舒服。另一方面,官方给的编译后的包是基于32位jvm编译的,在64位jvm上运行,不能发挥性能优势

基于上面的原因,为了更好的发挥hadoop性能,还是自己根据本地系统的环境,编译源码比较好
这里使用的是CDH版本的hadoop,这个更稳定一些,也是推荐的版本,cdh官方下载网站http://archive.cloudera.com/cdh5/cdh/5/,
选择相应的版本,如hadoop-2.6.0-cdh5.5.1-src.tar.gz版本,
直接下载,然后解压,操作如下:

wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.5.1-src.tar.gz,
tar zxvf hadoop-2.6.0-cdh5.5.1-src.tar.gz
cd  hadoop-2.6.0-cdh5.5.1

 
more BUILDING.txt,查看编译说明,

Requirements:

* Unix System
* JDK 1.7+
* Maven 3.0 or later
* Findbugs 1.3.9 (if running findbugs)
* ProtocolBuffer 2.5.0
* CMake 2.6 or newer (if compiling native code), must be 3.0 or newer on Mac
* Zlib devel (if compiling native code)
* openssl devel ( if compiling native hadoop-pipes )
* Internet connection for first build (to fetch all Maven and Hadoop dependencies)

必备条件:
unix系统
jdk 1.7以上
maven 3.0版本以上
findbugs 1.3.9版本(如果运行findbugs)
ProtocolBuffer 2.5.0版本
cmake 2.6以上(如果编译本地代码),mac系统上必须是3.0版本以上
zlib devel(如果编译本地代码)
openssl devel(如编译本地hadoop管道)
网络连接(需要获取maven和所有的hadoop依赖)

接下来就按照这些要求,安装所需的软件包,当前系统是64位CentOS 系统
1) 安装 Java
wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/7u79-b15/jdk-7u79-linux-x64.tar.gz
tar zxvf jdk-7u79-linux-x64.tar.gz
解压后直接使用,配置环境变量即可
export JAVA_HOME=/usr/local/jdk1.7.0_79
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

2) 安装 maven
wget http://mirror.tcpdiag.net/apache/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz
tar zxvf apache-maven-3.3.9-bin.tar.gz
解压后直接使用,配置环境变量即可
export MAVEN_HOME=/usr/local/apache-maven-3.3.9
export PATH=${PATH}:${MAVEN_HOME}/bin

3) 安装findbugs
没有找到直接在linux上下载的版本,所以从http://olex.openlogic.com/packages/findbugs/1.3.9上下载到本地后,上传到linux上
解压,unzip openlogic-findbugs-1.3.9-all-bin-1.zip
配置环境变量
export FINDBUGS_HOME=/usr/local/findbugs-1.3.9
export PATH=${PATH}:${FINDBUGS_HOME}/bin

4) 安装protocolBuffer
git clone https://github.com/google/protobuf.git
cd protobuf
 ./autogen.sh 下载gmock source,运行automake,autoconf等等,并且生成configure script和各种makefiles模板
./configure
make,然后漫长等待
make install
完成后,查看版本信息  protoc --version

5) 安装cmake,zlib devel,openssl devel
yum install cmake zlib-devel openssl-devel

到此,所需要的软件包都已经安装完毕,由于hadoop可以选择不同的压缩算法来压缩文件,所以还需要安装相关的压缩包,如bzip2, lz4, snappy, zlib
yum install lzo-devel snappy lz4 bzip2

环境变量,配置的是全局的,在/etc/profile里,内容如下:

export JAVA_HOME=/usr/local/jdk1.7.0_79
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

export MAVEN_HOME=/usr/local/apache-maven-3.3.9
export PATH=${PATH}:${MAVEN_HOME}/bin

export FINDBUGS_HOME=/usr/local/findbugs-1.3.9
export PATH=${PATH}:${FINDBUGS_HOME}/bin

 记住,修改完/etc/profile后,需要运行 source /etc/profile,让配置文件立即生效

接下来最重要的事情要出现了,编译源码。在编译前,再看下BUILDING.txt文件,文件中间有个Building distributions,先来看下,

Building distributions:

Create binary distribution without native code and without documentation:
  $ mvn package -Pdist -DskipTests -Dtar

Create binary distribution with native code and with documentation:
  $ mvn package -Pdist,native,docs -DskipTests -Dtar

Create source distribution:
  $ mvn package -Psrc -DskipTests

Create source and binary distributions with native code and documentation:
  $ mvn package -Pdist,native,docs,src -DskipTests -Dtar

Create a local staging version of the website (in /tmp/hadoop-site)
  $ mvn clean site; mvn site:stage -DstagingDirectory=/tmp/hadoop-site

 
里面有各种编译的用法,我们使用 mvn package -Pdist,native,src -DskipTests -Dtar ,创建二进制分发包,本地code,源码即可,文档就不需要了

运行 mvn package -Pdist,native,src -DskipTests -Dtar , 等待编译结果,编译速度根据网络来定,因为maven需要下载各种依赖包来编译打包,
编译过程中出错

[ERROR] Failed to execute goal org.apache.hadoop:hadoop-maven-plugins:2.6.0-cdh5.5.1:protoc (compile-protoc) on project hadoop-common: org.apache.maven.plugin.MojoExecutionException: protoc version is 'libprotoc 3.0.0', expected version is '2.5.0' -> [Help 1]

 
说是期望libprotoc 2.5.0版本,现在是3.0.0的版本,protocolBuffer版本高了还不行,输入protoc --version,的确是3.0版本,只能重新安装,
进入https://github.com/google/protobuf页面,选择2.5版本的分支下载,然后进行安装,过程跟第4步一样,省略。
安装后,执行protoc --version显示还是3.0.0版本,只能寻找其他方式,下载包来安装。

wget  protobuf.googlecode.com/files/protobuf-2.5.0.tar.bz2
tar jxvf protobuf-2.5.0.tar.bz2
cd  protobuf-2.5.0
./autogen.sh
./configure
make
make install

 
输入protoc --version,显示libprotoc 2.5.0,版本正确
接着运行mvn package -Pdist,native,src -DskipTests -Dtar,漫长等待后,还是失败,提示内存不足,搜索无果后,
再次查看BUILDING.txt文件,在中间有这么一段内容:

----------------------------------------------------------------------------------

Handling out of memory errors in builds

----------------------------------------------------------------------------------

If the build process fails with an out of memory error, you should be able to fix
it by increasing the memory used by maven -which can be done via the environment
variable MAVEN_OPTS.

Here is an example setting to allocate between 256 and 512 MB of heap space to
Maven

export MAVEN_OPTS="-Xms256m -Xmx512m"

 大意是说,如果内存不足,设置环境变量MAVEN_OPTS,增加内存,直接运行export MAVEN_OPTS="-Xms256m -Xmx512m"
接着再次编译,经过漫长等待后看到了,BUILD SUCCESS 的信息,说明编译成功,cd  hadoop-dist/target能看到编译后的文件包,到此整个编译过程完成。
注意的几点:
1、在编译前,一定要把BUILDING.txt认真看一遍,免得出现不必要的错误,耽误时间。
2、protobuf是从protobuf.googlecode.com下载的,需要xx,已上传到附件中。
3、整个操作过程是用root用户来操作的。

分享到:
评论

相关推荐

    hadoop源码编译所需软件包

    在Hadoop源码编译过程中,它用于提升代码质量和稳定性。解压`findbugs-2.0.3.tar.gz`,安装完成后将其路径添加至PATH环境变量,以便在构建Hadoop时运行FindBugs检查。 4. **Hadoop源码包** `hadoop-2.5.0-src.tar....

    Hadoop 源码编译所需软件

    通过以上步骤,我们可以看到,"Hadoop CDH 源码编译所需软件"这个主题涵盖了大数据处理的关键组件和最佳实践,如高效的压缩算法和静态代码分析工具。这些工具和技术的使用对于优化Hadoop CDH的性能、稳定性和安全性...

    Hadoop源码编译需要工具

    标题中的“Hadoop源码编译需要工具”指的是在本地环境中构建Hadoop源代码时所需的必备组件。Hadoop是一个开源的分布式计算框架,主要用于处理和存储海量数据。为了从源代码编译Hadoop,我们需要一些特定的开发工具和...

    hadoop源码编译安装包及安装步骤

    接下来,我们按照以下步骤进行Hadoop源码编译和安装: 1. **获取源码**:使用Git命令克隆Hadoop的源码仓库。例如,你可以运行`git clone https://github.com/apache/hadoop.git`来获取最新的源码。 2. **配置环境*...

    5_尚硅谷大数据之Hadoop源码编译1

    [root@hadoop101 ~]# tar -zxf hadoop-2.7.2-src.tar.gz [root@hadoop101 ~]# cd hadoop-2.7.2-src/ [root@hadoop101 hadoop-2.7.2-src]# mvn package -DskipTests 5.4 常见问题及解决方案 在 Hadoop 源码编译过程...

    Hadoop源码编译.pdf

    编译成功后,你需要替换原有的Native目录,然后通过运行Hadoop的某些命令来验证编译结果,如果没有出现警告或错误,那么恭喜你,Hadoop源码编译已完成。 整个过程可能会遇到各种问题,如依赖冲突、权限问题或者网络...

    hadoop源码编译mvn库

    hadoop源码编译所需要的maven仓库,省去编译时下载时间。

    Hadoop源码编译支持Snappy压缩教程

    ### Hadoop源码编译支持Snappy压缩教程 #### 一、Snappy压缩技术简介 在大数据处理领域,数据压缩技术对于提高存储效率和降低I/O开销具有重要作用。Snappy是一种高效的压缩与解压缩算法,它在压缩比与速度之间取得...

    hadoop源码编译.doc|hadoop源码编译.doc

    在深入探讨Hadoop源码编译的过程中,我们首先需要了解Hadoop是什么以及它的重要性。Hadoop是一个开源的分布式计算框架,由Apache软件基金会维护,主要由HDFS(Hadoop Distributed File System)和MapReduce两大部分...

    Hadoop源码编译 PDF 下载

    接下来,按照以下步骤进行源码编译: 1. **获取源码**:打开终端,使用`git clone`命令从Hadoop的官方仓库克隆源码: ``` git clone https://github.com/apache/hadoop.git ``` 2. **进入源码目录**: ``` cd...

    win 7 64上编译 Hadoop 2.7.3 源码

    2. **执行编译命令**:打开命令提示符窗口,进入Hadoop源码目录,运行`mvn clean package -DskipTests -Dmaven.javadoc.skip=true -Pdist,native -Dtar`命令来开始编译过程。该命令将跳过测试、Javadoc生成,并编译...

    【Hadoop篇06】Hadoop源码编译1

    在本篇【Hadoop篇06】中,我们将探讨如何编译Hadoop源码,这是一个对深入了解Hadoop内部机制至关重要的过程。以下是编译Hadoop源码所需的关键步骤和相关知识点: 1. **准备工作** - **CentOS联网**:确保Linux系统...

    Hadoop源码编译好的源码(eclipse可直接导入)

    本资源提供了已经编译好的Hadoop 2.7.3版本的源码,适用于Eclipse环境,方便开发者进行深入学习和二次开发。 首先,让我们来了解一下HDFS。HDFS是Hadoop的核心组件之一,是一个分布式文件系统,设计目标是能够在...

    官网荡下的源码,自己亲手编译的hadoop2.3.0 64位,给大家分享下

    官网荡下的源码,自己亲手编译的hadoop2.x 64位,给大家分享下 文件太大放的是百度网盘链接,目前有hadoop2.3.0,后面的版本我会陆续更新。

    win10系统编译好的hadoop源码

    在Windows 10环境下编译好的Hadoop源码对于开发者来说是一份宝贵的资源,因为它通常已经解决了在Windows系统上运行Hadoop时可能遇到的兼容性和配置问题。 标题中的"win10系统编译好的hadoop源码"指的是专门为...

    hadoop源码

    Hadoop源码编译和安装的过程也包含了许多知识点。首先,你需要一个Java开发环境,因为Hadoop是用Java编写的。然后,通过Maven或Ant等构建工具来编译源码。在源码包hadoop-2.8.5-src中,包含了一系列的配置文件和源...

    Hadoop源码eclipse编译.pdf

    ### Hadoop源码在Eclipse中的编译指南 #### 一、引言 随着大数据技术的发展,Hadoop作为处理大规模数据集的一种分布式计算框架,其重要性不言而喻。对于开发者而言,深入理解Hadoop的工作原理及其实现机制是非常有...

    Hadoop3.1.3源码编译

    首先,我们需要了解编译Hadoop源码的基本环境要求。确保你已经安装了Java Development Kit (JDK) 1.8或以上版本,因为Hadoop 3.x系列要求至少JDK 8。此外,还需要一个构建工具,Apache Maven,用于管理依赖关系和...

    编译Hadoop源码需要的maven文件

    当你需要对Hadoop源码进行编译时,Maven是必不可少的工具,因为它可以帮助我们自动化构建过程,管理项目的依赖关系,以及执行各种构建生命周期阶段。 编译Hadoop源码的过程涉及到以下几个关键知识点: 1. **Maven...

Global site tag (gtag.js) - Google Analytics