`
chaijuntao
  • 浏览: 24769 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

将Hadoop 2.6.0源码导入到Eclipse

 
阅读更多

我的环境:

CentOS 64bit
NTFS格式文件系统
Administrator用户
Eclipse(Luna Service Release 2 (4.4.2))
JDK 1.7(Oracle官网下载)最好不要用1.8,因为导入源码后还想编译的话会出现问题。
hadoop-src-2.6.0.tar.gz(在官网下载的源码:http://www.apache.org/dyn/closer.cgi/hadoop/common/)

 

 

1. 安装Apache Maven。

  • 一般是直接到官网下载最新的binaries;
  • 解压到你所希望的目录,比如C:\Program Files\Apache Software Foundation\;
  • 将命令所在路径加入到PATH环境变量中。解压后得到一个目录,我下载的是3.3.1版,得到的目录是apache-maven-3.3.1;maven的可执行命令mvn的目录是C:\Program Files\Apache Software Foundation\apache-maven-3.3.1\bin,需要确保这个路径加入到PATH环境变量中。
  • 验证安装。安装好后,打开一个cmd窗口,执行mvn -version,会输出一些信息(在磁盘根目录下执行这个命令可能会输出java.exe的用法信息,出现这个现象的原因是,mvn命令中启动java.exe时传递的一个参数是路径但最后一个字符不能是"\",而根目录通过%CD%变量给出的字符串的最后一个字符恰恰是"\",所以会出现问题。换到一个非磁盘根目录下执行命令,会正常显示,一般包括Maven的版本和HOME路径,Java的版本和HOME路径,默认Locale,OS的信息。不能正常显示也不会影响后面的过程,只要表明能够找到mvn命令即可)。
  • 设置MAVEN_OPTS。能够为了避免编译时java虚拟机的内存不够,需要设置一个环境变量MAVEN_OPTS,值为-Xms256m -Xmx512m

2. (想用官方源的可以跳过这步)可以修改maven的源配置,可以修改成国内的源,下载速度可能快些。请参考http://www.cnblogs.com/errorx/p/3779578.html这篇博文。对于我的maven安装来讲,是要修改C:\Program Files\Apache Software Foundation\apache-maven-3.3.1\conf\目录下的settings.xml文件。

 

3. 下载protocol buffers的编译器程序,即protoc.exe,放到通过PATH环境变量可以找到的目录(或者将protoc.exe所在目录加入到PATH环境变量中)。这个protocol buffers是google的项目,但相关源码和下载已经转到github.com上了,方便了下载。请下载2.5.0版本的二进制程序。https://github.com/google/protobuf/releases。如果下载有困难可以从下面链接下载:http://vdisk.weibo.com/s/BICjq6gk87iUM(windows的二进制程序),http://vdisk.weibo.com/s/BICjq6gk87iV5(源码,linux下编译)。安装完毕后执行protoc --version检查一下。

4. 解压源码某个目录下面(最好直接放在根目录下)。

5. 进入源码根目录下的hadoop-maven-plugins目录,执行mvn install。注意执行mvn命令的过程中,可能下载很多maven所需文件,而且因为网速问题,可以经常出错。这时的解决办法是不断重新执行相关mvn命令(包括下面那个步骤也是如此),直到不是因为下载东西导致出错(此时才需要真正查看错误信息)。成功后会显示BUILD SUCCESS。

6. 进入hadoop-maven-plugins目录的上层目录(即源代码根目录),执行mvn eclipse:eclipse –DskipTests。成功后会显示BUILD SUCCESS。

7. 打开Eclipse,最后专门建一个workspace(即建一个专门目录),执行菜单命令:File->Import,弹出对话框后,在General下面选择Existing Projects into Workspace,然后定位到源代码根目录,导入。导入后会有一些错误,主要是三个:

 

序号 Description Resource Path Location Type
(1) AvroRecord cannot be resolved to a type TestAvroSerialization.java /hadoop-common/src/test/java/org/apache/hadoop/io/serializer/avro line 32 Java Problem
(2) EchoRequestProto cannot be resolved RPCCallBenchmark.java /hadoop-common/src/test/java/org/apache/hadoop/ipc line 397 Java Problem
(3) Project 'hadoop-streaming' is missing required source folder: '<你的源代码根目录>/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-resourcemanager/conf' hadoop-streaming   Build path Build Path Problem

 

 

解决第一个错误:

  • 需要下载avro-tools-x.x.x.jar文件,可以下载当前最新的,地址http://mirrors.hust.edu.cn/apache/avro/stable/java/avro-tools-1.7.7.jar(华中科技大学的镜像)。
  • 进入源码根目录下的“hadoop-common-project\hadoop-common\src\test\avro”执行命令,java -jar <所在目录>/avro-tools-1.7.7.jar compile schema avroRecord.avsc ..\java。其中avsc文件是avro的模式文件,上面命令是要通过模式文件生成相应的.java文件。
  • 右键单击eclipse中的hadoop-common项目,然后refresh。【如果refresh不成功,直接refresh出错源码文件所在的包】

解决第二个错误,也是要生成一些.java文件:

  • 进入源码根目录下的“hadoop-common-project\hadoop-common\src\test\proto”,执行protoc --java_out=../java *.proto命令(protoc就是在上面第三步下载的protoc程序)。
  • 右键单击eclipse中的hadoop-common,然后refresh。【如果refresh不成功,直接refresh出错源码文件所在的包】

解决第三个错误:

  • 在eclipse中,右键单击hadoop-streaming项目,选择“Properties”,左侧栏选择Java Build Path,然后右边选择Source标签页,注意出错的那个路径(先不要删除)。
  • 点击“Link Source按钮”,选择被链接的目录为“<你的源代码根目录>/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-resourcemanager/conf”,链接名可以使用显示的(也可以随便取);
  • inclusion patterns中添加capacity-scheduler.xml,exclusion patters中添加**/*.java,这个信息与出错的那项一样;完毕后将出错的项删除。刷新hadoop-streaming项目。

【好像直接将出错的Source标签页中的项删去就行】

 

至此可以成功导入Hadoop 2.6.0 的源代码到eclipse中,结果如下图所示:

 

附:

发现一个不常见的问题。一份hadoop-2.6.0的源码经过上面过程导入到eclipse后(在windows上),然后再把这份源码上传到Linux服务器(RHEL 64bit)进行编译,结果出现编译通不过的情况,而使用一份未经此处理的代码,编译是可以顺利通过的。也许顺序到颠倒过来才好——先在Linux上编译,然后在下载到windows环境下导入eclipse。或者干脆直接同步具体的源代码文件,而不管什么eclipse的工程文件。

换了JDK版本之后,可能需要重新走一下这个流程。

 

上面过程对于hadoop-2.7.0的源码也适用。

 

分享到:
评论

相关推荐

    hadoop2.6.0源码和eclipse插件

    1. 将`hadoop-eclipse-plugin-2.6.0.jar`添加到Eclipse的插件目录。 2. 在Eclipse中创建新的Map/Reduce项目,并配置Hadoop的运行环境(如HADOOP_HOME)。 3. 编写MapReduce程序,利用Hadoop提供的API处理数据。 4. ...

    hadoop-2.6.0-src.zip

    hadoop-2.6.0-src.zip源码

    hadoop2.6.0的源码jar hadoop-common-2.6.0-sources.jar

    下载hadoop2.6.0的源码辛苦编译成的,网上没找到编译好现成的,费了几个小时用maven编译好的带源码的jar包,中间还得安装编译protoc,可以直接供eclipse使用。

    使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0

    ### 使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0 #### Hadoop 2.x 版本变化及依赖分析 在Hadoop 2.x版本中,相较于早期版本,其架构和依赖库有了明显的变化。在早期版本如1.x中,所有的依赖都集中在`...

    hadoop_win7_32位环境配置

    在配置Hadoop环境时,一个关键步骤是将`hadoop-eclipse-plugin-2.6.0.jar`复制到Eclipse的`plugins`目录。这将允许Eclipse与Hadoop集成,便于开发和调试MapReduce程序。重启Eclipse后,打开`Window--Preference--...

    eclipse的mapreduce插件

    5. **版本兼容性**:这里提供的`hadoop-eclipse-plugin-2.6.0`表明该插件适用于Hadoop 2.6.0版本。不同版本的Hadoop可能需要对应版本的插件,以确保兼容性和稳定性。 6. **环境配置**:为了使用插件,开发者需要在...

    大数据实验报告Hadoop编程实现wordcount单词统计程序附源码.doc

    4. 将下载好 hadoop-eclipse-plugin-2.6.0.jar 直接拖入 home/eclipse/plugins 下 加载成功后重新打开 Eclipse 5. 按 Window—&gt;Show View—&gt;Other 点击 6. 在弹出的窗口输入 map,出现一个黄色大象图标的东西,Open ...

    第四章Spark&Scala的集成开发环境.docx

    在运行程序时,如果出现缺少链接库的错误,可能是因为未包含`spark-assembly-1.4.0-hadoop2.6.0.jar`,将其添加到项目中即可解决问题。 以下是一个简单的Scala源码示例,用于实现WordCount: ```scala import org....

    百度地图开发java源码-SparkLearning_NoData:SparkLearning_NoData,包括代码、pom等

    spark-assembly-1.5.2-hadoop2.6.0.jar(下载地址: ) idea 15.04 说明: SparkLearning项目带有数据,下载会比较慢,如果只想下载部分文件夹,可以实用svn。另外也在20160810弄了一个没有数据的project,方便下载: ...

Global site tag (gtag.js) - Google Analytics