`
chaijuntao
  • 浏览: 24765 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

将Hadoop 2.6.0源码导入到Eclipse

 
阅读更多

我的环境:

CentOS 64bit
NTFS格式文件系统
Administrator用户
Eclipse(Luna Service Release 2 (4.4.2))
JDK 1.7(Oracle官网下载)最好不要用1.8,因为导入源码后还想编译的话会出现问题。
hadoop-src-2.6.0.tar.gz(在官网下载的源码:http://www.apache.org/dyn/closer.cgi/hadoop/common/)

 

 

1. 安装Apache Maven。

  • 一般是直接到官网下载最新的binaries;
  • 解压到你所希望的目录,比如C:\Program Files\Apache Software Foundation\;
  • 将命令所在路径加入到PATH环境变量中。解压后得到一个目录,我下载的是3.3.1版,得到的目录是apache-maven-3.3.1;maven的可执行命令mvn的目录是C:\Program Files\Apache Software Foundation\apache-maven-3.3.1\bin,需要确保这个路径加入到PATH环境变量中。
  • 验证安装。安装好后,打开一个cmd窗口,执行mvn -version,会输出一些信息(在磁盘根目录下执行这个命令可能会输出java.exe的用法信息,出现这个现象的原因是,mvn命令中启动java.exe时传递的一个参数是路径但最后一个字符不能是"\",而根目录通过%CD%变量给出的字符串的最后一个字符恰恰是"\",所以会出现问题。换到一个非磁盘根目录下执行命令,会正常显示,一般包括Maven的版本和HOME路径,Java的版本和HOME路径,默认Locale,OS的信息。不能正常显示也不会影响后面的过程,只要表明能够找到mvn命令即可)。
  • 设置MAVEN_OPTS。能够为了避免编译时java虚拟机的内存不够,需要设置一个环境变量MAVEN_OPTS,值为-Xms256m -Xmx512m

2. (想用官方源的可以跳过这步)可以修改maven的源配置,可以修改成国内的源,下载速度可能快些。请参考http://www.cnblogs.com/errorx/p/3779578.html这篇博文。对于我的maven安装来讲,是要修改C:\Program Files\Apache Software Foundation\apache-maven-3.3.1\conf\目录下的settings.xml文件。

 

3. 下载protocol buffers的编译器程序,即protoc.exe,放到通过PATH环境变量可以找到的目录(或者将protoc.exe所在目录加入到PATH环境变量中)。这个protocol buffers是google的项目,但相关源码和下载已经转到github.com上了,方便了下载。请下载2.5.0版本的二进制程序。https://github.com/google/protobuf/releases。如果下载有困难可以从下面链接下载:http://vdisk.weibo.com/s/BICjq6gk87iUM(windows的二进制程序),http://vdisk.weibo.com/s/BICjq6gk87iV5(源码,linux下编译)。安装完毕后执行protoc --version检查一下。

4. 解压源码某个目录下面(最好直接放在根目录下)。

5. 进入源码根目录下的hadoop-maven-plugins目录,执行mvn install。注意执行mvn命令的过程中,可能下载很多maven所需文件,而且因为网速问题,可以经常出错。这时的解决办法是不断重新执行相关mvn命令(包括下面那个步骤也是如此),直到不是因为下载东西导致出错(此时才需要真正查看错误信息)。成功后会显示BUILD SUCCESS。

6. 进入hadoop-maven-plugins目录的上层目录(即源代码根目录),执行mvn eclipse:eclipse –DskipTests。成功后会显示BUILD SUCCESS。

7. 打开Eclipse,最后专门建一个workspace(即建一个专门目录),执行菜单命令:File->Import,弹出对话框后,在General下面选择Existing Projects into Workspace,然后定位到源代码根目录,导入。导入后会有一些错误,主要是三个:

 

序号 Description Resource Path Location Type
(1) AvroRecord cannot be resolved to a type TestAvroSerialization.java /hadoop-common/src/test/java/org/apache/hadoop/io/serializer/avro line 32 Java Problem
(2) EchoRequestProto cannot be resolved RPCCallBenchmark.java /hadoop-common/src/test/java/org/apache/hadoop/ipc line 397 Java Problem
(3) Project 'hadoop-streaming' is missing required source folder: '<你的源代码根目录>/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-resourcemanager/conf' hadoop-streaming   Build path Build Path Problem

 

 

解决第一个错误:

  • 需要下载avro-tools-x.x.x.jar文件,可以下载当前最新的,地址http://mirrors.hust.edu.cn/apache/avro/stable/java/avro-tools-1.7.7.jar(华中科技大学的镜像)。
  • 进入源码根目录下的“hadoop-common-project\hadoop-common\src\test\avro”执行命令,java -jar <所在目录>/avro-tools-1.7.7.jar compile schema avroRecord.avsc ..\java。其中avsc文件是avro的模式文件,上面命令是要通过模式文件生成相应的.java文件。
  • 右键单击eclipse中的hadoop-common项目,然后refresh。【如果refresh不成功,直接refresh出错源码文件所在的包】

解决第二个错误,也是要生成一些.java文件:

  • 进入源码根目录下的“hadoop-common-project\hadoop-common\src\test\proto”,执行protoc --java_out=../java *.proto命令(protoc就是在上面第三步下载的protoc程序)。
  • 右键单击eclipse中的hadoop-common,然后refresh。【如果refresh不成功,直接refresh出错源码文件所在的包】

解决第三个错误:

  • 在eclipse中,右键单击hadoop-streaming项目,选择“Properties”,左侧栏选择Java Build Path,然后右边选择Source标签页,注意出错的那个路径(先不要删除)。
  • 点击“Link Source按钮”,选择被链接的目录为“<你的源代码根目录>/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-resourcemanager/conf”,链接名可以使用显示的(也可以随便取);
  • inclusion patterns中添加capacity-scheduler.xml,exclusion patters中添加**/*.java,这个信息与出错的那项一样;完毕后将出错的项删除。刷新hadoop-streaming项目。

【好像直接将出错的Source标签页中的项删去就行】

 

至此可以成功导入Hadoop 2.6.0 的源代码到eclipse中,结果如下图所示:

 

附:

发现一个不常见的问题。一份hadoop-2.6.0的源码经过上面过程导入到eclipse后(在windows上),然后再把这份源码上传到Linux服务器(RHEL 64bit)进行编译,结果出现编译通不过的情况,而使用一份未经此处理的代码,编译是可以顺利通过的。也许顺序到颠倒过来才好——先在Linux上编译,然后在下载到windows环境下导入eclipse。或者干脆直接同步具体的源代码文件,而不管什么eclipse的工程文件。

换了JDK版本之后,可能需要重新走一下这个流程。

 

上面过程对于hadoop-2.7.0的源码也适用。

 

分享到:
评论

相关推荐

    hadoop2.6.0源码和eclipse插件

    1. 将`hadoop-eclipse-plugin-2.6.0.jar`添加到Eclipse的插件目录。 2. 在Eclipse中创建新的Map/Reduce项目,并配置Hadoop的运行环境(如HADOOP_HOME)。 3. 编写MapReduce程序,利用Hadoop提供的API处理数据。 4. ...

    hadoop 2.6.0 eclipse 插件

    hadoop 2.6.0 eclipse 插件 测试可用

    cent os 6.5 编译hadoop2.6.0源码

    在本文中,我们将深入探讨如何在Cent OS 6.5操作系统上编译Hadoop 2.6.0的源码,以及如何利用编译生成的lib包目录替换官方下载资源中的对应目录。这个过程对于那些希望自定义Hadoop配置、优化性能或解决特定环境下的...

    hadoop-2.6.0-src.zip

    hadoop-2.6.0-src.zip源码

    hadoop2.6.0的源码jar hadoop-common-2.6.0-sources.jar

    下载hadoop2.6.0的源码辛苦编译成的,网上没找到编译好现成的,费了几个小时用maven编译好的带源码的jar包,中间还得安装编译protoc,可以直接供eclipse使用。

    hadoop2.6.0 eclipse插件

    hadoop2.6.0版本的eclipse插件,直接把jar包复制到eclipse目录的plugins文件夹下即可。

    hadoop2.6.0ecipse插件

    hadoop2.6.0 jdk1.7 ant 1.9.4 eclipse最新版 使用说明:放置到eclipse/plugins下 重启eclipse即可

    hadoop 2.6.0 安装包

    - **解压安装包**:将`hadoop-2.6.0-cdh5.4.5`解压缩到指定目录。 - **配置环境变量**:设置`HADOOP_HOME`,并在`PATH`中添加Hadoop的bin目录。 - **配置Hadoop配置文件**:如`core-site.xml`、`hdfs-site.xml`、...

    hadoop 2.6.0 eclipse 需求包 依赖 jar

    首先,将它们添加到项目的类路径,然后可以创建一个Hadoop配置,指定Hadoop的配置文件路径,如`core-site.xml`和`hdfs-site.xml`,以便在本地或者远程集群上运行作业。通过这样的配置,开发者可以在Eclipse环境中...

    spark-assembly-1.5.2-hadoop2.6.0.jar

    《Spark编程核心组件:spark-assembly-1.5.2-hadoop2.6.0.jar详解》 在大数据处理领域,Spark以其高效、易用和灵活性脱颖而出,成为了许多开发者的首选框架。Spark-assembly-1.5.2-hadoop2.6.0.jar是Spark中的一个...

    hadoop-eclipse-plugin-2.6.0.jar.zip_2.6.0_hadoop_hadoop plugin

    1. **安装插件**:首先,将`hadoop-eclipse-plugin-2.6.0.jar`复制到Eclipse的plugins目录下,然后重启Eclipse,插件即被自动安装。 2. **配置Hadoop环境**:在Eclipse中,需要配置Hadoop的运行环境,包括Hadoop的...

    hadoop-2.6.0

    此外,Hadoop 2.6.0还包含许多其他组件,如HBase(一个分布式数据库)、Hive(一个数据仓库工具)、Pig(一种高级数据处理语言)和Sqoop(用于在Hadoop和传统数据库间导入导出数据的工具)。这些组件共同构建了一个...

    hadoop2.6.0 插件(针对eclipse不同版本)

    之前做hadoop环境搭建的时候,编译插件一直有问题,网上找的也不能用,于是自己就花了很久的时间解决这个问题,终于成功了,心累。这里我把编译好的插件放给你们,造福后人,插件有三个分别针对mars neon oxygen 三...

    hadoop-2.6.0.tar.gz&hadoop-2.6.0-cdh5.16.2.tar.gz

    Hadoop-2.6.0.tar.gz是Apache官方发布的Hadoop 2.6.0源码包,包含了Hadoop的核心组件,如HDFS(Hadoop Distributed File System)、YARN以及MapReduce。用户可以通过解压此文件,编译安装来搭建自己的Hadoop环境,...

    spark-assembly-1.5.2-hadoop2.6.0jar包

    使用Spark-assembly-1.5.2-hadoop2.6.0.jar时,开发者需要将其添加到项目的类路径中,以确保所有Spark相关的依赖都被正确引入。在Scala项目中,这通常通过构建工具如sbt或Maven来完成。例如,在sbt的build.sbt文件中...

    hadoop2.6.0插件+64位winutils+hadoop.dll

    Hadoop2.6.0是这个框架的一个重要版本,它包含了多项优化和改进,以提高系统的稳定性和性能。在这个压缩包中,我们关注的是与Windows环境相关的两个关键组件:Winutils和hadoop.dll。 首先,让我们详细了解一下...

    hadoop2.6.0+spark1.0所需资源

    hadoop-2.6.0.tar.gz + ideaIC-13.1.6.tar.gz + jdk-7u75-linux-i586.tar.gz + scala-2.10.4.tgz + spark-1.0.0-bin-hadoop2.tgz

    spark-assembly-1.6.1-hadoop2.6.0.jar

    spark-assembly-1.6.1-hadoop2.6.0.jar,欢迎下载,,,,,,,,,,,,,,,,,,,,

    hadoop2.6.0-cdh5.14.0 源码

    hadoop-2.6.0-cdh5.14.0 源码 。

    eclipse支持hadoop2.6.0开发插件

    eclipse支持hadoop2.6.0开发插件,release版本 github一般会被屏蔽,这里提供一份 源地址: https://github.com/winghc/hadoop2x-eclipse-plugin

Global site tag (gtag.js) - Google Analytics