· Step1. 在eclipse中,新建一个Java 项目,填入Project name,在Contents中,选择 “Create project from existing source”,在 Browse… 中选择hadoop的目录,点击“Next > ”。
· Step2. 在Java Build Path面板,建议把Source folders全部移除,在Default output folder中,重新输入output目录,因为hadoop的 bin 目录是存放linux脚本的,这里可以指定一个hadoop-0.xx.xx/output目录。点击“OK”。
· Step3. 在Package Explorer中,右击项目名,选择“build path”,选择“configuration build path”,在source folder中,选择以下目录作为source folder:
Hadoop-0.xx.xx/conf
Hadoop-0.xx.xx/src/core
Hadoop-0.xx.xx/src/hdfs
Hadoop-0.xx.xx/src/mapred
· Step4. 此时eclipse会编译source folder 的源码,目前一般高版本的hadoop,只差了一个ant.jar,这个包就是ant 的主要jar包。可以到 http://ant.apache.org/bindownload.cgi 下载到。并加到classpath 的 Libraries中。
· Step5. 如果一切顺利,接下来配置 conf/ 下的 core-site.xml hdfs-site.xml mapred-site.xml 三个配置文件,在core-site.xml中加入(端口可以自己定义):
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
另外,在本地配置一个目录存放namenode 的 metadata ,另一个目录存放 datanode的 block。 用于配置hdfs-site.xml:
<property>
<name>dfs.name.dir</name>
<value>E:/namespace/dfs/metadata</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>E:/sde/hadoop/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
接下来,在mapred-site.xml中,加入:
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
注:有关Tasktracker,和Datanode 的端口无需配置,这两个节点相对于Jobtracker和 namennode是客户端,RPC的端口是自动分配的。也就是我们说的控制端口,另外传输通信端口,请阅读 hdfs-default.xml 和 mapred-default.xml配置文件。
· Step6. 启动hadoop的步骤是先启动HDFS,然后再启动mapred,原则是先启动主节点,再启动子节点。
启动namenode,namenode的主main入口在org.apache.hadoop.hdfs.server.namenode包下,类名为NameNode.java ,找到main函数,在第一行添加:
argv = new String[]{"-format"};
代码,然后运行该类,正常情况下,会输出metadata目录的格式化信息。接着,注释掉刚才添加的代码,重新运行该类。
· Step7. 启动datanode,datanode的主main入口在 org.apache.hadoop.hdfs.server.datanode包下,类名为 DataNode.java,找到main函数,该类,直接运行。
· Step8. 启动 JobTracker,该类位于org.apache.hadoop.mapred.JobTracker,在启动之前,找到main方法,在main方法的第一行加入:
System.setProperty(“hadoop.log.dir”, “$HADOOP_DIR/logs”);
$HADOOP_DIR为您本机的hadoop目录。由于hadoop默认是shell脚本启动的,因
此Hadoop.log.dir 是在shell 中配置的。
· Step9. 启动 TaskTracker,该类位于org.apache.hadoop.mapred.TaskTracker,直接运行。
注:我们已经成功启动了四个进程,如果您需要,可以启动SecondaryNameNode,该类位于org.apache.hadoop.hdfs.server.namenode包,但考虑到内存占用情况,一般该节点无需启动。
· Step10. Hadoop的 命令行调用的类,在core包中的 org.apache.hadoop.fs中可以找到,类名为FsShell.java,举个简单的例子,如果需要查看Hdfs的根目录文件,那么在FsShell的main函数中,添加 args = new String[]{“-ls”, “/”};代码,然后运行该类即可。
在mapreduce方面,可以使用org.apache.hadoop.mapred.JobClient提交任务。
相关推荐
在Windows 7操作系统中,使用Eclipse开发Hadoop应用程序的过程涉及多个步骤,涵盖了从环境配置到实际编程的各个层面。以下是对这个主题的详细讲解: 首先,我们需要了解Hadoop和Eclipse的基础。Hadoop是一个开源的...
标题 "hadoop2.7.1-win32.zip" 指示了这是一个适用于Windows 32...此外,对于开发人员来说,了解如何使用`winutils.exe`和相关库文件进行Hadoop编程也非常重要,因为这有助于他们在Windows环境中开发和测试Hadoop应用。
描述中提到,这是一个“完整包”,意味着它包括了Hadoop运行所需的所有基本组成部分,用户下载后应能直接在Win10环境下启动和使用。这对于初学者或那些不想经历编译过程的人来说是一个方便的资源。 标签 "hadoop" ...
这里的“win32”标签意味着这个版本的Hadoop已经适应了Windows的32位架构,使得在Windows环境下开发和测试Hadoop应用成为可能。 描述中提到的“试用windows 32位系统,使用hadoop2.60源码编译”,这意味着这个版本...
HDFS的另一改进是透明加密,可以在不改变应用程序的情况下,对存储在HDFS的数据进行加密,保障数据的安全性。 在使用解压后的Hadoop 2.6.4时,用户需要确保已经正确配置了Hadoop的环境变量,包括HADOOP_HOME、...
总之,这个“win7下编译过的hadoop2.7.2”文件对于在Windows 7环境下快速部署和使用Hadoop非常有帮助,它省去了编译的复杂性,让开发者和数据分析师能够专注于Hadoop的应用和数据分析,而不是底层的系统配置。...
Hadoop是Apache软件基金会开发的一个开源分布式...综上所述,这个压缩包提供了在Windows 10 64位系统上运行和开发Hadoop应用所需的基本组件,对于在该平台上进行大数据处理的初学者或开发者来说,这是一个宝贵的资源。
在Windows 7环境下,配置Eclipse来开发Hadoop项目,我们需要安装特定的插件并进行一系列设置。本文将详细介绍如何在Eclipse中配置Hadoop 2.6的插件,以便于进行分布式计算开发。 首先,我们要理解Hadoop是Apache...
这个库文件使得Windows应用程序能够与Hadoop生态系统进行交互,例如执行MapReduce任务、管理HDFS文件系统等。在Windows上运行Hadoop时,必须确保这个dll文件位于系统的PATH环境变量所指向的目录下,以便系统能够找到...
在Windows 7操作系统中搭建Hadoop开发环境,你需要遵循一系列步骤,这通常涉及到安装和配置Hadoop,以及集成Eclipse IDE。以下是一个详尽的指南,涵盖...一旦完成,你就可以在Eclipse中愉快地开发和测试Hadoop应用了。
在实践中,你可能需要下载和配置这些文件来建立一个本地Hadoop开发环境,以便于测试、学习或者开发Spark应用。同时,理解这些文件的作用以及如何在Windows环境下正确配置它们,对于任何想要在Windows上从事Hadoop和...
9. **开发与调试**: 开发Hadoop应用时,IDE如IntelliJ IDEA或Eclipse可以提供插件支持,便于编写、调试和部署MapReduce程序。此外,使用Hadoop的命令行工具或Web界面来监控HDFS和MapReduce作业的状态。 10. **社区...
本文将详细介绍如何在 Eclipse 平台上配置 Hadoop 开发环境,以帮助开发者更高效地进行 Hadoop 应用程序的开发。 #### 二、配置步骤详解 ##### 1. 安装基础环境 在开始配置 Eclipse 上的 Hadoop 开发环境之前,...
Hadoop是一个开源框架,主要用于存储和处理大规模数据集,而Java是编写Hadoop应用程序的主要编程语言。在这个场景中,我们讨论的是Hadoop 2.9.0版本,这是一个稳定且广泛使用的版本,支持Windows 32位和64位系统。 ...
在标题和描述中提到的"IDE调试Hadoop程序",指的是在集成开发环境中(如IntelliJ IDEA或Eclipse)进行Hadoop应用的本地开发和调试。这对于快速迭代和测试代码非常有帮助,而不必每次修改后都部署到远程集群上。通过...
至于压缩包子文件“9.pptx”,可能是关于Hadoop、Spark在Windows环境下的使用教程或者介绍资料,可能包含了如何配置Hadoop环境、如何使用winutils.exe以及如何在Windows 7上开发和调试Spark应用程序等内容。...
总之,"Hadoop 2.7.2 (Window版本)"的资源包是Windows环境下进行大数据开发的基础,涵盖了从安装配置到实际应用的全过程。通过深入学习和实践,开发者能够掌握分布式计算的核心技术,为解决复杂的大数据问题打下坚实...
总之,"hadoop2.6_Win_x64-master"压缩包提供了一种简便的方式来解决在Windows上使用Eclipse进行Hadoop开发时遇到的挑战,使得开发者可以更专注于编写和测试MapReduce或Spark程序,而不用过多地关注底层的环境配置...
Hadoop是一款开源的大数据处理框架,最初由Apache软件基金会开发,旨在提高分布式系统上大规模数据集的处理效率。...这对于学习和理解Hadoop的工作原理以及开发基于Hadoop的数据处理应用非常有帮助。