准备:基本的Hadoop环境搭建好,并启动hadoop。
Hadoop集群环境: 10.20.153.125 h5 master
10.20.153.126 h6 slave
10.20.153.127 h7 slave
版本:hadoop-1.0.0;
eclipse-SDK-3.7.2-linux-gtk
系统:VMWare下的Ubuntu
第一步:由于hadoop-1.0.0源码中没有自带eclipse的插件,编译生成org.apache.hadoop.eclipse_1.0.0.jar。把这个插件拷到 eclipse安装目录/plugins/ 下。
第二步:重启eclipse,配置hadoop installation directory。
若插件安装成功的话,打开Window-->Preferens,会发现Hadoop Map/Reduce选项,在这个选项里需要配置Hadoop installation directory。配置完成后退出。
这里需要注意的是:根据你即将要跑的代码是在当前这个hadoop版本的目录下。
第三步:配置Map/Reduce Locations。
在Window-->Show View中打开Map/Reduce Locations。Eclipse窗口下会有如下显示。
在这个View中,右键-->New Hadoop Location。弹出如下对话框:
需要配置Location name,还有Map/Reduce Master和DFS Master。这里面的Host、Port分别为你在mapred-site.xml、core-site.xml中配置的地址及端口。
配置完了,会在eclipse窗口看到
这里我是建了两个DFS Locations,hadoop连接的192.168.71.128就是没有配置好,下面的hadoop-1.0.0就是配置好了。
第四步:新建项目。
File-->New-->Other-->Map/Reduce Project。
随便可以取个工程名。现在以Hadoop自带的WordCount.java为例来说明如何运行这个mapreduce任务。
把hadoop安装目录下的/src/example/org/apache/hadoop/example/WordCount.java复制到刚才新建的项目下面。
第五步:创建输入文件。
1.在终端连上机器10.20.153.125,在这台机器上新建input文件夹:
接着创建两个file文件:
2.将本机上的输入文件上传到hdfs上:
第六步:运行代码。
1. 在新建的项目WordCount,点击WordCount.java,右键-->Run As-->Run Configurations
2.在弹出的Run Configurations对话框中,点Java Application,右键-->New,这时会新建一个application名为WordCount
3.配置运行参数,点Arguments,在Program arguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”,
4.设置完了就点下这个Run,运行程序,过段时间将运行完成,等运行结束后,可以在终端中用命令:hadoop fs –ls /user/hadoop/output1
结果如下:
相关推荐
本文详细介绍了如何配置MapReduce开发环境的过程,包括搭建基础环境、配置网络、安装和配置MyEclipse插件、编写和运行MapReduce程序等内容。遵循本文步骤,即使是初学者也能轻松地配置出一个完整的MapReduce开发环境...
最后,通过Eclipse的"Run As"选项运行MapReduce作业,等待程序完成并查看输出结果。 总的来说,这个项目展示了如何利用Hadoop1的MapReduce进行大数据分析,通过Eclipse提供的便利工具进行开发和测试,这对于理解...
接着,安装Hadoop-Eclipse-Plugin插件,该插件允许开发者在Eclipse中直接编写、调试和运行MapReduce程序。配置插件时,要确保指向正确的Hadoop安装路径,以便Eclipse能识别Hadoop环境。通过Eclipse操作HDFS文件,...
在Linux环境下搭建Hadoop并配置Eclipse开发环境是大数据处理工作中的重要步骤。Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据。而Eclipse是一款强大的集成开发环境(IDE),通过特定的插件可以...
通过以上步骤,你将在Eclipse中成功搭建了Hadoop 2.7.3的开发环境,并运行了经典的WordCount示例。这只是一个基础,深入学习Hadoop,你还需要了解分布式文件系统HDFS、数据处理模型MapReduce以及YARN资源管理框架等...
如果使用Python语言进行开发,由于Python是解释型语言,可以直接在Linux Shell下运行Python编写的MapReduce程序,无需进行复杂的Eclipse配置。使用vi/vim等文本编辑器即可编写并运行Python程序。 综上所述,配置...
在Windows环境下搭建Eclipse的Hadoop开发环境是一个重要的步骤,对于大数据开发人员来说,这是进行Spark和Hadoop项目开发的基础。以下将详细讲解这个过程,以及如何利用ECLIPSE大数据开发插件来优化配置。 首先,...
总的来说,这些文档和资料将帮助你搭建一个完整的Hadoop开发环境,从安装Cygwin和Eclipse,到配置Hadoop环境,最后通过运行WordCount实例来验证你的环境是否正确配置。这不仅对于初学者来说是一次很好的学习体验,也...
6. **运行测试**:在Eclipse中可以直接运行MapReduce程序,Eclipse会自动打包并提交到Hadoop集群上执行。可以通过标准输出或者日志查看结果。 7. **调试与优化**:利用Eclipse的调试功能,设置断点,查看变量状态,...
4. 使用文档指导,了解如何在Eclipse中配置HDFS项目和运行MapReduce作业 5. Java开发环境的构建,包括JDBC驱动的添加 通过以上步骤,你将能够有效地在Windows 7上使用Eclipse 4.7进行Hadoop 2.9.0的开发工作。
搭建伪集群模式的Hadoop可以用于开发与测试,在这个模式下,所有节点实际上都运行在同一个物理机上,模拟集群的运行环境。同时,通过在开发IDE如Eclipse中配置Hadoop插件,可以更便捷地进行开发和调试Hadoop程序。...
总结来说,通过Cygwin和Eclipse搭建Hadoop的单机开发环境,可以方便地在Windows环境下进行Hadoop的开发和测试。理解每个步骤和组件的作用,以及它们之间的相互配合,对于成功建立和优化这个环境至关重要。同时,定期...
根据需求编写MapReduce代码,这通常包括Mapper类、Reducer类以及Driver类。Mapper处理输入数据,Reducer进行聚合或计算。 8. **编译和打包**: 使用Eclipse的构建工具将Java源代码编译成.class文件,并打包成JAR...
在本教程中,我们将深入探讨如何使用Cygwin和Eclipse搭建Hadoop的单机开发环境,以便在Windows操作系统上进行高效的数据处理和分析。Cygwin是一个提供Linux-like环境的开源工具集,使得Windows用户可以运行原本为...
为了测试和调试,可以在Eclipse中运行MapReduce程序。首先,创建一个配置文件(如job.xml),定义输入和输出路径,以及任何其他特定的作业配置。然后,通过Eclipse的“Run As”菜单选择“Hadoop Job”,选择配置文件...
在成功上传文件之后,下一步是运行MapReduce作业。文中没有详细说明如何运行作业,但在Hadoop MapReduce中,一般通过Hadoop命令行工具来提交作业,命令通常类似于“hadoop jar wc3.jar”。 整个过程大致如下: 1. ...
Eclipse作为开发工具,可以配合Maven或Gradle构建MapReduce项目,将编写的Java代码打包成JAR文件,然后通过Hadoop的`hadoop jar`命令提交到集群执行。 七、优化与实践 在实际应用中,为了提高MapReduce性能,需要...
总结来说,成功搭建Eclipse 3.3 + Hadoop 0.20.0开发环境的关键在于选择兼容的软件版本,正确配置Hadoop的相关参数,并安装相应的Eclipse插件。通过这种方式,开发者可以充分利用Eclipse的强大功能,高效地进行...
为了运行MapReduce任务,我们需要启动Hadoop的守护进程,包括NameNode、DataNode和ResourceManager。这可以通过执行start-dfs.sh和start-yarn.sh脚本来完成。然后,通过Eclipse的Hadoop插件或者命令行提交WordCount...
在安装此插件后,开发人员可以直接在Eclipse中对Hadoop集群进行操作,如创建、上传和运行MapReduce作业,无需离开IDE。 插件的核心功能包括: 1. **项目创建**:允许开发者在Eclipse中创建Hadoop MapReduce项目,...