我的开发环境:
操作系统centos5.5 一个namenode 两个datanode
Hadoop版本:hadoop-0.20.203.0
Eclipse版本:eclipse-java-helios-SR2-linux-gtk.tar.gz(使用3.7的版本总是崩溃,让人郁闷)
第一步:先启动hadoop守护进程
具体参看:http://www.cnblogs.com/flyoung2008/archive/2011/11/29/2268302.html
第二步:在eclipse上安装hadoop插件
1.复制 hadoop安装目录/contrib/eclipse-plugin/hadoop-0.20.203.0-eclipse-plugin.jar 到 eclipse安装目录/plugins/ 下。
2.重启eclipse,配置hadoop installation directory。
如果安装插件成功,打开Window-->Preferens,你会发现Hadoop Map/Reduce选项,在这个选项里你需要配置Hadoop installation directory。配置完成后退出。
3.配置Map/Reduce Locations。
在Window-->Show View中打开Map/Reduce Locations。
在Map/Reduce
Locations中新建一个Hadoop Location。在这个View中,右键-->New Hadoop
Location。在弹出的对话框中你需要配置Location name,如Hadoop,还有Map/Reduce Master和DFS
Master。这里面的Host、Port分别为你在mapred-site.xml、core-site.xml中配置的地址及端口。如:
Map/Reduce Master
DFS Master
配置完后退出。点击DFS Locations-->Hadoop如果能显示文件夹(2)说明配置正确,如果显示"拒绝连接",请检查你的配置。
第三步:新建项目。
File-->New-->Other-->Map/Reduce Project
项目名可以随便取,如WordCount。
复制 hadoop安装目录/src/example/org/apache/hadoop/example/WordCount.java到刚才新建的项目下面。
第四步:上传模拟数据文件夹。
为了运行程序,我们需要一个输入的文件夹,和输出的文件夹。
在本地新建word.txt
java c++ python c
java c++ javascript
helloworld hadoop
mapreduce java hadoop hbase
通过hadoop的命令在HDFS上创建/tmp/workcount目录,命令如下:bin/hadoop fs -mkdir /tmp/wordcount
通过copyFromLocal命令把本地的word.txt复制到HDFS上,命令如下:bin/hadoop fs -copyFromLocal /home/grid/word.txt /tmp/wordcount/word.txt
第五步:运行项目
1.在新建的项目Hadoop,点击WordCount.java,右键-->Run As-->Run Configurations
2.在弹出的Run Configurations对话框中,点Java Application,右键-->New,这时会新建一个application名为WordCount
3.配置运行参数,点Arguments,在Program arguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”,如:
hdfs://
centos1:9000/tmp/wordcount/word.txt hdfs:
//
centos1:9000/tmp/wordcount/out
4、如果运行时报java.lang.OutOfMemoryError: Java heap space 配置VM arguments(在Program arguments下)
-Xms512m -Xmx1024m -XX:MaxPermSize=256m
5.点击Run,运行程序。
点击Run,运行程序,过段时间将运行完成,等运行结束后,查看运行结果,使用命令:
bin/hadoop fs -ls
/tmp/wordcount/out查看例子的输出结果,发现有两个文件夹和一个文件,使用命令查看part-r-00000文件,
bin/hadoop fs -cat /tmp/wordcount/out/part-r-00000可以查看运行结果。
c 1
c++ 2
hadoop 2
hbase 1
helloworld 1
java 3
javascript 1
mapreduce 1
python 1
分享到:
相关推荐
以上就是基于Eclipse的Hadoop应用开发环境配置的全过程。通过这个环境,开发者可以更专注于Hadoop应用的编写和优化,而无需关心底层的集群管理。随着Hadoop生态系统的发展,Eclipse也不断集成更多如Spark、Flink等大...
标题中的“基于Eclipse的Hadoop应用开发环境配置”指的是在Eclipse集成开发环境中设置一个适合开发Hadoop应用程序的环境。Hadoop是一个开源框架,主要用于处理和存储大量数据,而Eclipse是一个流行的Java IDE,通过...
标题提及的"基于Eclipse的Hadoop应用开发环境配置"是指在Eclipse集成开发环境中设置一个用于开发Hadoop应用程序的环境。Hadoop是Apache软件基金会的一个开源分布式计算框架,它允许处理和存储大规模数据集。在...
### 基于Eclipse 的 Hadoop 应用开发环境配置详解 #### 一、引言 随着大数据技术的发展,Hadoop 成为了处理大规模数据集的重要工具之一。而在实际开发过程中,选择合适的集成开发环境(IDE)对于提高开发效率至关...
### 基于Eclipse的Hadoop应用开发 #### 背景介绍 随着大数据时代的到来,处理海量数据的需求越来越迫切。Hadoop作为一款能够高效处理大规模数据集的开源软件框架,被广泛应用于数据处理领域。为了更好地进行Hadoop...
在本文中,我们将详细介绍如何在Eclipse环境中搭建Hadoop 2.7.3的开发环境。这个过程将涉及几个关键步骤,包括安装Eclipse插件、配置Hadoop环境以及运行一个简单的WordCount示例。 首先,我们需要下载并安装Eclipse...
《基于Eclipse的Hadoop开发:hadoop-eclipse-plugin-2.0.0插件详解》 在大数据处理领域,Hadoop作为开源的分布式计算框架,扮演着至关重要的角色。而Eclipse作为Java开发的主流IDE,其强大的功能和丰富的插件支持,...
为了方便开发者在Eclipse或MyEclipse这样的集成开发环境中高效地进行Hadoop应用开发,Hadoop-Eclipse-Plugin应运而生。这个插件允许开发者直接在IDE中对Hadoop集群进行操作,如创建、编辑和运行MapReduce任务,极大...
【标题解析】 "Hadoop搭建与eclipse开发环境...通过搭建Hadoop环境,开发者能够实践和理解分布式计算原理,而在Eclipse中配置Hadoop开发环境则提供了高效便捷的编程和调试工具,便于进行MapReduce应用的开发和迭代。
在Windows环境下,开发基于Hadoop的Java应用程序通常需要一个集成开发环境(IDE),Eclipse是其中常用的一个。本文将详细讲解如何使用Eclipse与Hadoop 2.2.0插件进行连接,以便于在Windows操作系统上进行Hadoop相关...
hadoop-eclipse-plugin-2.6.4.jar。 基于Eclipse的Hadoop应用开发环境配置工具包 jar包
Spark 开发环境搭建是指在 Eclipse 集成开发环境中设置和配置 Spark 开发环境的过程。Spark 是一个基于 Hadoop 的大数据处理框架,它提供了高效的数据处理能力。为了在 Eclipse 中开发 Spark 应用程序,需要搭建...
在Windows操作系统中,Eclipse是一款广泛使用的Java集成开发环境(IDE),它对于开发分布式计算框架如Hadoop、Spark以及数据仓库工具Hive来说,是非常有用的。本教程将深入讲解如何在Eclipse中集成这些组件,以创建...
本文将详细介绍如何在Windows环境下安装配置Hadoop 2.5.2,并在Eclipse中搭建开发环境。 #### 二、准备工作 在开始安装之前,确保已经完成以下准备工作: 1. **Java环境**:Hadoop基于Java编写,因此需要先安装...
而Hadoop-2.5.0-eclipse插件则是为Eclipse集成开发环境(IDE)设计的一个扩展,帮助开发者在Eclipse中直接编写、调试和运行Hadoop MapReduce程序。 该插件的安装非常简单,只需将`hadoop-eclipse-plugin-2.5.0.jar`...
总结来说,Hadoop Eclipse Plugin 1.1.2是Hadoop开发者的得力助手,通过它,开发者可以在熟悉的Eclipse环境中高效地进行Hadoop应用开发,提升工作效率,减少出错几率。无论是初学者还是经验丰富的开发者,都能从中...
总结来说,Hadoop Eclipse Plugin 2.6.0作为Hadoop与Eclipse之间的桥梁,显著提高了Hadoop应用的开发效率,使得开发者能够更专注于业务逻辑的实现,而非环境配置和运维工作。对于需要处理大量数据的企业或个人开发者...
通过这个插件,开发者可以更高效地进行Hadoop应用的开发和测试,提高开发效率。 总的来说,这个压缩包为Hadoop的开发和学习提供了必要的资源,无论是深入理解Hadoop的内部工作机制,还是快速构建和调试MapReduce...