转载请注明:http://hanlaiming.freetzi.com/?p=117
前两天搭建好了hadoop环境,昨天完成了hadoop的eclipse插件编译,所以今天测试一下一些简单的mapreduce程序如何在eclipse上运行。
首先说明我的实验环境:
ubuntu版本12.04,hadoop版本1.2.1,java版本1.7.0_45,eclipse版本4.2Juno
下面是我的总结:
1,准备好测试文件,提前上传到hdfs目录所在的文件夹下,比如我的是input。在eclipse中新建项目,选择Mapreduce Project,命名为WordCount,然后导入hadoop中自带的WordCount.java,找不到可以搜索,然后右击WordCount.java,选择Run as——Run Configurations,在里面的java application处右键选择New,然后在Arguments处添加你的hadoop目录所在的输入和输出文件夹参数,比如,我的是:
hdfs://minglaihan:9000/user/hadoop/input hdfs://minglaihan:9000/user/hadoop/output
这个是表示,你的第一个参数是输入目录,第二个参数是输出目录,然后点击Run,就Ok了,Hdfs的系统要不断手动刷新,这一点要注意。
2,简单的wordcount仅仅是让我们知道eclipse下怎样运行,接下来开始学习数据去重DataDeduction,主要运行步骤和前面类似,这里主要分析一下我在网上找到的代码为什么不能顺利在我的hadoop上运行。
网上大部分提供的代码都是一个版本,参考http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html,但是总提示我ClassNotFound
Map的错误,我后来看了一下最近买的一本书,修改了一下代码,最后成功运行。主要的改动有去掉这两行即可,具体原因可能是在参数里设定了就不用在函数中说明吧,反而会让系统判定缺失一些数据。
conf.set("mapred.job.tracker","192.168.1.2:9001");String[] ioArgs=newString[]{"dedup_in","dedup_out"};
3,然后是数据排序,这个测试研究了挺长时间,但是和最终结果还是有点偏差,所以等研究明白再做更新,ok~~
分享到:
相关推荐
6. **测试和运行**:编写MapReduce程序后,可以使用Eclipse的“运行”菜单选择“运行配置”来创建一个MapReduce配置。配置包括指定主类、输入输出路径、集群地址等参数。然后点击“运行”执行程序。 7. **提交作业*...
创建新的Java项目,编写MapReduce程序,例如经典的WordCount示例。Map阶段负责切分输入数据并生成键值对,Reduce阶段则对相同键的键值对进行聚合。 ### 查看HDFS文件系统数据的三种方法 1. 使用Hadoop提供的命令行...
在Windows环境下编写MapReduce程序可能看似复杂,但借助一些工具和理解Hadoop MapReduce的基本原理,这个过程可以变得相对简单。以下是对标题“Windows下编写MapReduce程序”及相关标签“源码”和“工具”的详细解释...
在Windows环境下,使用Eclipse进行远程开发MapReduce程序是一个复杂的过程,涉及到多个步骤,包括环境配置、插件安装以及依赖管理。以下是对整个过程的详细解释: 首先,我们需要准备必要的工具和库。`hadoop-...
总结来说,在Eclipse中运行Hadoop MapReduce程序涉及创建项目,编写主类和Mapper、Reducer类,以及正确配置输入输出路径。通过这个过程,我们可以理解MapReduce的基本工作流程,并能实际操作执行分布式计算任务。...
标题提到的"eclipse運行mapreduce的插件"正是为了解决这个问题,它使得开发者可以在Eclipse内直接编写、调试和运行MapReduce程序,极大地提高了开发效率。 MapReduce是Google提出的一种分布式计算模型,用于处理和...
在运行MapReduce程序之前,我们需要创建输入文件,并将其放置在相应的目录下。例如: ```bash $ mkdir input $ echo "echo of the rainbow" > ./input/file0 $ echo "the waiting game" > ./input/file1 ``` 如果...
总结来说,IBM的MapReduce Tools for Eclipse插件是一个强大的工具,它使得在Eclipse中开发、调试和部署Hadoop MapReduce程序变得更加便捷。借助该插件,开发者可以更快速地创建和优化MapReduce应用程序,同时减少了...
接着,安装Hadoop-Eclipse-Plugin插件,该插件允许开发者在Eclipse中直接编写、调试和运行MapReduce程序。配置插件时,要确保指向正确的Hadoop安装路径,以便Eclipse能识别Hadoop环境。通过Eclipse操作HDFS文件,...
总的来说,这个压缩包提供了一套完整的解决方案,让Windows用户能在Eclipse环境中便捷地开发和运行MapReduce程序。通过这个包,你可以更高效地利用Eclipse的开发优势,同时克服Windows平台上的Hadoop兼容性问题。...
在开始编写MapReduce程序之前,必须启动Hadoop的NameNode、DataNode和TaskTracker等守护进程。这通常涉及修改配置文件,然后通过命令行启动服务。 **步骤二:在Eclipse中安装Hadoop插件** 1. 将`hadoop-...
Eclipse集成MapReduce的jar包意味着开发人员可以直接在Eclipse环境中编写、调试和运行MapReduce程序,无需离开熟悉的IDE。这对于开发Hadoop应用来说是一个巨大的便利,因为这样可以利用Eclipse的强大功能,如代码...
Eclipse的MapReduce插件是Java开发人员在Eclipse集成开发环境中进行Hadoop MapReduce程序开发的重要工具。这个插件允许开发者直接在Eclipse中编写、调试和运行MapReduce作业,极大地提高了开发效率和便捷性。它通过...
在Hadoop生态系统中,Eclipse是一个常用的集成开发环境(IDE),用于编写MapReduce程序。MapReduce是一种编程模型,由Google提出,主要用于大规模数据集的并行处理。它将复杂的分布式计算任务分解为两个主要阶段:...
本文主要介绍了如何使用Java编写MapReduce程序,并运行第一个MapReduce作业,包括遇到的问题和解决方案。 首先,环境搭建是使用Hadoop MapReduce的重要步骤。本文的环境基于CDH5(Cloudera's Distribution ...
数据存储实验5-编写MapReduce程序实现词频统计 本实验的主要目的是通过编写MapReduce程序来实现词频统计,熟悉Hadoop中的MapReduce模块的处理逻辑和编程。实验中,我们将使用Linux操作系统和Eclipse或Intellij Idea...
在Eclipse中,开发者需要导入Hadoop的SDK或者相关的依赖库,这样可以在Eclipse环境中编写和调试MapReduce程序。 2. **Eclipse Hadoop插件**:如`Hadoop-Eclipse-Plugin`,这个插件允许开发者直接在Eclipse中创建、...
开发者需要熟悉如何在IDE中设置Hadoop的环境,以便编写和调试MapReduce程序。 实验的核心部分是实现WordCount程序。WordCount是MapReduce的经典示例,它统计文本中单词的出现次数。在Eclipse或IDEA中,开发者创建了...
在Hadoop生态系统中,Eclipse是一个常用的集成开发环境(IDE),用于编写MapReduce程序。MapReduce是一种编程模型,用于大规模数据集的并行处理。它将大数据任务分解为两个主要阶段:映射(Map)和化简(Reduce)。...