因为不是太复杂,所以只贴代码了,有注释,相信朋友没都能看懂。
public static void main(String[] args) {
//在本地windows平台eclipse运行mapreduce程序
//创建远程用户,以指定的用户来运行程序
//把要运行的程序代码放到run方法体里
UserGroupInformation ugi = UserGroupInformation.createRemoteUser("hadoop");
ugi.doAs(new PrivilegedAction<Void>() {
public Void run() {
try{
//设置引用jar的分割符,linux一般用,和:,但windows一般是用;,
//所以要设置一下本地的分割符
System.setProperty("path.separator", ":");
Configuration conf = new Configuration();
//可以设置用到的第三方jar
//conf.set("tmpjars", "/tmp/jars/hbase-0.94.5.jar,/tmp/jars/protobuf-java-2.4.0a.jar,/tmp/jars/zookeeper-3.4.3.jar");
conf.set("mapred.job.tracker", "172.168.8.54:9001");
conf.set("fs.default.name", "hdfs://172.168.8.54:9000");
conf.set("hadoop.job.ugi", "hadoop");
conf.set("hbase.zookeeper.quorum","172.168.8.55,172.168.8.56,172.168.8.57");
conf.set("hbase.zookeeper.property.clientPort", "2181");
Job job = new Job(conf);
job.setJobName("ReadHbaseToHdfsAction");
job.setJarByClass(ReadHbaseToHdfsAction.class);
job.setNumReduceTasks(1);
job.setReducerClass(ReadHbaseToHdfsReduce.class);
FileSystem fs=FileSystem.get(conf);
Path outPath=new Path("/tmp/2/1");
if(fs.exists(outPath)){
fs.delete(outPath, true);
}
FileOutputFormat.setOutputPath(job, outPath);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
Scan scan = new Scan();
TableMapReduceUtil.initTableMapperJob("misdn_catetory22", scan, ReadHbaseToHdfsMapper.class,
Text.class, Text.class, job);
job.waitForCompletion(true);
}catch(Exception e){
e.printStackTrace();
}
return null;
}});
}
分享到:
相关推荐
总之,要在Windows下的Eclipse环境中成功运行MapReduce程序,关键在于正确配置Hadoop环境,导入所有必要的jar包,并理解如何设置和提交MapReduce作业。这个过程可能需要一些时间和实践,但一旦配置完成,将为高效...
在运行MapReduce程序之前,我们需要创建输入文件,并将其放置在相应的目录下。例如: ```bash $ mkdir input $ echo "echo of the rainbow" > ./input/file0 $ echo "the waiting game" > ./input/file1 ``` 如果...
标题提到的"eclipse運行mapreduce的插件"正是为了解决这个问题,它使得开发者可以在Eclipse内直接编写、调试和运行MapReduce程序,极大地提高了开发效率。 MapReduce是Google提出的一种分布式计算模型,用于处理和...
在Eclipse中直接运行MapReduce程序,可以进行快速的本地测试和调试,减少了实际在集群上运行的时间。 任务3是对开发过程的总结和反思,通常包括遇到的问题、解决策略以及优化建议。在实践中,可能需要根据硬件资源...
在Windows环境下,使用Eclipse进行远程开发MapReduce程序是一个复杂的过程,涉及到多个步骤,包括环境配置、插件安装以及依赖管理。以下是对整个过程的详细解释: 首先,我们需要准备必要的工具和库。`hadoop-...
运行MapReduce程序时,选择`Run As—>Open Debug Dialog`,在Arguments选项卡中指定输入数据目录和输出数据目录。例如,输入`G:\hadoop-0.16.4\in G:\hadoop-0.16.4\myout`。之后,只需像运行普通Java程序一样运行...
windows(64位)本地(local)用eclipse调试mapreduce程序-附件资源
8. **运行与调试**:一旦代码在本地验证无误,你可以在实际的Hadoop集群上运行MapReduce作业。使用Hadoop的命令行工具提交作业,并通过日志和输出数据进行调试。 总之,在Windows下编写MapReduce程序需要对Hadoop的...
总结来说,"hadoop eclipse mapreduce下开发所有需要用到的JAR包"涉及到的是Hadoop MapReduce开发的环境配置,确保正确导入所有必要的依赖库,以便在Eclipse中编写、测试和运行MapReduce程序。这些JAR包是Hadoop生态...
2. **Eclipse Hadoop插件**:如`Hadoop-Eclipse-Plugin`,这个插件允许开发者直接在Eclipse中创建、编辑和运行MapReduce作业。它可以将作业提交到本地或远程的Hadoop集群,提供了方便的调试和测试环境。 3. **Maven...
在这个"可运行的Hadoop1 MapReduce Eclipse项目"中,开发者编写了MapReduce程序来计算电影的平均评分、总评分人数以及去重后的评分人数。这通常涉及到从大规模的用户评价数据中提取信息,通过Map阶段对每条评价进行...
- **本地运行**: 支持在本地Hadoop环境中运行MapReduce作业,方便快速测试和调试。 - **远程集群提交**: 插件可以连接到远程Hadoop集群,将作业提交到生产环境。 - **调试工具**: 提供调试器,可以设置断点、查看...
在Hadoop生态系统中,Eclipse是一个常用的集成开发环境(IDE),用于编写MapReduce程序。MapReduce是一种编程模型,用于大规模数据集的并行处理。它将大数据任务分解为两个主要阶段:映射(Map)和化简(Reduce)。...
3. **Hadoop依赖JAR包**:在描述中提到的压缩包“eclipse运行hadoop2.7.3需要的jar”很可能包含了这些必要的依赖。这些JAR文件可能包括但不限于以下: - `hadoop-common-2.7.3.jar`:包含Hadoop的通用功能。 - `...
在大数据处理领域,MapReduce是一种分布式计算模型,由Google提出并...7. 在本地Hadoop环境中提交并运行MapReduce任务。 这个过程为开发者提供了一个基础的MapReduce开发环境,可以进一步学习和实践大数据处理技术。
在本文中,我们将深入探讨如何在Windows环境下使用Eclipse IDE远程连接到伪分布式Hadoop集群,并运行经典的WordCount示例程序。WordCount是Hadoop入门的标志性任务,它统计文本中单词出现的次数,这对于理解...
4. **运行和调试Hadoop程序**:Eclipse插件提供了运行和调试MapReduce程序的功能。在项目中右键选择"Run As" -> "Map/Reduce Job",设置输入输出路径和其他参数,然后点击"Run"。Eclipse会自动提交任务到Hadoop集群...
通过这个插件,开发者可以便捷地在本地开发环境中编写和测试MapReduce程序,然后直接部署到远程Hadoop集群,降低了开发和调试的复杂性。需要注意的是,由于Hadoop的不断升级和优化,不同版本的插件可能与不同版本的...
这款插件极大地简化了开发者的工作流程,提供了丰富的功能,帮助开发者编写、调试和运行MapReduce程序。 在Eclipse中安装MapReduce Plugin后,用户可以享受到以下便利: 1. **项目创建与管理**:通过插件,开发者...