纠结了一会才弄出来这个问题,最开始是编写了mapreduce,想测试呢,就打包成jar 扔到虚拟机上,又不能断点来搞,所以在本地搞了一下远程执行mr。
环境:
windows7 Hadoop2.6 idea
在idea中创建maven项目,然后配置maven,
<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.6.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-mapreduce-client-core</artifactId> <version>2.6.2</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>2.6.2</version> </dependency>
配置完maven之后会导入很多的jar包,之后我编写了代码,执行main方法跑的时候总是报错,后来搜了搜,
发现缺少包的导入,所以就另外导入了hadoop需要的jar
这些包一定要导入,不然就不能执行,
之后要说的是代码的部分,我的main方法部分代码
public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); conf.set("fs.default.name", "hdfs://192.168.218.251:9000"); //打包jar的时候不需要指定这个 可以注释. conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());//打包jar的时候不需要指定这个 可以注释. conf.set("fs.file.impl", org.apache.hadoop.fs.LocalFileSystem.class.getName());//打包jar的时候不需要指定这个 可以注释. Job job = Job.getInstance(conf, "my MapReduce"); job.setJarByClass(myMapReduce.class); job.setMapperClass(TokenizerMapper.class); job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(ProductModel.class); // job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(Text.class); // job.setNumReduceTasks(1); // FileInputFormat.addInputPath(job, new Path("/user/jdz_credit/t_zon/part-m-00000")); // FileOutputFormat.setOutputPath(job, new Path("/user/jdz_credit/output")); long time = new Date().getTime(); FileInputFormat.addInputPath(job, new Path("hdfs://192.168.218.251:9000/user/jdz_credit/t_zon/part-m-00000")); FileSystem.get(conf).delete(new Path("hdfs://192.168.218.251:9000/user/jdz_credit/output"), true); FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.218.251:9000/user/jdz_credit/output")); System.exit(job.waitForCompletion(true) ? 0 : 1); }
首先就是指定地址,然后是inpath和outpath,总之在windows下测试的话一定要写明地址。
做个笔记怕以后忘了
相关推荐
在Windows环境下,使用Eclipse进行Hadoop 2.2.0分布式集群的调试是一项重要的技能,这可以帮助开发者更好地理解和优化Hadoop程序。以下是一些关键的知识点,将指导你完成这个过程。 首先,Hadoop是一个开源的分布式...
此外,确保Hadoop的JVM允许远程调试,如在`mapred-site.xml`中添加`<property><name>mapreduce.map.debug.port</name><value>5005</value></property>`,指定调试端口。 12. **测试远程调试**: 在你的IDE(如...
1. 插件支持在本地或远程Hadoop集群上运行和调试MapReduce程序。在Job Manager中选择相应的集群,设置运行参数,然后点击"Run"或"Debug"。 2. 运行过程中,可以在"Console"视图中查看输出,方便定位问题。 六、...
5. 运行和调试:使用Eclipse的Run或Debug功能,可以直接在本地运行MapReduce程序,或者连接到远程Hadoop集群进行测试。 此外,对于更高效的开发,可以学习使用Hadoop的高级特性,如Pig、Hive、Spark等工具,它们...
分布式计算模型 MapReduce 是分布式集群技术的基础,MapReduce 算法原理、Shuffle 过程和原理、MapReduce 提交过程和源码分析、MapReduce 执行过程和源码分析、MapReduce 本地 debug 和远程 debug、MapReduce 优化、...
- 通过MyEclipse的Server视图,你可以启动本地或远程的Hadoop集群,然后将项目部署上去运行。 - 观察控制台输出,监控任务的进度和状态,进行性能调优。 通过以上步骤,你便能在MyEclipse中配置并使用Hadoop插件...
6. **测试与运行**:在Eclipse中,你可以直接运行MapReduce程序,通过配置JobConf对象来指定输入输出路径,然后提交到本地或远程的Hadoop集群。Eclipse的Debug模式可以让你方便地检查程序的执行过程和结果。 7. **...
执行 Sqoop 命令时,可以使用`--debug`选项来开启调试模式,这将使每个MapReduce任务在启动时等待远程调试器的连接。例如,一个基本的 Sqoop 导入命令可能是这样的: ``` sqoop import --connect 'jdbc:mysql://...
- **Storm程序本地模式debug、Storm程序远程debug**:指导如何调试Storm程序。 - **Storm事务处理**:介绍Storm如何支持事务性的数据处理任务。 - **Storm消息可靠性与容错原理**:解释Storm如何保证消息的可靠传输...
- **Storm程序本地模式debug、Storm程序远程debug**:调试Storm程序的技巧。 - **Storm事物处理**:实现事务性的数据处理流程。 - **Storm消息可靠性及容错原理**:确保数据处理的可靠性和系统的容错能力。 - **...