`

windows 远程连接Hadoop debug MapReduce

阅读更多

纠结了一会才弄出来这个问题,最开始是编写了mapreduce,想测试呢,就打包成jar 扔到虚拟机上,又不能断点来搞,所以在本地搞了一下远程执行mr。

环境:

windows7  Hadoop2.6  idea

在idea中创建maven项目,然后配置maven,

<dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.6.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-core</artifactId>
            <version>2.6.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.6.2</version>
        </dependency>

 配置完maven之后会导入很多的jar包,之后我编写了代码,执行main方法跑的时候总是报错,后来搜了搜,

发现缺少包的导入,所以就另外导入了hadoop需要的jar



 

 

这些包一定要导入,不然就不能执行,

 

之后要说的是代码的部分,我的main方法部分代码

 public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        conf.set("fs.default.name", "hdfs://192.168.218.251:9000"); //打包jar的时候不需要指定这个 可以注释.
        conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());//打包jar的时候不需要指定这个 可以注释.
        conf.set("fs.file.impl", org.apache.hadoop.fs.LocalFileSystem.class.getName());//打包jar的时候不需要指定这个 可以注释.
        Job job = Job.getInstance(conf, "my MapReduce");
        job.setJarByClass(myMapReduce.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(ProductModel.class);
//        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
//        job.setNumReduceTasks(1);
//        FileInputFormat.addInputPath(job, new Path("/user/jdz_credit/t_zon/part-m-00000"));
//        FileOutputFormat.setOutputPath(job, new Path("/user/jdz_credit/output"));
        long time = new Date().getTime();
        FileInputFormat.addInputPath(job, new Path("hdfs://192.168.218.251:9000/user/jdz_credit/t_zon/part-m-00000"));
        FileSystem.get(conf).delete(new Path("hdfs://192.168.218.251:9000/user/jdz_credit/output"), true);
        FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.218.251:9000/user/jdz_credit/output"));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }

 首先就是指定地址,然后是inpath和outpath,总之在windows下测试的话一定要写明地址。

做个笔记怕以后忘了

 

  • 大小: 103 KB
分享到:
评论

相关推荐

    如何在Windows下的eclipse调试Hadoop2.2.0分布式集群

    在Windows环境下,使用Eclipse进行Hadoop 2.2.0分布式集群的调试是一项重要的技能,这可以帮助开发者更好地理解和优化Hadoop程序。以下是一些关键的知识点,将指导你完成这个过程。 首先,Hadoop是一个开源的分布式...

    Hadoop环境搭建 附件.rar

    此外,确保Hadoop的JVM允许远程调试,如在`mapred-site.xml`中添加`&lt;property&gt;&lt;name&gt;mapreduce.map.debug.port&lt;/name&gt;&lt;value&gt;5005&lt;/value&gt;&lt;/property&gt;`,指定调试端口。 12. **测试远程调试**: 在你的IDE(如...

    hadoop2x-eclipse-plugin-master

    1. 插件支持在本地或远程Hadoop集群上运行和调试MapReduce程序。在Job Manager中选择相应的集群,设置运行参数,然后点击"Run"或"Debug"。 2. 运行过程中,可以在"Console"视图中查看输出,方便定位问题。 六、...

    大数据云计算技术系列 hadoop搭建与eclipse开发环境设置-已验证通过(共13页).rar

    5. 运行和调试:使用Eclipse的Run或Debug功能,可以直接在本地运行MapReduce程序,或者连接到远程Hadoop集群进行测试。 此外,对于更高效的开发,可以学习使用Hadoop的高级特性,如Pig、Hive、Spark等工具,它们...

    分布式集群技术.pdf

    分布式计算模型 MapReduce 是分布式集群技术的基础,MapReduce 算法原理、Shuffle 过程和原理、MapReduce 提交过程和源码分析、MapReduce 执行过程和源码分析、MapReduce 本地 debug 和远程 debug、MapReduce 优化、...

    myeclipse配置Hadoop插件

    - 通过MyEclipse的Server视图,你可以启动本地或远程的Hadoop集群,然后将项目部署上去运行。 - 观察控制台输出,监控任务的进度和状态,进行性能调优。 通过以上步骤,你便能在MyEclipse中配置并使用Hadoop插件...

    Hadoop-Analyzing

    6. **测试与运行**:在Eclipse中,你可以直接运行MapReduce程序,通过配置JobConf对象来指定输入输出路径,然后提交到本地或远程的Hadoop集群。Eclipse的Debug模式可以让你方便地检查程序的执行过程和结果。 7. **...

    sqoopOperate

    执行 Sqoop 命令时,可以使用`--debug`选项来开启调试模式,这将使每个MapReduce任务在启动时等待远程调试器的连接。例如,一个基本的 Sqoop 导入命令可能是这样的: ``` sqoop import --connect 'jdbc:mysql://...

    大数据课程体系.docx

    - **Storm程序本地模式debug、Storm程序远程debug**:指导如何调试Storm程序。 - **Storm事务处理**:介绍Storm如何支持事务性的数据处理任务。 - **Storm消息可靠性与容错原理**:解释Storm如何保证消息的可靠传输...

    大数据课程体系

    - **Storm程序本地模式debug、Storm程序远程debug**:调试Storm程序的技巧。 - **Storm事物处理**:实现事务性的数据处理流程。 - **Storm消息可靠性及容错原理**:确保数据处理的可靠性和系统的容错能力。 - **...

Global site tag (gtag.js) - Google Analytics