- 浏览: 2094950 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (366)
- hadoop (91)
- DB (2)
- vmware (0)
- python (49)
- Java (72)
- Linux (57)
- 多线程 (2)
- hive (1)
- hbase (3)
- mongodb (5)
- Hibernate (3)
- nodejs (1)
- 模式与重构 (1)
- 持续集成CI (4)
- Mysql (2)
- chorme (1)
- 软件开发 (0)
- 敏捷 (5)
- maven (3)
- windows (7)
- 测试驱动 (1)
- scala (3)
- Jetty (0)
- android (1)
- eclipse (1)
- 设计模式 (1)
- 面向对象设计 (2)
- oracle (3)
- cassandra (15)
- pig (3)
- rails (1)
- redis (4)
- ruby (1)
- storm (0)
- 实时运算 (3)
- scribe (1)
- hadoop源码 (3)
- cassandra jna (1)
- Kafka (2)
- Sublime (2)
- C++ (2)
- C (1)
- 版本控制 (1)
- 服务器 (1)
- docker (0)
- flink (1)
最新评论
-
伍大都督:
解释太到位了,感谢分享
理解Linux系统中的load average(图文版) -
rfjian123:
非常感谢,用你的方法解决了问题。
Server sent unexpected return value (403 Forbidden) in response to OPTIONS -
yuhaifei12:
今天遇到同样的问题了。设置的是每分钟执行一次。结果发现每分钟执 ...
解决Linux下crontab同一时间重复执行问题 -
BigBird2012:
想问一下,使用ExecutorService每次都要调用 sh ...
spring quartz使用多线程并发“陷阱” -
zhuqx1130:
有用,谢谢
解决Sublime Text 3中文显示乱码(tab中文方块)问题
上一次记录了如何调试NN,JT,DT,JT,这次记录为调试mapreduce函数,和前几个应用不同,mapreduce为Child进程,不能直接通过bin/hadoop文件中开启远程调试端口,具体操作如下:
1. 选定一台调试机器,修改mapred-site.xml文件,添加如下配置:
<property> <name>mapred.child.java.opts</name> <value>-agentlib:jdwp=transport=dt_socket,address=8883,server=y,suspend=y</value> </property>
2. 关闭所有的tasktracker,只保留上面配置的一台需要调试的tasktracker
3. 启动Mapreduce job
3. 右键hadoop src项目,右键“Debug As”,选择“Debug Configurations”,选择“Remote Java Application”,添加一个新的测试,输入远程host ip和监听端口,上例为8883,然后点击“Debug”按钮。此时应该连接到远程tasktracker child进程,并进入断点位置,可以单步调试了。
我的YY:在调试过程发现开启所有tasktracker,此时连接到tasktracker一下然后就断开,所以需要关闭其他tasktracker,只保留一台。
按照上面的配置,如果抛出一个连接错误异常,再连接一下就好了。
-- heipark
评论
7 楼
爱岩修
2014-04-03
zk279444107 写道
zk279444107 写道
你好,通过按你的方法配置,但是debug不了。我是用eclipse+本机伪分布式,通过cygwin模拟的环境。
监听tasktracker是没有问题的:
localhost: Listening for transport dt_socket at address: 6666
但mapred.child.java.opts的端口就是连接不上,我首先是想是不是要任务运行,端口才会开启,但任务都运行完毕了还是连接不上。
我的其他配置:
<property>
<name>mapred.job.reuse.jvm.num.tasks</name>
<value>-1</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.task.timeout</name>
<value>600000</value>
</property>
监听tasktracker是没有问题的:
localhost: Listening for transport dt_socket at address: 6666
但mapred.child.java.opts的端口就是连接不上,我首先是想是不是要任务运行,端口才会开启,但任务都运行完毕了还是连接不上。
我的其他配置:
<property>
<name>mapred.job.reuse.jvm.num.tasks</name>
<value>-1</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.task.timeout</name>
<value>600000</value>
</property>
问题已经解决,关键在于eclipse插件的配置,同时谢谢博主分享经验心得。
是怎么解决的?mapred-site.xml用的这个配置文件吗?eclipse的插件有什么配置?
6 楼
爱岩修
2014-04-03
zk279444107 写道
zk279444107 写道
你好,通过按你的方法配置,但是debug不了。我是用eclipse+本机伪分布式,通过cygwin模拟的环境。
监听tasktracker是没有问题的:
localhost: Listening for transport dt_socket at address: 6666
但mapred.child.java.opts的端口就是连接不上,我首先是想是不是要任务运行,端口才会开启,但任务都运行完毕了还是连接不上。
我的其他配置:
<property>
<name>mapred.job.reuse.jvm.num.tasks</name>
<value>-1</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.task.timeout</name>
<value>600000</value>
</property>
监听tasktracker是没有问题的:
localhost: Listening for transport dt_socket at address: 6666
但mapred.child.java.opts的端口就是连接不上,我首先是想是不是要任务运行,端口才会开启,但任务都运行完毕了还是连接不上。
我的其他配置:
<property>
<name>mapred.job.reuse.jvm.num.tasks</name>
<value>-1</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.task.timeout</name>
<value>600000</value>
</property>
是怎么解决的?mapred-site.xml用的这个配置文件吗?eclipse的插件有什么配置?
问题已经解决,关键在于eclipse插件的配置,同时谢谢博主分享经验心得。
5 楼
heipark
2013-05-08
coobery 写道
"上一次记录了如何调试NN,JT,DT,JT"
哪篇博文记录了?
哪篇博文记录了?
在这里:
http://heipark.iteye.com/blog/1393553
4 楼
coobery
2013-05-08
"上一次记录了如何调试NN,JT,DT,JT"
哪篇博文记录了?
哪篇博文记录了?
3 楼
heipark
2012-03-22
zk279444107 写道
zk279444107 写道
你好,通过按你的方法配置,但是debug不了。我是用eclipse+本机伪分布式,通过cygwin模拟的环境。
监听tasktracker是没有问题的:
localhost: Listening for transport dt_socket at address: 6666
但mapred.child.java.opts的端口就是连接不上,我首先是想是不是要任务运行,端口才会开启,但任务都运行完毕了还是连接不上。
我的其他配置:
<property>
<name>mapred.job.reuse.jvm.num.tasks</name>
<value>-1</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.task.timeout</name>
<value>600000</value>
</property>
监听tasktracker是没有问题的:
localhost: Listening for transport dt_socket at address: 6666
但mapred.child.java.opts的端口就是连接不上,我首先是想是不是要任务运行,端口才会开启,但任务都运行完毕了还是连接不上。
我的其他配置:
<property>
<name>mapred.job.reuse.jvm.num.tasks</name>
<value>-1</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.task.timeout</name>
<value>600000</value>
</property>
问题已经解决,关键在于eclipse插件的配置,同时谢谢博主分享经验心得。
恭喜!
2 楼
zk279444107
2012-03-22
zk279444107 写道
你好,通过按你的方法配置,但是debug不了。我是用eclipse+本机伪分布式,通过cygwin模拟的环境。
监听tasktracker是没有问题的:
localhost: Listening for transport dt_socket at address: 6666
但mapred.child.java.opts的端口就是连接不上,我首先是想是不是要任务运行,端口才会开启,但任务都运行完毕了还是连接不上。
我的其他配置:
<property>
<name>mapred.job.reuse.jvm.num.tasks</name>
<value>-1</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.task.timeout</name>
<value>600000</value>
</property>
监听tasktracker是没有问题的:
localhost: Listening for transport dt_socket at address: 6666
但mapred.child.java.opts的端口就是连接不上,我首先是想是不是要任务运行,端口才会开启,但任务都运行完毕了还是连接不上。
我的其他配置:
<property>
<name>mapred.job.reuse.jvm.num.tasks</name>
<value>-1</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.task.timeout</name>
<value>600000</value>
</property>
问题已经解决,关键在于eclipse插件的配置,同时谢谢博主分享经验心得。
1 楼
zk279444107
2012-03-22
你好,通过按你的方法配置,但是debug不了。我是用eclipse+本机伪分布式,通过cygwin模拟的环境。
监听tasktracker是没有问题的:
localhost: Listening for transport dt_socket at address: 6666
但mapred.child.java.opts的端口就是连接不上,我首先是想是不是要任务运行,端口才会开启,但任务都运行完毕了还是连接不上。
我的其他配置:
<property>
<name>mapred.job.reuse.jvm.num.tasks</name>
<value>-1</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.task.timeout</name>
<value>600000</value>
</property>
监听tasktracker是没有问题的:
localhost: Listening for transport dt_socket at address: 6666
但mapred.child.java.opts的端口就是连接不上,我首先是想是不是要任务运行,端口才会开启,但任务都运行完毕了还是连接不上。
我的其他配置:
<property>
<name>mapred.job.reuse.jvm.num.tasks</name>
<value>-1</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.task.timeout</name>
<value>600000</value>
</property>
发表评论
-
cloudera CDH5 vmware中cloudera manager报错"Internal error while querying the Host "
2014-07-22 10:19 2045无法获取host和service状态,解决办法: s ... -
thrift0.9.1简单教程(包含Java服务端和Java、python客户端)
2014-04-25 15:55 6404一、Thrift Java服务端和客户端 官 ... -
yum错误“Error in PREUN scriptlet in rpm package ”
2014-03-10 12:07 3980打算通过yum安装软件,发展之前有软件残骸。使用yu ... -
搭建cloudera yum私服
2014-03-05 11:08 3203一、安装Cloudera yum仓库 1. 下载仓库rpm ... -
cloudera创建私服错误一例
2014-02-24 11:41 1370执行“reposync -r cloudera-cdh4 ” ... -
Cloudera Manager的Hadoop配置文件管理
2014-02-11 10:21 11453本文基于Cloudera Manager 4.8,以下简称 ... -
修改cloudera manager管理主机名(转)
2014-02-10 14:22 7642I installed the Cloudera Mana ... -
cloudera manager tasktrakcer监控状态错误
2014-02-10 11:32 1279此文用作图片外链。cloudera网站坑爹呀! -
cloudera manager 4.8 添加设备DNS反向解析问题
2014-01-28 16:20 3762添加设备时agent会使用host命令反向解析获取clou ... -
apache kafka v0.8入门遇到问题
2014-01-23 12:20 1666官方文档:https://kafka.apache.org/ ... -
hadoop2.0(cdh4) fs client错误"java.io.IOException: No FileSystem for scheme: hdfe"
2013-12-31 12:32 10052启动dfs client时候报错:“java.io.IOE ... -
Hadoop Combiner的几个调用时间点
2013-12-20 08:37 2963Combiner是在Map端被执行,共有两个时机会被触 ... -
hadoop1.0中NameNode HA的妥协方案
2013-12-10 16:26 1525hadoop1.0没有HA,可以添加NFS做为metada ... -
hdaoop2.x (CDH4、5)下使用DFS Client(包含HA)
2013-12-09 16:42 3312一、不使用HA场景 1.1 获取FileSystem(下 ... -
Hadoop学习指南
2013-11-26 14:26 1391安装配置 CDH4(hadoop2.0) 端口 C ... -
cloudera cdh中hadoop-client包的作用
2013-11-22 22:12 4113hadoop-client是为了让开发者可以很方便的使用当前 ... -
could only be replicated to 0 nodes instead of minReplication (=1)
2013-11-18 17:02 13918一、出现这个错误,先看看DN是不是正常启动并与NN通信,使用 ... -
Hadoop Pig获取HDFS文件名
2013-11-15 08:37 3214A = LOAD 'input' using PigS ... -
cloudera CDH5正式版(与CDH4比较)
2013-11-04 22:14 2514要求JDK7以上,JDK6不被支持 基于a ... -
Pig写UDF解析XML遇到一诡异错误“ClassNotFoundException”
2013-10-16 10:11 1277UDF中使用apache digester做XML解析,代码 ...
相关推荐
"Hadoop MapReduce HelloWorld 能调试" 的主题意味着我们将深入理解如何设置、运行以及调试 MapReduce 任务,特别是针对入门级的 "wordcount" 示例。 MapReduce 分为两个主要阶段:Map 阶段和 Reduce 阶段。Map ...
在Hadoop生态系统中,MapReduce是一种分布式计算框架,它允许用户编写并运行处理大量数据的程序。这个"mapred.zip"文件显然包含了与Hadoop MapReduce相关的测试样例、文档和源码,这对于理解MapReduce的工作原理以及...
hadoop-mapreduce-examples-2.7.1.jar
赠送jar包:hadoop-mapreduce-client-jobclient-2.6.5.jar; 赠送原API文档:hadoop-mapreduce-client-jobclient-2.6.5-javadoc.jar; 赠送源代码:hadoop-mapreduce-client-jobclient-2.6.5-sources.jar; 赠送...
Hadoop HDFS和MapReduce架构浅析.pdf 更多资源请点击:https://blog.csdn.net/weixin_44155966
接着,安装Hadoop-Eclipse-Plugin插件,该插件允许开发者在Eclipse中直接编写、调试和运行MapReduce程序。配置插件时,要确保指向正确的Hadoop安装路径,以便Eclipse能识别Hadoop环境。通过Eclipse操作HDFS文件,...
【标题】Hadoop MapReduce 实现 WordCount MapReduce 是 Apache Hadoop 的核心组件之一,它为大数据处理提供了一个分布式计算框架。WordCount 是 MapReduce 框架中经典的入门示例,它统计文本文件中每个单词出现的...
Hadoop——分布式计算框架MapReduce 5. Hadoop——MapReduce案例 6. Hadoop——资源调度器YARN 7. Hadoop——Hadoop数据压缩 二、Zookeeper 1.Zookeeper——Zookeeper概述 2.Zookeeper——...
(3)调试和运行MepReduce程序 (4)完成上课老师演示的内容 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 二、实验内容 1.单词计数实验(wordcount) (1)输入start-all.sh启动hadoop...
用户可以在Eclipse中创建新的MapReduce项目,编写Mapper和Reducer代码,然后通过Eclipse的Map/Reduce透视图进行调试和运行,直接与远程的Hadoop集群进行交互。 总的来说,Windows下使用Eclipse远程开发MapReduce...
包org.apache.hadoop.mapreduce的Hadoop源代码分析
赠送jar包:hadoop-mapreduce-client-core-2.5.1.jar; 赠送原API文档:hadoop-mapreduce-client-core-2.5.1-javadoc.jar; 赠送源代码:hadoop-mapreduce-client-core-2.5.1-sources.jar; 赠送Maven依赖信息文件:...
### Hadoop实战——初级部分学习笔记 2 #### 一、引言与背景 随着大数据时代的到来,Hadoop作为处理大规模数据集的核心工具之一,其重要性和应用范围日益扩大。本文将基于私塾在线《Hadoop实战——初级部分》的...
在项目实施过程中,我们还应该关注监控和调试,确保 MapReduce 作业能够正确地运行和完成。日志分析可以帮助我们识别潜在问题,例如数据倾斜、内存溢出等。 总结起来,这个项目涵盖了 Hadoop 分布式系统的基础知识...
赠送jar包:hadoop-mapreduce-client-app-2.6.5.jar; 赠送原API文档:hadoop-mapreduce-client-app-2.6.5-javadoc.jar; 赠送源代码:hadoop-mapreduce-client-app-2.6.5-sources.jar; 赠送Maven依赖信息文件:...
赠送jar包:hadoop-mapreduce-client-jobclient-2.6.5.jar; 赠送原API文档:hadoop-mapreduce-client-jobclient-2.6.5-javadoc.jar; 赠送源代码:hadoop-mapreduce-client-jobclient-2.6.5-sources.jar; 赠送...
赠送jar包:hadoop-mapreduce-client-app-2.6.5.jar; 赠送原API文档:hadoop-mapreduce-client-app-2.6.5-javadoc.jar; 赠送源代码:hadoop-mapreduce-client-app-2.6.5-sources.jar; 赠送Maven依赖信息文件:...
hadoop的mapreduce的架构和原理介绍的比较详细,ppt格式.
通过使用hadoop中的mapReduce功能实现的简单数据分析项目
赠送jar包:hadoop-mapreduce-client-core-2.7.3.jar; 赠送原API文档:hadoop-mapreduce-client-core-2.7.3-javadoc.jar; 赠送源代码:hadoop-mapreduce-client-core-2.7.3-sources.jar; 赠送Maven依赖信息文件:...