namenode无法启动，解决 -

Taoo

浏览: 296350 次
性别:
来自: 北京

最近访客更多访客>>

huageng520

leisureWong

jack1007

kingding

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

namenode无法启动，解决

博客分类：

hadoop

hadoop集群关闭后，重新开启
Namenode无法启动。
现象：
执行start-all.sh后，
在master机器是哪个，jps里虽然显示有NameNode进程，
但是web查看hdfs无法进行，也无法执行hadoop fs相关命令。

查看logs/hadoop-hadoop-namenode-xxx.log
发现在启动过程的读edits文件花了3000+s，
读完这个文件之后，接下来的环节就会报出错误信息如下：
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = baby6/10.1.1.26
STARTUP_MSG:   args = []
STARTUP_MSG:   version = 0.20.2+737
STARTUP_MSG:   build = git://ubuntu64-build01.sf.cloudera.com/ on branch -r 98c55c28258aa6f42250569bd7fa431ac657bdbd; compiled by 'root' on Tue Dec 14 11:50:19 PST 2010
************************************************************/
2011-10-13 11:58:10,053 INFO org.apache.hadoop.metrics.jvm.JvmMetrics: Initializing JVM Metrics with processName=NameNode, sessionId=null
2011-10-13 11:58:10,058 INFO org.apache.hadoop.hdfs.server.namenode.metrics.NameNodeMetrics: Initializing NameNodeMeterics using context object:org.apache.hadoop.metrics.spi.NullContext
2011-10-13 11:58:10,117 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: fsOwner=hadoop
2011-10-13 11:58:10,117 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: supergroup=supergroup
2011-10-13 11:58:10,117 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: isPermissionEnabled=true
2011-10-13 11:58:10,126 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: isAccessTokenEnabled=false accessKeyUpdateInterval=0 min(s), accessTokenLifetime=0 min(s)
2011-10-13 11:58:11,048 INFO org.apache.hadoop.hdfs.server.namenode.metrics.FSNamesystemMetrics: Initializing FSNamesystemMetrics using context object:org.apache.hadoop.metrics.spi.NullContext
2011-10-13 11:58:11,050 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Registered FSNamesystemStatusMBean
2011-10-13 11:58:11,100 INFO org.apache.hadoop.hdfs.server.common.Storage: Number of files = 2145244
2011-10-13 11:59:50,339 INFO org.apache.hadoop.hdfs.server.common.Storage: Number of files under construction = 14
2011-10-13 11:59:50,344 INFO org.apache.hadoop.hdfs.server.common.Storage: Image file of size 313452606 loaded in 99 seconds.
2011-10-13 13:04:11,893 INFO org.apache.hadoop.hdfs.server.common.Storage: Edits file /home/hadoop/hdfs/NameNode/current/edits of size 71738186 edits # 430017 loaded in 3861 seconds.
2011-10-13 13:19:42,254 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.lang.OutOfMemoryError: GC overhead limit exceeded
        at java.util.regex.Pattern.compile(Pattern.java:1451)
        at java.util.regex.Pattern.<init>(Pattern.java:1133)
        at java.util.regex.Pattern.compile(Pattern.java:823)
        at java.lang.String.split(String.java:2292)
        at java.lang.String.split(String.java:2334)

主要是因为读edits.new文件时，内存不够。

解决：
删了NameNode/current/edits.new。
这样操作会丢失所有在edits.new里面记录的对hdfs的操作。
（网上有的说可以删除edites文件的末尾不完整的记录。）

之后重新启动hadoop，虽然可以起来，但是依然挂了部分机器。
查看日至，依旧是报错内存不够。

然后修改bin/hadoop脚本
将：JAVA_HEAP_MAX=-Xmx1000m
改为：JAVA_HEAP_MAX=-Xmx2046m

然后重启hadoop，ok。

之后，用hadoop fsck检测损坏的文件，
该部分具体方法见：http://blog.csdn.net/liangliyin/article/details/5872172

这样基本上差不多了。

分享到：

hbase启动失败解决 | hadoop 批量移除 dataNode

2011-10-13 16:24
浏览 5086
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

namenode无法启动，解决

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

namenode无法启动，解决

评论

发表评论

相关推荐

hadoop 2.0.1-alpha上部署 oozie-3.2.0

pig 部署在hadoop 23上

hadoop 2.0.1 HA配置部署

fuse=dfs 安装

hadoop 2.0.1 使用distcp问题解决

hadoop 2.0.1配置纪要

hadoop lzo配置

尝试bigtop

zz hadoop常见问题

hadoop 0.23 配置（启动、跑mapRedcue、web UI）

hadoop 0.23 配置、安装、升级（YARN 与 log路径 ）

hadoop 0.23 配置、安装、升级（HDFS篇）

Hadoop升级，CDH3B3 to CDH3U2

HBase错误处理记录

hbase启动失败解决

hadoop 批量移除 dataNode

最近访客更多访客>>

hadoop 0.23 配置、安装、升级（YARN 与 log路径）