`
尘事随缘
  • 浏览: 9998 次
社区版块
存档分类
最新评论

hbase故障分析之-regionserver突然宕机启动后也是宕机

阅读更多
近日发现测试环境中的RegionServer总是突然宕机,重新启动节点依然无效,无耐看了半天日志发现如下信息:
2015-02-13 05:40:04,325 WARN  [regionserver60020] zookeeper.RecoverableZooKeeper: Node /hbase/rs/slave2,60020,1423777199540 already deleted, retry=false
2015-02-13 05:40:04,325 WARN  [regionserver60020] regionserver.HRegionServer: Failed deleting my ephemeral node
org.apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for /hbase/rs/slave2,60020,1423777199540
	at org.apache.zookeeper.KeeperException.create(KeeperException.java:111)
	at org.apache.zookeeper.KeeperException.create(KeeperException.java:51)
	at org.apache.zookeeper.ZooKeeper.delete(ZooKeeper.java:873)
	at org.apache.hadoop.hbase.zookeeper.RecoverableZooKeeper.delete(RecoverableZooKeeper.java:179)
	at org.apache.hadoop.hbase.zookeeper.ZKUtil.deleteNode(ZKUtil.java:1273)
	at org.apache.hadoop.hbase.zookeeper.ZKUtil.deleteNode(ZKUtil.java:1262)
	at org.apache.hadoop.hbase.regionserver.HRegionServer.deleteMyEphemeralNode(HRegionServer.java:1342)
	at org.apache.hadoop.hbase.regionserver.HRegionServer.run(HRegionServer.java:1054)
	at java.lang.Thread.run(Thread.java:745)
2015-02-13 05:40:04,329 INFO  [regionserver60020-EventThread] zookeeper.ClientCnxn: EventThread shut down
2015-02-13 05:40:04,329 INFO  [regionserver60020] zookeeper.ZooKeeper: Session: 0x14b7113ebc50012 closed
2015-02-13 05:40:04,329 INFO  [regionserver60020] regionserver.HRegionServer: stopping server null; zookeeper connection closed.
2015-02-13 05:40:04,330 INFO  [regionserver60020] regionserver.HRegionServer: regionserver60020 exiting


找了半天问题任然没有解决,无头绪中。。。。

喝杯茶,继续往上翻,突然发现救命稻草:
2015-02-13 05:40:04,294 FATAL [regionserver60020] [color=red]regionserver.HRegionServer: Master rejected startup because clock is out of sync
org.apache.hadoop.hbase.ClockOutOfSyncException: [/color]org.apache.hadoop.hbase.ClockOutOfSyncException: Server slave2,60020,1423777199540 has been rejected; Reported time is too far out of sync with master.  Time difference of 71419ms > max allowed of 30000ms
	at org.apache.hadoop.hbase.master.ServerManager.checkClockSkew(ServerManager.java:345)
	at org.apache.hadoop.hbase.master.ServerManager.regionServerStartup(ServerManager.java:238)
	at org.apache.hadoop.hbase.master.HMaster.regionServerStartup(HMaster.java:1294)
	at org.apache.hadoop.hbase.protobuf.generated.RegionServerStatusProtos$RegionServerStatusService$2.callBlockingMethod(RegionServerStatusProtos.java:7910)
	at org.apache.hadoop.hbase.ipc.RpcServer.call(RpcServer.java:2027)
	at org.apache.hadoop.hbase.ipc.CallRunner.run(CallRunner.java:108)
	at org.apache.hadoop.hbase.ipc.FifoRpcScheduler$1.run(FifoRpcScheduler.java:74)
	at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
	at java.util.concurrent.FutureTask.run(FutureTask.java:262)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
	at java.lang.Thread.run(Thread.java:745)


问题找到了,由于是服务器Master的时间和RegionServer的时间不一致,没有装时间同步服务,导致此问题发生。
手动修改下RegionServer的时间 data -s 时间 ,重启RegionServer问题解决。

下一步需要在测试环境也安装NTP服务。
分享到:
评论

相关推荐

    HBase大数据.zip

    - **RegionServer故障恢复**:当RegionServer宕机,Master会自动重新分配其上的Region到其他存活的服务器。 - **Master故障恢复**:Zookeeper监控Master状态,确保任何时候都有一个活跃的Master。 5. **HBase与...

    Hadoop2.6.2、Hbase1.1.2 HA

    当某个RegionServer宕机,ZooKeeper会自动将该服务器上的Region重新分配到其他健康的RegionServer上,确保数据服务不中断。 接着,Hive 1.2.1是基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL)查询和管理存储...

    Hbase 高可用分布式搭建

    2. RegionServer冗余:多台RegionServer部署,当某台宕机时,其上的Region会自动迁移至其他节点。 3. Zookeeper集群:至少三台机器构成,提供高可用的协调服务。 4. 数据复制:开启HBase的多版本特性,可以设置WAL...

    HBase最佳实践-读性能优化策略

    首先,FullGC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大是HBase系统中常见的一些问题。FullGC异常主要是由于Java虚拟机(JVM)的垃圾收集器进行了全量垃圾回收导致系统暂停服务,解决这个问题可以从...

    浅谈HBASE数据结构设计.pdf

    - 高可用性:HBase利用Hadoop的高可用性机制和ZooKeeper来保证集群服务的持续可用性,即使***r或RegionServer宕机,集群仍能对外提供服务。 8. 参考文献与扩展阅读 - Tom White. Hadoop: The Definitive Guide. O'...

    hbase安装,节点添加,移除,常见问题解决

    1. **RegionServer宕机**:检查节点的系统日志,找出故障原因,可能是内存不足、磁盘满等问题。修复后重启RegionServer服务。 2. **Zookeeper连接问题**:确保所有节点都能正常连接Zookeeper,检查Zookeeper的配置和...

    Hbase 组件 、架构

    它主要负责管理用户对表的增删改查操作、管理RegionServer的负载均衡、调整Region的分布、在Region分裂(split)后将新Region分布到不同的RegionServer上、在RegionServer宕机后进行Region的重新分配。HMaster没有单...

    HBase高可用HA.pdf

    为了缓解这个问题,HBase的高可用设计包括了诸如HMaster故障切换、RegionServer故障转移以及对关键组件(如ZooKeeper)的依赖管理等措施,这些都能极大提升HBase集群的容错能力。 此外,HBase社区还通过引入强一致...

    深入学习hbase原理资料整理

    这个过程确保了即使在RegionServer宕机的情况下,数据也不会丢失,因为它们已经存在于持久化的HLog中。 此外,HBase与Hadoop、Hive、NoSQL和MongoDB等技术密切相关。Hadoop为其提供了分布式存储基础,Hive则允许...

    hbase zk异常启动不了.docx

    在给定的描述中,我们发现了一个具体的问题:Linux磁盘空间满导致HBase宕机,同时ZooKeeper的日志中出现了“Fypersistence.Util: Last transaction was partial”的错误信息。 这个错误表明ZooKeeper在写入事务日志...

    HBase实战源码

    13. **Region Server故障恢复**:当Region Server宕机时,HMaster会监控到并重新分配其上的Region到其他存活的Region Server。 通过阅读《HBase实战源码》,读者可以了解到上述组件的实现细节,包括数据存储格式、...

    hbase性能调优.pdf

    如果设置得太低,可能会导致 RegionServer 的宕机到恢复时间本身就很短的,反之,如果设置得太高,可能会延长 failover 时间。因此,需要根据具体的应用场景和需求来调整这个参数。 另一个重要的配置项是 hbase....

    Hadoop之Hbase从入门到精通.docx

    但是,需要注意的是,对于一些Online应用,RegionServer从宕机到恢复时间本身就很短的(网络闪断、crash等故障,运维可快速介入),如果调低超时时间,反而会得不偿失。 二、RegionServer的请求处理IO线程数 ...

    hadoop-管理

    针对 HBase 集群,RegionServer 宕机时,可以使用 `./hbase-daemon.sh start regionserver` 命令重启。若 RegionServer 配置了 ZooKeeper,还需要重启 ZooKeeper 服务,命令为 `./hbase-daemon.sh start zookeeper`...

    《HBASE系统运维实践》淘宝资深数据库工程师许飞飞

    故障诊断则涉及RegionServer宕机、数据倾斜、性能瓶颈等问题的排查和解决。性能优化则需要对HBase集群进行调优,包括参数优化、压缩配置、缓存管理等。备份与恢复是数据库运维中不可忽视的部分,HBase提供了多种备份...

    ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用

    通过在ZooKeeper上维护一个活跃的NameNode列表,可以实现在主NameNode宕机时自动切换到备用NameNode,从而保障数据服务的连续性。 2. **JobTracker的容错机制**:在早期版本的MapReduce中,JobTracker利用ZooKeeper...

    hadoop2.2+hbase0.96+hive0.12 安装文档

    建议将临时目录放在HBase的安装目录中,避免因权限或路径问题导致服务如hmaster或regionserver启动后迅速宕机。同时,整合HBase到Hadoop时需要保证两者的版本一致。 对于HBase与Hive的整合,需要关注客户端和服务器...

    HBASE性能调优方法1

    在HBase中,数据先写入WAL,确保在RegionServer宕机时可以通过WAL恢复数据。然而,对于不那么重要的数据,可以通过设置`Put.setWriteToWAL(false)`或`Delete.setWriteToWAL(false)`来跳过WAL,提高写入性能,但牺牲...

    HBase大数据技术原理与实践.pptx

    1. **高可靠性**:HBase依赖于HDFS进行数据存储,通过Write-Ahead Log (WAL)确保数据的持久化,即使在服务器宕机的情况下也能恢复数据。此外,它还利用ZooKeeper进行故障检测和恢复,确保高可用性。 2. **高性能**...

Global site tag (gtag.js) - Google Analytics