问题和现象:
这是一个连锁反应:
1)RegionServer在遇到"Stop-The-World" GC时,会停止一切工作,这样与Zookeeper保持的心跳,就会停止。
2)Zookeeper在没有收到注册节点的心跳时,就会删除对应rs对应节点。
3)HMaster的ServerManager会发现这个RegionServer出现了问题,然后交由ServerShutdownHandler处理。
4)HMaster的SplitLogManager和RegionServer的SplitLogWorker组成Master-Slave结构,对HMaster
认定Dead的RegionServer的节点进行处理。
HLOG => {按照Region分割成不同的edits文件},具体内容可以查看:http://www.cloudera.com/blog/2012/07/hbase-log-splitting/
5)HMaster的AssignmentManager把HLog处理完成的Region分配给一个RegionServer,RegionServer在接到Open Region的请求之后,利用分割出来的edits,实现HLog Replay,将其加载到MemStore,并且flush成一个文件。
6)RegionServer上的所有Region在其它RegionServer上提供服务。
7)RegionServer FullGC结束,然后正常与HMaster进行心跳tryRegionServerReport(),后来收到了一个YouAreDeadException,接到命令后,就开始关闭各种线程,然后退出。
以上只是对HBase一个现象的描述,如果正常的情况下,这样的处理是没有问题的。但是,我们在维护的Hbase集群却出现了一个让我们很郁闷的问题。
有应用报出Get、Scan某些数据不见了,查看Region下的RegionServer报出:
DFS Read: java.io.FileNotFoundException: File does not exist: /user/hbase/hbase/OTHER/9cc2c3d381e6891d1798d2cf4fe23859/dat/48bf8d0bbdae4b8b85f66da6f81b66aa
也就是该表格下的dat数据丢失,检查了NameNode查看该文件的情况,发现该数据被原RegionServer的DFSClient删除了,是因为原RegionServer在Long FullGC之后,做了一次minor Compaction,把两个StoreFile文件合并成了一个。而在这个之前,该Region已经被一个新的RegionServer所服务着,这样这个新的RegionServer会认为没有进行Compaction,还是按照接手该Region时的情况进行读取数据,于是,悲剧就产生了。
具体描述:
出问题Region:RegionA
FullGC的RegionServer: RegionServer1
接管RegionA的RegionServer: RegionServer2
RegionServer1 --------------Full---GC------------------->compaction--(delete 原 dat/48bf***)->You Are Dead--->Exit
RegionServer2 -------------------------> 接管RegionA---->请求出错
整体上虽然数据没有丢失,但是仍然给线上系统带来一定的影响。分析了整个过程之后,预防这类问题出现应该
从如下几点入手:
1、相关参数
<property>
<name>hbase.regionserver.lease.period</name>
<value>240000</value>
<description>HRegion server lease period in milliseconds. Default is 60 seconds. Clients must report in within this period else they are considered dead.</description>
</property>
hbase.regionserver.lease.period的设置是Tradeoff,因为在HBase Client操作过程中,如果RegionServer的响应速度过慢或者出现了Long FullGC,超过了设置值,则抛出lease expired。
ps:hbase.regionserver.lease.period的设置要和hbase.rpc.timeout保持一致,最好hbase.rpc.timeout的值略大于hbase.regionserver.lease.period
<property>
<name>zookeeper.session.timeout</name>
<value>90000</value>
<description>Default 3 minutes.ZooKeeper session timeout. HBase passes this to the zk quorum as suggested maximum time for a session (This setting becomes zookeeper's 'maxSessionTimeout'). See http://hadoop.apache.org/zookeeper/docs/current/zookeeperProgrammers.html#ch_zkSessions "The client sends a requested timeout, the server responds with the timeout that it can give the client. " In milliseconds. </description>
</property>
zookeeper.session.timeout指定zk Client与zk Server Quorum之间的会话的最长时间,RegionServerTracker监听rs的znode的变化,超过session time out的值,就认定该RegionServer出错了,然后通过ServerManager的expireServer将其加入Dead RegionServer Lists中。这样等RegionServer发送心跳给HMaster时,发现该RegionServer位于Dead RegionServer Lists中,会抛出YouAreDeadException。然后,RegionServer会开始执行shutdown系统操作。
注意:这里设置的zookeeper.session.timeout与zookeeper设置的ticktime共同影响session的生存周期,一般而言,sessionTimeOut= Min(应用设置的zookeeper.session.timeout,ticktime*20)
2、tryRegionServerReport()的频率设置高一些。默认间隔时间为:
this.msgInterval = conf.getInt("hbase.regionserver.msginterval", 3 * 1000);设置成1*1000ms,可以更快地同步HMaster上RegionServer状态,尽量避免延迟阶段造成的数据不一致。注意,如果是RegionServer的个数超过200,该值不要太小,避免HMaster的压力过大。
3、在compaction删除文件时,tryRegionServerReport一下,保证没有出现已经被认定“Dead”但仍然工作的情况。在任何删除操作之前,首先report一下HMaster,检查是否已经出现YouAreDeadException,然后恢复之前的文件。
- 浏览: 361251 次
文章分类
最新评论
-
jfeifjlafekae:
另外,为什么存储日志会有拆分过程,而不是rotation方式? ...
HBASE数据架构 -
jfeifjlafekae:
“当然,数据刷写时,一个Region只要有一个列族的memSt ...
HBASE数据架构 -
hmc52107521:
你好,params.keys,params.values以及# ...
mybatis中使用map类型参数,其中key为列名,value为列值 -
zhangxiong0301:
qindongliang1922 写道AM中其它与内存相关的参 ...
(转)YARN内存配置 -
qindongliang1922:
AM中其它与内存相关的参数,还有JVM相关的参数,这些参数可以 ...
(转)YARN内存配置
发表评论
-
HBase安全及namespace操作
2015-09-18 19:37 48391、介绍 在HBase中,namespace命名空 ... -
How-to: Use HBase Bulk Loading, and Why
2015-06-26 16:46 1455Hbase对外提供随机、实时的读写访问大数据, ... -
HBase的Block Cache实现机制分析
2015-06-19 11:45 599本文结合HBase 0.94.1版本源码,对H ... -
hbase中的MSLAB
2015-06-19 10:21 1236CDH用MSLAB避免Hbas ... -
hbase优化(1)
2015-06-18 11:16 788因官方Book Performance Tuning部分章节 ... -
实时系统HBase读写优化--大量写入无障碍
2015-06-18 10:55 3917在使用hbase过程中发现在写入hbase的数据量很大时,经 ... -
hbase0.96—+版本的endpoint
2015-04-21 17:16 948HBase Coprocessor 之 endpio ... -
hbase observer
2015-04-21 10:28 1007Hbase自0.92之后开始支持 ... -
hbase block cache中的in-memory
2015-04-21 10:26 1194每load一个block到cache时,都会检查当前cache ... -
hbase0.94之后split策略
2015-04-18 15:57 848问题导读1.而在0.94版本之后,默认split策略修改为了 ... -
HBASE COPROCESSOR EndPoint实例
2015-04-18 15:26 1288问题导读:1、统计总行数,理想的方式应该是怎样?2、什么是E ... -
HBASE在QIHOO 360搜索中的应用
2015-04-07 14:10 1475【CSDN现场报道】中国IT ... -
hadoop+hbase+hive日常异常记录
2015-01-12 14:37 11291. 在hvie关联hbase创建外部表时报错: ... -
HBASE API高级特性
2014-12-22 18:17 1805一、过滤器 HBASE过滤器用来过滤数据,减少传输 ... -
HBASE 协处理器入门(转载)
2014-12-20 11:13 1036如果要统对hbase中的数据,进行某种统计,比如统计某个字段 ... -
HBASE数据架构
2014-12-17 09:38 21501、数据结构 关系数据库一般用B+树,HBA ... -
HBASE高级应用
2014-12-15 17:53 17391、行健或表设计 基本原则是尽量把查询的维度或信息 ... -
HBASE高级应用
2014-12-15 17:53 9301、行健或表设计 基本 ... -
HBASE ScannerTimeoutException 问题
2014-10-15 10:49 1247在对Hbase进行Scan的时候有时候会抛出ScannerT ... -
hbase维护(转载)
2014-10-15 10:40 716一,基本命令: 建表:create 'testt ...
相关推荐
### HBase 配置内置 ZooKeeper 的详细步骤与解析 #### 一、配置背景与目的 在 HBase 的部署环境中,ZooKeeper 起着非常重要的作用,它主要用于协调集群中的各个节点,并且管理 HBase 的元数据。通常情况下,HBase ...
Docker(Hadoop_3.3.1+HBase_2.4.16+Zookeeper_3.7.1+Hive_3.1.3 )配置文件 搭建集群环境
在大数据处理领域,Hadoop、HBase和Zookeeper是三个至关重要的组件,它们共同构建了一个高效、可扩展的数据处理和存储环境。以下是关于这些技术及其集群配置的详细知识。 首先,Hadoop是一个开源的分布式计算框架,...
Hadoop、HBase、Hive和ZooKeeper是大数据技术栈中的重要组件,它们在数据存储、处理和管理方面扮演着核心角色。了解这些组件的版本对应关系对于部署和维护大数据集群来说至关重要,因为不兼容的版本可能会导致集群...
HBase 和 ZooKeeper 配置详解 HBase 和 ZooKeeper 是两个非常重要的分布式系统组件,分别用于分布式数据库和分布式协调服务。今天,我们将详细介绍如何配置 HBase 和 ZooKeeper,以便更好地理解它们之间的交互。 ...
### Linux下Hbase和Zookeeper的安装与部署详解 #### Zookeeper 安装与配置 Zookeeper 是一款开源的分布式协调服务系统,主要用于解决分布式应用中的常见问题,例如:命名服务、状态同步服务、集群管理等。在进行...
在HBase 0.92.1版本中,它与Zookeeper 3.3.5协同工作,提供了稳定的数据存储和管理功能。 HBase的设计灵感来源于Google的Bigtable论文,它旨在处理大规模数据集,能够存储PB级别的数据,并且支持实时查询。HBase的...
hbase分布式安装(zookeeper3.4.8+hbase2.1.0).pdf
安装过程完成后,还需要根据实际需求对HBase的配置文件(如`hbase-site.xml`和`hbase-env.sh`)进行调整,比如设置HBase的内存使用、Zookeeper地址、HDFS地址等。 总的来说,HBase是一个强大的分布式数据库,尤其...
在大数据处理领域,Flume、HBase、Sqoop和ZooKeeper是四个非常重要的组件,它们各自承担着不同的角色,并且在很多情况下需要协同工作。这个整合包包含了这些组件的Linux版本,为大数据处理提供了完整的解决方案。 ...
标题 "Hadoop、HBase、Hive、Pig、Zookeeper资料整理" 涵盖了大数据处理领域中几个核心的开源项目,这些项目在分布式计算、数据存储和管理方面发挥着重要作用。以下是对这些技术的详细介绍: 1. **Hadoop**:Hadoop...
[Doker+HBASE+HADOOP+Zookeeper]全分布式环境搭建
《Hbase与Zookeeper深度解析》 在大数据领域,Hbase和Zookeeper是两个至关重要的组件,它们在分布式系统中的作用不可忽视。本篇笔记主要围绕这两个技术进行深入探讨,结合尚硅谷的视频教程资源,旨在帮助读者全面...
Spark Streaming+Flume+Kafka+HBase+Hadoop+Zookeeper实现实时日志分析统计;SpringBoot+Echarts实现数据可视化展示_SparkStream
标题 "Hadoop Zookeeper HBase集群" 涉及到的是大数据处理领域中的三个关键组件:Hadoop、Zookeeper和HBase。这三个组件在构建分布式系统中起着至关重要的作用。 首先,Hadoop是Apache软件基金会开发的一个开源框架...
在本文中,我们将深入探讨如何在CentOS-6.4 64位操作系统上配置一个基于Hadoop 2.2.0、HBase 0.96和Zookeeper 3.4.5的分布式环境。这个过程涉及到多个步骤,包括系统设置、软件安装、配置以及服务启动。 首先,为了...
大数据入门指南Hadoop,Hive,Spark,Storm,Flink,HBase,Kafka,Zookeeper,Flume。包含大数据学习路线、大数据技术栈思维导图、大数据常用软件安装指南、Hadoop、hive、spark等技术的环境搭建、命令实用、集群...
在大数据处理领域,Hadoop、HBase和Zookeeper是三个至关重要的组件,它们共同构建了高效、可扩展的数据存储和管理基础设施。以下是关于这三个技术的详细介绍以及安装部署的关键步骤。 **Hadoop** 是一个开源的...
hadoop,hbase,zookeeper安装笔记hadoop,hbase,zookeeper安装笔记hadoop,hbase,zookeeper安装笔记