`
lc_koven
  • 浏览: 353310 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

使用zookeeper管理多个hbase集群

阅读更多
    zookeeper是hbase集群的"协调器"。由于zookeeper的轻量级特性,因此我们可以将多个hbase集群共用一个zookeeper集群,以节约大量的服务器。多个hbase集群共用zookeeper集群的方法是使用同一组ip,修改不同hbase集群的"zookeeper.znode.parent"属性,让它们使用不同的根目录。比如cluster1使用/hbase-c1,cluster2使用/hbase-c2,等等。
 
    使用以上方法有一个现实的问题:如何避免各集群的相互干扰?因为client的配置权是在用户手上,并不能保证用户永远是配置正确的,那么会产生某个用户访问了不该他访问的hbase集群。此时数据安全性成了很大的问题,甚至可能出现误删除数据。我们需要在zookeeper层屏弊掉该问题。
 
    zookeeper3.x版本起自带了简单的ACL功能(注意3.3.x版本起不再支持按hostname来分配权限)。见:http://zookeeper.apache.org/doc/r3.3.2/zookeeperProgrammers.html#sc_ZooKeeperAccessControl。进行权限配置主要使用digest和ip两种方法。其中digest是用户密码方式,对用户来说使用上并不透明。ip配置最简单,对用户也是透明的,用户并不知道的情况下就能限制它的访问权限。
 
    zookeeper将访问权限分为了五类:READ/WRITE/DELETE/CREATE/ADMIN,其中admin为最高权限。zookeeper的权限是到znode级别的,限制了某一个node的权限并不能限制它的子节点权限。

    不过使用IP做权限配置方案有一个缺陷:必须指定具体的ip,而不能使用通配符或者范围一类的。这样对于大规模的权限设置是非常不方便的一件事,因此作者略调整了一下zookeeper的代码:
  IPAuthenticationProvider.java
 
/**
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

package org.apache.zookeeper.server.auth;

import org.apache.zookeeper.data.Id;
import org.apache.zookeeper.server.ServerCnxn;
import org.apache.zookeeper.KeeperException;

public class IPAuthenticationProvider implements AuthenticationProvider {

    public String getScheme() {
        return "ip";
    }

    public KeeperException.Code
        handleAuthentication(ServerCnxn cnxn, byte[] authData)
    {
        String id = cnxn.getRemoteAddress().getAddress().getHostAddress();
        cnxn.getAuthInfo().add(new Id(getScheme(), id));
        return KeeperException.Code.OK;
    }

    // This is a bit weird but we need to return the address and the number of
    // bytes (to distinguish between IPv4 and IPv6
    private byte[] addr2Bytes(String addr) {
        byte b[] = v4addr2Bytes1(addr);
        // TODO Write the v6addr2Bytes
        return b;
    }

    private byte v4addr2Bytes(String part) throws NumberFormatException{
        try {
           int v = Integer.parseInt(part);
           if (v >= 0 && v <= 255) {
                  byte  b = (byte) v;
                  return b;
                } else {
                    throw new NumberFormatException("v < 0 or v > 255!");
                }
            } catch (NumberFormatException e) {
                throw e;
            }
    }
    
    private byte[] v4addr2Bytes1(String addr) {
      String parts[] = addr.split("\\.", -1);
      if (parts.length != 4) {
          return null;
      }
      byte b[] = new byte[4];
      for (int i = 0; i < 4; i++) {
      	try {
      		if(parts[i].split("/").length == 2){
      			v4addr2Bytes(parts[i].split("/")[0]);
      			v4addr2Bytes(parts[i].split("/")[1]);
      			continue;
      		}else{
            b[i] = v4addr2Bytes(parts[i]);
      		}
      	} catch (NumberFormatException e) {
          return null;
  			}
      }
      return b;
  }
    
    public boolean matches(String id, String aclExpr) {
      String parts[] = aclExpr.split("/", 2);
      byte aclAddr[] = addr2Bytes(parts[0]);
      if (aclAddr == null) {
          return false;
      }
      byte endAclAddr[] = new byte[aclAddr.length];
      for(int i = 0; i < aclAddr.length; i ++){
      	endAclAddr[i] = aclAddr[i];
      }
      if (parts.length == 2) {
          try {
          		int end = Integer.parseInt(parts[1]);
          		int e = endAclAddr[endAclAddr.length-1]<=0?endAclAddr[endAclAddr.length-1]+256:endAclAddr[endAclAddr.length-1];
          		if(end <  e|| end < 0 || end > 255)
          			return false;
              endAclAddr[endAclAddr.length-1] = (byte)end;
          } catch (NumberFormatException e) {
              return false;
          }
      }
      byte remoteAddr[] = addr2Bytes(id);
      if (remoteAddr == null) {
          return false;
      }
      for (int i = 0; i < remoteAddr.length; i++) {
      	int r = remoteAddr[i]<=0?(int)remoteAddr[i]+256:remoteAddr[i];
      	int a = aclAddr[i]<=0?(int)aclAddr[i]+256:aclAddr[i];
      	int e = endAclAddr[i]<=0?(int)endAclAddr[i]+256:endAclAddr[i];
        if (r < a || r > e) {
          return false;
        }
      }
      return true;
  }

    public boolean isAuthenticated() {
        return false;
    }

    public boolean isValid(String id) {
        return addr2Bytes(id) != null;
    }
}

    支持了使用/做为范围标识,比如进入hbase zkcli,执行:setAcl /test ip:192.168.0.3/10:cd,则将读写权限赋给了192.168.0.3-192.168.0.10这8台机器,其它机器将没有任何权限。
    这样用同一个zookeeper管理多个集群、海量机器将不再有困扰。
    最后写了一个帮助运维同学自动化管理zookeeper集群下多个hbase集群的ACL权限的工具,像以下这样:
java -Djava.ext.dirs=libs/ -cp hbase-tools.jar dwbasis.hbase.tools.client.ZookeeperAcl aclFile.json
Usage: ZookeeperAcl acljsonfile [-plan]
/test/t ==> 'ip,'192.168.0.1
:cdrwa
/test ==> 'ip,'192.168.0.1/3
:cdrwa
/test ==> 'ip,'192.168.0.5
:cdrwa
do you really setAcl as above?(y/n)


    补充:多集群共用zk后,每个集群的启动和停止不应该影响zk的稳定。因此请配置hbase-env.sh中export HBASE_MANAGES_ZK=false
0
4
分享到:
评论
4 楼 杨俊华 2011-08-18  
杨俊华 写道
Zookeeper需要写WAL log, IO的load是比较重的。而一个40-50台的集群里面有3个Zookeeper就足够了,为什么还要多个cluster公用一个Zookeeper? zookeeper 所占用的机器不算多呀?

事实上我们团队目前测试环境有6个集群,生产环境有4个集群。如果各用3台机器,这就要30台机器,而且load都接近0,并且运维成本高。合在一起用个五节点的集群,就会比较节省了,运维也方便。更重要的是zk3.1.x版本以后多机房容灾也成了可能,可以两个机房分别布署3/2台机器[
lc_koven 写道
杨俊华 写道
Zookeeper需要写WAL log, IO的load是比较重的。而一个40-50台的集群里面有3个Zookeeper就足够了,为什么还要多个cluster公用一个Zookeeper? zookeeper 所占用的机器不算多呀?

事实上我们团队目前测试环境有6个集群,生产环境有4个集群。如果各用3台机器,这就要30台机器,而且load都接近0,并且运维成本高。合在一起用个五节点的集群,就会比较节省了,运维也方便。更重要的是zk3.1.x版本以后多机房容灾也成了可能,可以两个机房分别布署3/2台机器

/quote]

由于 Zookeeper Cluster保证Hbase的可靠性,如果Zookeeper出现故障,整个cluster就将不work,会出现Regionserver退出,读写异常等后果。如果你们4个生产环境配置一套Zookeeper,那么这套Zookeeper的问题会直接影响到4个环境。

3 楼 lc_koven 2011-08-17  
杨俊华 写道
Zookeeper需要写WAL log, IO的load是比较重的。而一个40-50台的集群里面有3个Zookeeper就足够了,为什么还要多个cluster公用一个Zookeeper? zookeeper 所占用的机器不算多呀?

事实上我们团队目前测试环境有6个集群,生产环境有4个集群。如果各用3台机器,这就要30台机器,而且load都接近0,并且运维成本高。合在一起用个五节点的集群,就会比较节省了,运维也方便。更重要的是zk3.1.x版本以后多机房容灾也成了可能,可以两个机房分别布署3/2台机器
2 楼 lc_koven 2011-08-17  
杨俊华 写道
Zookeeper需要写WAL log, IO的load是比较重的。而一个40-50台的集群里面有3个Zookeeper就足够了,为什么还要多个cluster公用一个Zookeeper? zookeeper 所占用的机器不算多呀?

zookeeper写wal log?没有啊。zookeeper集群的访问量实际中非常少。zookeeper的作用仅是监视机器状态、存储root-region-server
1 楼 杨俊华 2011-08-17  
Zookeeper需要写WAL log, IO的load是比较重的。而一个40-50台的集群里面有3个Zookeeper就足够了,为什么还要多个cluster公用一个Zookeeper? zookeeper 所占用的机器不算多呀?

相关推荐

    Hadoop Zookeeper HBase集群

    标题 "Hadoop Zookeeper HBase集群" 涉及到的是大数据处理领域中的三个关键组件:Hadoop、Zookeeper和HBase。这三个组件在构建分布式系统中起着至关重要的作用。 首先,Hadoop是Apache软件基金会开发的一个开源框架...

    大数据综合实验环境搭建(3个集群、Zookeeper、Hive、HBase)

    大数据综合实验环境搭建(3个集群、Zookeeper、Hive、HBase) 本资源摘要信息主要对大数据综合实验环境搭建进行了详细的介绍,涵盖了 JDK 的安装和配置、免密码登录的设置、Zookeeper 的安装、Hive 和 HBase 的安装...

    hadoop+zookeeper+hbase集群搭建配置说明

    在搭建HBase集群时,我们需要配置HBase的主RegionServer(Master)、RegionServer实例以及与Zookeeper的连接。此外,还要设置表和列族的属性,如块大小、缓存设置等,以优化性能。 在实际搭建过程中,首先,你需要...

    Hadoop HA高可用集群搭建(Hadoop+Zookeeper+HBase)

    Zookeeper是Hadoop HA高可用集群中的一个关键组件,负责管理和协调集群中的各个节点。安装和配置Zookeeper需要下载和解压缩Zookeeper安装包,并配置zoo.cfg文件,指定数据目录和集群主机及端口等信息。 五、安装和...

    kafka、zookeeper、hadoop、hbase、phoenix集群搭建和java调用.zip

    搭建Kafka集群时,我们需要配置多个broker节点,并设置合适的参数如`num.partitions`和`replication.factor`以保证数据的冗余和可用性。Java调用Kafka时,可以使用Kafka的Java API创建生产者和消费者,进行消息发布...

    Hbase集群部署.pdf

    总结来说,HBase集群部署涉及到多个层面的知识点,包括对HBase结构的理解、虚拟机环境的配置、JDK的安装和配置、SSH无密码登录的设置,以及HBase的配置。这些知识点不仅对于理解HBase的工作原理至关重要,而且对于...

    Hbase与zookeeper笔记备份.rar

    1. 基本概念:Zookeeper由多个节点构成的集群,每个节点称为一个Server,通过选举机制选出Leader,其余为Follower。数据模型采用树形结构,类似于文件系统,便于管理和操作。 2. 特性与应用场景: - 配置管理:...

    spark环境安装(Hadoop HA+Hbase+phoneix+kafka+flume+zookeeper+spark+scala)

    本项目旨在搭建一套完整的Spark集群环境,包括Hadoop HA(高可用)、HBase、Phoenix、Kafka、Flume、Zookeeper以及Scala等多个组件的集成。这样的环境适用于大规模的数据处理与分析任务,能够有效地支持实时数据流...

    ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用

    在Master出现故障时,HBase利用ZooKeeper的选举机制自动选出一个新的Master节点来接管集群的管理工作。 综上所述,ZooKeeper作为一种强大的分布式协调工具,在Hadoop和HBase等大数据处理框架中发挥了不可替代的作用...

    hadoop、zookeeper、hbase、spark集群配置文件

    配置HBase集群需要修改`hbase-site.xml`,其中包含HMaster、HRegionServer的地址,Zookeeper连接字符串,以及数据块大小等设置。 **Spark** 是一个快速、通用的大数据处理引擎,支持批处理、交互式查询(Spark SQL...

    Hadoop2.7.3+HBase1.2.5+ZooKeeper3.4.6 搭建分布式集群环境详解

    总结来说,搭建Hadoop2.7.3+HBase1.2.5+ZooKeeper3.4.6的分布式集群环境是一项复杂但关键的任务,它涉及多个组件的安装、配置和集成。通过这个过程,你可以掌握大数据处理的基础架构,并为后续的大数据应用开发打下...

    徐老师大数据培训Hadoop+HBase+ZooKeeper+Spark+Kafka+Scala+Ambari

    根据提供的标题、描述、标签及部分内容链接,我们可以推断出这是一个关于大数据技术栈的培训课程,涉及的技术包括Hadoop、HBase、Zookeeper、Spark、Kafka、Scala以及Ambari。下面将针对这些技术进行详细的介绍和...

    zookeeper3.4.12+hbase1.4.4+sqoop1.4.7+kafka2.10

    例如,Zookeeper需要设置多个节点以实现高可用,HBase需要与Zookeeper配合以管理集群状态,而Kafka通常会依赖Zookeeper进行集群管理和元数据存储。Sqoop的配置则涉及数据库连接信息和Hadoop的路径设置。 理解并熟练...

    Hbase与zookeeper文档

    2. **RegionServer**:实际存储和处理数据的节点,每个RegionServer可以托管多个Region,Region是HBase数据存储的基本单位。RegionServer负责数据的读写操作。 在示例中,集群由一台HMaster和两台RegionServer组成...

    Linux下Zookeeper集群的安装

    例如,在HBase中,客户端可以通过连接Zookeeper来获取必要的集群配置信息,从而实现对HBase集群的操作。 2. **名字服务** 名字服务是Zookeeper提供的一项基本功能,类似于DNS在互联网中的作用。在分布式系统中,...

    Hadoop+Zookeeper+Hbase+Hive部署.doc

    大数据平台搭建之 ...大数据平台搭建需要经过多个步骤,包括环境准备、Hadoop 安装和配置、Zookeeper 部署、Hbase 部署和 Hive 部署。通过本文档,我们可以了解大数据平台搭建的整个过程,并掌握相关的技术和经验。

    Hbase完全分布式集群搭建(详细+,看完就会,).docx

    * HRegion:HBase 的基本存储单元,包含多个 Store,Store 中包含多个 MemStore 和 StoreFile。 二、HBase 组件 HBase 的组件包括: * HMaster * RegionServer * ZooKeeper * HRegion * Store * MemStore * ...

    hbase集群搭建(自整)

    本文将详述如何在多节点环境中搭建一个HBase集群,包括单机部署和集群部署的步骤。 首先,我们从单机部署开始。在Linux环境下,你需要下载HBase的安装包,例如hbase-0.98.17-hadoop2,并通过`tar -zxvf hbase-0.98....

    hbase-0.92.1+zookeeper

    每个表被分为多个Region,Region由RegionServer管理,如果RegionServer出现故障,Zookeeper会帮助重新分配Region,保证服务不中断。 4. **列族存储**:HBase以列族为单位存储数据,每个列族包含一组相关的列。这种...

Global site tag (gtag.js) - Google Analytics