`
fengshulin
  • 浏览: 41810 次
社区版块
存档分类
最新评论

Hbase1.2.2集群+Hadoop集群搭建

 
阅读更多

HBase安装

HBase的安装也有三种模式:单机模式、伪分布模式和完全分布式模式,在这里只介绍完全分布模式。前提是Hadoop集群和Zookeeper已经安装完毕,并能正确运行。 


第一步:下载安装包,解压到合适位置,并将权限分配给hadoop用户(运行hadoop的账户)
这里下载的是hbase-1.2.2,Hadoop集群使用的是2.7.2,将其解压到/usr/local下并重命名为hbase

wget http://mirror.bit.edu.cn/apache/hbase/1.2.2/hbase-1.2.2-bin.tar.gz
sudo cp hbase-1.2.2-bin.tar.gz /usr/local
sudo tar -zxf hbase-1.2.2-bin.tar.gz
sudo mv hbase-1.2.2 hbase
sudo chown -R hadoop:hadoop hbase

 

 第二步:配置相关的文件
(1)配置hbase-env.sh,该文件在/usr/local/hbase/conf

export JAVA_HOME=/usr/local/java/jdk1.8.0_77    #Java安装路径
export HBASE_CLASSPATH=/usr/local/hadoop/conf    #HBase类路径
export HBASE_MANAGES_ZK=true    #由HBase负责启动和关闭Zookeeper

 (2)配置hbase-site.xml,该文件位于/usr/local/hbase/conf 

   <property>
           <name>hbase.master</name>
           <value>master:6000</value>
   </property>
   <property>
           <name>hbase.master.maxclockskew</name>
           <value>180000</value>
   </property>
   <property>
           <name>hbase.rootdir</name>
           <value>hdfs://master:9000/hbase</value>
   </property>
   <property>
           <name>hbase.cluster.distributed</name>
           <value>true</value>
   </property>
   <property>
           <name>hbase.zookeeper.quorum</name>
           <value>master,node1,node2</value>
   </property>
   <property>
           <name>hbase.zookeeper.property.dataDir</name>
           <value>/home/hadoop/zookeeper</value>
   </property>
   <property>
           <name>dfs.replication</name>
           <value>1</value>
   </property>
 其中,hbase.master是指定运行HMaster的服务器及端口号;hbase.master.maxclockskew是用来防止HBase节点之间时间不一致造成regionserver启动失败,默认值是30000hbase.rootdir指定HBase的存储目录;hbase.cluster.distributed设置集群处于分布式模式;hbase.zookeeper.quorum设置Zookeeper节点的主机名,它的值个数必须是奇数;hbase.zookeeper.property.dataDir设置Zookeeper的目录,默认为/tmp;dfs.replication设置数据备份数,集群节点小于3时需要修改,本次试验是一个节点,所以修改为1
(3)配置regionservers,该文件位于/usr/local/hbase/conf

设置所运行HBase的机器,此文件配置和hadoop中的slaves类似,一行指定一台机器,本次试验仅用一台机器,设置master即可。

node1
node2

 (4)设置HBase环境变量,文件位于/etc/profile在文件末尾添加:  

#hbase Env
export HBASE_HOME=/usr/local/hbase
export PATH=$PATH:$HBASE_HOME/bin

 使之生效:source /etc/profile

 

(5)修改hadoop集群及hbase集群pid文件存放位置(如果不设置话),停止hbase集群会报如下错误 

stopping hbasecat: /var/hadoop/pids/hbase-hadoop-master.pid: 没有那个文件或目录

 

  1. 在集群各个节点的/var目录下创建一个文件夹  
    sudo mkdir -p /var/hadoop/pids chown -R hadoop:hadoop /var/hadoop
  2. 修改hadoop-env.sh(/usr/local/hadoop/etc/hadoop/hadoop-env.sh)
    export HADOOP_PID_DIR=/var/hadoop/pids 
  3. 修改yarn-env.sh(/usr/local/hadoop/etc/hadoop/yarn-env.sh)
    export YARN_PID_DIR=/var/hadoop/pids
  4. 修改hbase-env.sh(/usr/local/hbase/conf/hbase-env.sh)
    export HBASE_PID_DIR=/var/hadoop/pids 

第三步:同步hbase到其他机器 

scp -r hbase hadoop@node1:/usr/local
scp -r hbase hadoop@node2:/usr/local

   

第四步:启动hadoop和hbase集群(启动顺序hadoop>hbase)

start-all.sh
start-hbase.sh

第五步:查看pid文件(/var/hadoop/pids) 

master机器 

hadoop-hadoop-namenode.pid  hadoop-hadoop-secondarynamenode.pid  
hbase-hadoop-master.pid hbase-hadoop-master.znode  
hbase-hadoop-zookeeper.pid  yarn-hadoop-resourcemanager.pid

 slave机器

hadoop-hadoop-datanode.pid  hbase-hadoop-regionserver.pid  
hbase-hadoop-regionserver.znode  hbase-hadoop-zookeeper.pid  
yarn-hadoop-nodemanager.pid

第六步:查看hbase运行情况 

hadoop@master:/var/hadoop/pids$ jps
26499 ResourceManager
26995 HQuorumPeer
27059 HMaster
27339 Jps
26123 NameNode
26335 SecondaryNameNode

hadoop@node1:/var/hadoop/pids$ jps
10678 HQuorumPeer
10775 HRegionServer
10362 DataNode
10493 NodeManager
10990 Jps

第七步:关闭hbase集群(关闭顺序hbase>hadoop)

stop-hbase.sh
stop-all.sh

 

分享到:
评论

相关推荐

    基于Docker构建的Hadoop开发测试环境,包含Hadoop,Hive,HBase,Spark+源代码+文档说明

    基于Docker构建的Hadoop开发测试环境,包含Hadoop,Hive,HBase,Spark+源代码+文档说明 基于Docker的Hadoop开发测试环境使用说明 ## 0.内容 1. 基本软件环境介绍 2. 使用方法简介 3. 已知问题 4. 注意事项 ## 1....

    hadoop2.7+hbase1.0+hive1.2+zookeeper3.4.6

    在探讨Hadoop2.7.1、HBase1.0、Hive1.2以及ZooKeeper3.4.6的安装和配置时,我们首先需要了解这些组件的基本功能以及它们在整个大数据处理框架中所扮演的角色。以下对这些知识点进行详细说明: ### Hadoop2.7.1 ...

    基于CentOS7的Hadoop2.7.7集群部署+Hive+Zookeeper+hbase1.x+kylin2.5.0.doc

    在构建大数据处理平台时,Hadoop、Hive、Zookeeper、HBase以及Kylin是关键组件,本教程将详述如何在CentOS7系统上基于Hadoop2.7.7搭建一个分布式集群,并集成Hive1.2.2、Zookeeper3.4.14、HBase1.x和Kylin2.5.0。...

    hbase-1.2.2-bin.tar.gz

    HBase是Apache Hadoop...总的来说,HBase-1.2.2的安装包为大数据处理提供了强大的基础设施,通过解压和配置这个压缩包,用户可以在Hadoop集群上搭建一个可靠的、高性能的分布式数据库,以满足各种大数据应用的需求。

    基于Docker构建的Hadoop开发测试环境,包含Hadoop,Hive,HBase,Spark

    HBase: 1.2.2 Zookeeper: 3.4.8 基于docker-compose管理镜像和容器,并进行集群的编排 所有软件的二进制包均通过网络下载。其中包含自行编译的Hadoop和Protobuf二进制包,保存在Github上,其它软件的二进制包均使用...

    关于hadoop设计模式,基于hadoop1.2.2.zip

    随着Hadoop的发展,许多优化和扩展技术应运而生,如HBase(分布式列式数据库)、Spark(快速数据处理框架)、Hive(数据仓库工具)等,它们与Hadoop紧密集成,提供更高效、易用的数据处理解决方案。 总结,Hadoop ...

    第7集-Hadoop环境搭建 - linux(centos7) - 安装配置hive2.1.1.pdf

    ### Hadoop环境搭建之Hive 2.1.1配置详解 #### 一、概述 在构建大数据处理环境时,Apache Hive 是一个重要的组件,它提供了SQL查询功能,使用户能够方便地对存储在Hadoop文件系统(HDFS)中的大规模数据集进行数据...

    hadoop 笔记

    - 在搭建Hadoop集群时,需要确保所有的节点都安装了相同的JDK版本。 - 定期备份重要的配置文件和日志文件,以防数据丢失。 - 对于大数据处理任务,合理调整MapReduce作业的参数,以提高处理效率。 #### 八、附录 *...

    Hadoop作业.docx

    HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。HBase 是 Google Bigtable 的开源实现,类似 Google Bigtable 利用 GFS 作为其...

    5大数据技术之HBase.doc

    HBase,全称为Hadoop Database,是一种基于Apache Hadoop生态系统的分布式、高性能、可扩展的NoSQL数据库。它专为处理大规模数据而设计,尤其适用于实时读写场景,是大数据领域的重要组件。 1.1 HBase的核心特性 ...

    hbase运维手册

    NameNode是Hadoop中的一个关键组件,其状态可能会影响HBase集群的性能。 #### 十一、Transwarp HBase常用工具 **4.1 分布式存储运维工具(DSTools)** DSTools是一组用于维护和管理分布式存储系统的工具。 #### ...

    hive和HBASE.zip

    - 初始化HBase集群,包括创建HBase目录、启动ZooKeeper和Master节点。 - 配置HBase的region server、hbase-site.xml等核心配置文件。 3. **Hive与HBase的集成** - Hive通过HBase Storage Handler与HBase交互,...

    zookeeper集群搭建

    Zookeeper 是一个开源的分布式应用程序协调服务器,作为 Hadoop 和 Hbase 的重要组件之一,在分布式环境中发挥着重要作用。它借鉴了 Google 的 Chubby 项目的理念,为开发者提供了简化复杂分布式应用开发的功能。...

    Hadoop大数据平台-建设要求及应答方案.docx

    台管理层:Apache HDFS, Apache YARN, Apache ZooKeeper, Cloudera Manager, Apache Oozie, Apache Hive, Apache HBase, Apache Kafka, Apache Sentry, Apache Ranger, Apache Atlas, Apache NiFi, Apache Livy, ...

    大数据技术基础期末报告.docx

    Hadoop的生态系统包括许多相关项目,如HBase、Hive、Pig等,它们共同构成了一个完整的数据处理解决方案。 ### 2. Hadoop平台的安装与配置 1.2.1 **Hadoop集群的安装** - 创建虚拟机集群,安装Linux操作系统。 ...

    大数据技术之高频面试题

    搭建集群需要配置Hadoop的环境变量、节点间通信、数据存储等,还要确保硬件资源的合理分配。 **1.2.3 HDFS 读写流程** HDFS的读取流程通常包括客户端查找数据块位置、向NameNode请求数据、从DataNode读取数据。写入...

    apache-hive-1.2.2-src:蜂巢源代码学习-apache source code

    4. **Hive Executor**:执行MapReduce任务,与Hadoop集群交互。 5. **Hive metastore**:提供元数据服务,使Hive能访问存储在外部数据库中的表和分区信息。 在`apache-hive-1.2.2-src`中,你可以看到以下关键模块:...

    大数据脱敏脱需求文档v02.doc

    系统应能适应大规模分布式计算环境,如Hadoop集群,其中Hbase作为主要的数据存储层。 1.2.3 **软件部署环境** 系统需支持与Hadoop生态紧密集成,包括HDFS、YARN等,同时兼容Java及相关的数据处理框架。 1.3 **...

    Impala用户指南

    Impala是一款由Cloudera开发的大数据分析引擎,它能够为存储在Hadoop分布式文件系统(HDFS)或HBase中的数据提供快速且交互式的SQL查询能力。Impala的设计目标是为了提供一种比传统Hive更快捷的查询方式,特别是对于...

Global site tag (gtag.js) - Google Analytics