HBase安装
HBase的安装也有三种模式:单机模式、伪分布模式和完全分布式模式,在这里只介绍完全分布模式。前提是Hadoop集群和Zookeeper已经安装完毕,并能正确运行。
第一步:下载安装包,解压到合适位置,并将权限分配给hadoop用户(运行hadoop的账户)
这里下载的是hbase-1.2.2,Hadoop集群使用的是2.7.2,将其解压到/usr/local下并重命名为hbase
wget http://mirror.bit.edu.cn/apache/hbase/1.2.2/hbase-1.2.2-bin.tar.gz sudo cp hbase-1.2.2-bin.tar.gz /usr/local sudo tar -zxf hbase-1.2.2-bin.tar.gz sudo mv hbase-1.2.2 hbase sudo chown -R hadoop:hadoop hbase
第二步:配置相关的文件
(1)配置hbase-env.sh,该文件在/usr/local/hbase/conf
export JAVA_HOME=/usr/local/java/jdk1.8.0_77 #Java安装路径 export HBASE_CLASSPATH=/usr/local/hadoop/conf #HBase类路径 export HBASE_MANAGES_ZK=true #由HBase负责启动和关闭Zookeeper
(2)配置hbase-site.xml,该文件位于/usr/local/hbase/conf
<property>
<name>hbase.master</name>
<value>master:6000</value>
</property>
<property>
<name>hbase.master.maxclockskew</name>
<value>180000</value>
</property>
<property>
<name>hbase.rootdir</name>
<value>hdfs://master:9000/hbase</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>master,node1,node2</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/home/hadoop/zookeeper</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
其中,hbase.master是指定运行HMaster的服务器及端口号;hbase.master.maxclockskew是用来防止HBase节点之间时间不一致造成regionserver启动失败,默认值是30000hbase.rootdir指定HBase的存储目录;hbase.cluster.distributed设置集群处于分布式模式;hbase.zookeeper.quorum设置Zookeeper节点的主机名,它的值个数必须是奇数;hbase.zookeeper.property.dataDir设置Zookeeper的目录,默认为/tmp;dfs.replication设置数据备份数,集群节点小于3时需要修改,本次试验是一个节点,所以修改为1
(3)配置regionservers,该文件位于/usr/local/hbase/conf
设置所运行HBase的机器,此文件配置和hadoop中的slaves类似,一行指定一台机器,本次试验仅用一台机器,设置master即可。
node1 node2
(4)设置HBase环境变量,文件位于/etc/profile在文件末尾添加:
#hbase Env export HBASE_HOME=/usr/local/hbase export PATH=$PATH:$HBASE_HOME/bin
使之生效:source /etc/profile
(5)修改hadoop集群及hbase集群pid文件存放位置(如果不设置话),停止hbase集群会报如下错误
stopping hbasecat: /var/hadoop/pids/hbase-hadoop-master.pid: 没有那个文件或目录
- 在集群各个节点的/var目录下创建一个文件夹
sudo mkdir -p /var/hadoop/pids chown -R hadoop:hadoop /var/hadoop
- 修改hadoop-env.sh(/usr/local/hadoop/etc/hadoop/hadoop-env.sh)
export HADOOP_PID_DIR=/var/hadoop/pids
- 修改yarn-env.sh(/usr/local/hadoop/etc/hadoop/yarn-env.sh)
export YARN_PID_DIR=/var/hadoop/pids
- 修改hbase-env.sh(/usr/local/hbase/conf/hbase-env.sh)
export HBASE_PID_DIR=/var/hadoop/pids
第三步:同步hbase到其他机器
scp -r hbase hadoop@node1:/usr/local scp -r hbase hadoop@node2:/usr/local
第四步:启动hadoop和hbase集群(启动顺序hadoop>hbase)
start-all.sh start-hbase.sh
第五步:查看pid文件(/var/hadoop/pids)
master机器
hadoop-hadoop-namenode.pid hadoop-hadoop-secondarynamenode.pid hbase-hadoop-master.pid hbase-hadoop-master.znode hbase-hadoop-zookeeper.pid yarn-hadoop-resourcemanager.pid
slave机器
hadoop-hadoop-datanode.pid hbase-hadoop-regionserver.pid hbase-hadoop-regionserver.znode hbase-hadoop-zookeeper.pid yarn-hadoop-nodemanager.pid
第六步:查看hbase运行情况
hadoop@master:/var/hadoop/pids$ jps 26499 ResourceManager 26995 HQuorumPeer 27059 HMaster 27339 Jps 26123 NameNode 26335 SecondaryNameNode hadoop@node1:/var/hadoop/pids$ jps 10678 HQuorumPeer 10775 HRegionServer 10362 DataNode 10493 NodeManager 10990 Jps
第七步:关闭hbase集群(关闭顺序hbase>hadoop)
stop-hbase.sh stop-all.sh
相关推荐
基于Docker构建的Hadoop开发测试环境,包含Hadoop,Hive,HBase,Spark+源代码+文档说明 基于Docker的Hadoop开发测试环境使用说明 ## 0.内容 1. 基本软件环境介绍 2. 使用方法简介 3. 已知问题 4. 注意事项 ## 1....
在探讨Hadoop2.7.1、HBase1.0、Hive1.2以及ZooKeeper3.4.6的安装和配置时,我们首先需要了解这些组件的基本功能以及它们在整个大数据处理框架中所扮演的角色。以下对这些知识点进行详细说明: ### Hadoop2.7.1 ...
在构建大数据处理平台时,Hadoop、Hive、Zookeeper、HBase以及Kylin是关键组件,本教程将详述如何在CentOS7系统上基于Hadoop2.7.7搭建一个分布式集群,并集成Hive1.2.2、Zookeeper3.4.14、HBase1.x和Kylin2.5.0。...
HBase是Apache Hadoop...总的来说,HBase-1.2.2的安装包为大数据处理提供了强大的基础设施,通过解压和配置这个压缩包,用户可以在Hadoop集群上搭建一个可靠的、高性能的分布式数据库,以满足各种大数据应用的需求。
HBase: 1.2.2 Zookeeper: 3.4.8 基于docker-compose管理镜像和容器,并进行集群的编排 所有软件的二进制包均通过网络下载。其中包含自行编译的Hadoop和Protobuf二进制包,保存在Github上,其它软件的二进制包均使用...
随着Hadoop的发展,许多优化和扩展技术应运而生,如HBase(分布式列式数据库)、Spark(快速数据处理框架)、Hive(数据仓库工具)等,它们与Hadoop紧密集成,提供更高效、易用的数据处理解决方案。 总结,Hadoop ...
### Hadoop环境搭建之Hive 2.1.1配置详解 #### 一、概述 在构建大数据处理环境时,Apache Hive 是一个重要的组件,它提供了SQL查询功能,使用户能够方便地对存储在Hadoop文件系统(HDFS)中的大规模数据集进行数据...
- 在搭建Hadoop集群时,需要确保所有的节点都安装了相同的JDK版本。 - 定期备份重要的配置文件和日志文件,以防数据丢失。 - 对于大数据处理任务,合理调整MapReduce作业的参数,以提高处理效率。 #### 八、附录 *...
HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。HBase 是 Google Bigtable 的开源实现,类似 Google Bigtable 利用 GFS 作为其...
HBase,全称为Hadoop Database,是一种基于Apache Hadoop生态系统的分布式、高性能、可扩展的NoSQL数据库。它专为处理大规模数据而设计,尤其适用于实时读写场景,是大数据领域的重要组件。 1.1 HBase的核心特性 ...
NameNode是Hadoop中的一个关键组件,其状态可能会影响HBase集群的性能。 #### 十一、Transwarp HBase常用工具 **4.1 分布式存储运维工具(DSTools)** DSTools是一组用于维护和管理分布式存储系统的工具。 #### ...
- 初始化HBase集群,包括创建HBase目录、启动ZooKeeper和Master节点。 - 配置HBase的region server、hbase-site.xml等核心配置文件。 3. **Hive与HBase的集成** - Hive通过HBase Storage Handler与HBase交互,...
Zookeeper 是一个开源的分布式应用程序协调服务器,作为 Hadoop 和 Hbase 的重要组件之一,在分布式环境中发挥着重要作用。它借鉴了 Google 的 Chubby 项目的理念,为开发者提供了简化复杂分布式应用开发的功能。...
台管理层:Apache HDFS, Apache YARN, Apache ZooKeeper, Cloudera Manager, Apache Oozie, Apache Hive, Apache HBase, Apache Kafka, Apache Sentry, Apache Ranger, Apache Atlas, Apache NiFi, Apache Livy, ...
Hadoop的生态系统包括许多相关项目,如HBase、Hive、Pig等,它们共同构成了一个完整的数据处理解决方案。 ### 2. Hadoop平台的安装与配置 1.2.1 **Hadoop集群的安装** - 创建虚拟机集群,安装Linux操作系统。 ...
搭建集群需要配置Hadoop的环境变量、节点间通信、数据存储等,还要确保硬件资源的合理分配。 **1.2.3 HDFS 读写流程** HDFS的读取流程通常包括客户端查找数据块位置、向NameNode请求数据、从DataNode读取数据。写入...
4. **Hive Executor**:执行MapReduce任务,与Hadoop集群交互。 5. **Hive metastore**:提供元数据服务,使Hive能访问存储在外部数据库中的表和分区信息。 在`apache-hive-1.2.2-src`中,你可以看到以下关键模块:...
系统应能适应大规模分布式计算环境,如Hadoop集群,其中Hbase作为主要的数据存储层。 1.2.3 **软件部署环境** 系统需支持与Hadoop生态紧密集成,包括HDFS、YARN等,同时兼容Java及相关的数据处理框架。 1.3 **...
Impala是一款由Cloudera开发的大数据分析引擎,它能够为存储在Hadoop分布式文件系统(HDFS)或HBase中的数据提供快速且交互式的SQL查询能力。Impala的设计目标是为了提供一种比传统Hive更快捷的查询方式,特别是对于...