一、安装环境:
至少两台linux主机,假设两台机器的登录用户名都为hbase,并且IP分配如下:
192.168.7.85 master机器
192.168.7.72 slave机器
集群的每台机器需要安装如下软件:
1.ubuntu linux
2. jdk6.0或以上版本
$ apt-get install openjdk-6-jdk openjdk-6-jre
3.ssh
$ sudo apt-get install ssh
$ sudo apt-get install rsync
4.hadoop
下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common/
5.hbase
下载地址:http://www.apache.org/dyn/closer.cgi/hbase/
二、集群配置
1.配置linux环境
在使用HBase的时候,通常需要访问很多文件和开很多进程,因此需要在linux中提高相应用户的访问上限值,通过如下方式配置:
首先修改/etc/security/limits.conf配置文件,加入如下配置信息:
hbase - nofile 32768
hbase soft nproc 32000
hbase hard nproc 32000
其中hbase为用户名
然后,修改/etc/pam.d/common-session配置文件,加入如下配置信息:
session requiredpam_limits.so
重启机器,确保新环境生效
2.ssh配置
配置master机器对每台slave机器的passwordless登录环境
首先,在master机器的用户主目录下,通过如下命令来生成证书文件authorized_keys
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
然后,将证书文件复制到其他机器的用户主目录下
$scp /home/hbase/.ssh authorized_keys hbase@slave01:/home/hbase/.ssh/authorized_keys
3. Hadoop配置
1.参考Nutch+Hadoop集群配置中hadoop的搭建
2除此之外,还需在conf/hdfs-site.xml文件中配置如下属性:
<property>
<name>dfs.support.append</name>
<value>true</value>
</property>
如不指定,在使用HDFS存储的时候,HBase可能会遗失数据
<property>
<name>dfs.datanode.max.xcievers</name>
<value>4096</value>
</property>
设置datanode可对外提供服务的文件数量的上限
3将${HBASE_HOME}/lib目录下的hadoop-*.jar文件替换成Hadoop环境中的相应jar文件,以解决Hadoop版本冲突问题。
注:替换掉hadoop包之后,可能还需要向${HBASE_HOME}/lib目录中引入额外的第三方jar包,以确保hadoop-*.jar的顺利编译,如:commons-configuration-*.jar,同样可从hadoop环境中拷贝。
4.HBase配置
4.1 cong/hbase-env.sh配置文件
至少设置以下环境变量
export JAVA_HOME=/PATH/TO/JDK_HOME
4.2conf/hbase-site.xml配置文件
<configuration>
<property>
<name>dfs.support.append</name>
<value>true</value>
<description>确保再使用HDFS存储时,不出现数据遗失</description>
</property>
<property>
<name>hbase.rootdir</name>
<value>hdfs://master:9000/hbase</value>
<description>hbase的存储根路径</description>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
<description>是否采用集群方式部署</description>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>slave01</value>
<description>zookeeper的server地址,多台机器用逗号隔开</description>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/home/hbase/zookeeper</value>
<description>zookeeper的数据存储目录</description>
</property>
</configuration>
注:zookeeper默认由hbase集成的方式部署,如果要想独立部署,需要在hbase-env.sh文件中,将HBASE_MANAGES_ZK设置成false
4.3conf/regionservers配置文件
配置RegionServer机器,类似于Hadoop中的slaves配置文件,添加相应的机器ip,这里为
192.168.7.72
三、启动集群环境
1.首先启动hadoop的hdfs子进程,在${HADOOP_HOME}目录下
bin/start-dfs.sh
hadoop的其他进程暂不需要
2.启动Hbase,在${HBASE_HOME}目录下
bin/start-hbase.sh
3.判断是否启动成功
http://master:60010 查看MasteServer界面
http://slave:60030 查看RegionServer界面
4.停止Hbase
bin/stop-hbase.sh
5.停止hadoop
bin/stop-dfs.sh
http://blog.csdn.net/javaman_chen/article/details/7191669
相关推荐
Hadoop+HBase集群搭建详细手册 本文将详细介绍如何搭建Hadoop+HBase集群,包括前提准备、机器集群结构分布、硬件环境、软件准备、操作步骤等。 一、前提准备 在搭建Hadoop+HBase集群之前,需要准备以下几个组件:...
在本文中,我们将深入探讨如何搭建一个Zookeeper和HBase集群,以及在过程中可能遇到的常见问题和解决方案。Zookeeper和HBase都是大数据处理领域的关键组件,Zookeeper作为一个分布式协调服务,而HBase是一个基于...
《HBase集群搭建详解》 HBase,作为Apache的一个分布式列式存储系统,是构建大规模大数据处理的关键组件。本文将详述如何在多节点环境中搭建一个HBase集群,包括单机部署和集群部署的步骤。 首先,我们从单机部署...
新手Hadoop_hbase集群搭建,3台服务器节点Centos7,Hadoop2.7.4,HBase1.3.1,jdk8,zookpeer3.4.10 安装包也将上传,亲手搭建编写文档
### Hadoop+Zookeeper+Hbase集群搭建知识点详解 #### 一、安装环境要求 **1.1 HBase与JDK兼容性** - **Apache HBase** 的版本选择需考虑其与 Java Development Kit (JDK) 的兼容性。具体而言: - Apache HBase ...
### HBase集群搭建详解 #### 一、概述 HBase是一个分布式的、面向列的开源数据库,基于Google的Bigtable模型构建。它适用于实时数据处理,支持海量数据存储。本文将详细介绍如何搭建一个HBase集群,包括单机模式到...
搭建hbase集群的详细操作;搭建hbase集群的详细操作;
11.hbase集群搭建--及其各种机制的观察--hdfs中的目录--zookeeper中的状态数据.mp4
以下是对这三个组件及其在集群搭建中的配置说明的详细阐述。 1. Hadoop:Hadoop是Apache软件基金会的一个开源项目,主要负责大数据的分布式存储和计算。它由两个主要部分组成:HDFS(Hadoop Distributed File ...
搭建HBase详细的步骤,是份非常好的材料
5. **集群搭建**: - 将上述所有组件安装在每台服务器上,包括Master和Slave节点。 - 调整各组件的配置文件,确保集群通信正常。 - 分别启动Hadoop、HBase、Spark和Hive的服务,测试它们之间的交互和数据流动。 ...
集群搭建配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase-env.sh export JAVA_HOME=/usr/local/jdk1.6.0_45 //告诉...
hadoop+spark+hive Linux centos大数据集群搭建,简单易懂,从0到1搭建大数据集群
Hadoop HA高可用集群搭建(Hadoop+Zookeeper+HBase) 一、Hadoop HA高可用集群概述 在大数据处理中,高可用集群是非常重要的,Hadoop HA高可用集群可以提供高可靠性和高可用性,确保数据处理不中断。该集群由...
### 基于Hadoop集群搭建HBase集群详解 #### 一、引言 随着大数据技术的迅猛发展,海量数据的高效存储与处理成为企业关注的重点。Hadoop作为一款能够处理大量数据的基础框架,被广泛应用于各类场景之中。然而,在...
三、集群搭建 #### 3.1 下载并解压 下载并解压HBase的安装包,例如CDH版本的HBase。 #### 3.2 配置环境变量 添加环境变量,使得配置的环境变量立即生效。 #### 3.3 集群配置 进入${HBASE_HOME}/conf目录下,...
安装HBase时,需要配置包括hbase-env.sh、hbase-site.xml和regionserver在内的多个配置文件,以设定集群的相关参数。 总体来说,HBase提供了一个高度可扩展、高性能、面向列的存储解决方案,特别适用于大数据分析和...
HBase 完全分布式集群搭建 HBase 是一个基于 Hadoop 的分布式 Nosql 数据库,可以提供高性能、可靠的数据存储和查询服务。为了搭建一个完全分布式的 HBase 集群,我们需要了解 HBase 的架构、组件和配置。 一、...