(1)hadoop2.7.1源码编译 | http://aperise.iteye.com/blog/2246856 |
(2)hadoop2.7.1安装准备 | http://aperise.iteye.com/blog/2253544 |
(3)1.x和2.x都支持的集群安装 | http://aperise.iteye.com/blog/2245547 |
(4)hbase安装准备 | http://aperise.iteye.com/blog/2254451 |
(5)hbase安装 | http://aperise.iteye.com/blog/2254460 |
(6)snappy安装 | http://aperise.iteye.com/blog/2254487 |
(7)hbase性能优化 | http://aperise.iteye.com/blog/2282670 |
(8)雅虎YCSBC测试hbase性能测试 | http://aperise.iteye.com/blog/2248863 |
(9)spring-hadoop实战 | http://aperise.iteye.com/blog/2254491 |
(10)基于ZK的Hadoop HA集群安装 | http://aperise.iteye.com/blog/2305809 |
1.hadoop环境安装
hbase是建立在Hadoop之上的一个NOSQL列存储数据库,所以你得首先安装Hadoop,安装Hadoop参见http://aperise.iteye.com/blog/2245547
2.zookeeper3.4.6集群安装
1,hbase regionserver 向zookeeper注册,提供hbase regionserver状态信息(是否在线)
2,hmaster启动时候会将hbase 系统表-ROOT- 加载到 zookeeper cluster,通过zookeeper cluster可以获取当前系统表.META.的存储所对应的regionserver信息。
3.zookeeper集群节点最少3台,这样才能满足选举规则,少数服从多数
1) 下载解压
下载zookeeper-3.4.6.tar.gz到/opt
解压tar -zxvf zookeeper-3.4.6.tar.gz
2) 配置/etc/hosts
# that require network functionality will fail.
127.0.0.1 localhost.localdomain localhost
::1 localhost6.localdomain6 localhost6
192.168.186.234 inddb1-vip
192.168.186.235 inddb2-vip
192.168.88.22 nmsc2
192.168.88.21 nmsc1
192.168.181.66 nmsc0
3) 创建zookeeper数据文件
#zookeeper每台机器上都要创建
sudo rm -r /home/hadoop/zookeeper
cd /home/hadoop
mkdir zookeeper
4) 配置zoo.cfg
将zookeeper-3.3.4/conf目录下面的 zoo_sample.cfg复制一份为zoo.cfg,配置文件内容如下所示
tickTime=2000
# The number of ticks that the initial
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just
# example sakes.
dataDir=/home/hadoop/zookeeper
# the port at which the clients will connect
clientPort=2181
# the maximum number of client connections.
# increase this if you need to handle more clients
#maxClientCnxns=60
#
# Be sure to read the maintenance section of the
# administrator guide before turning on autopurge.
#
# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
# The number of snapshots to retain in dataDir
#数据文件保存最近的3个快照,默认是都保存,时间长的话会占用很大磁盘空间
# Purge task interval in hours
# Set to "0" to disable auto purge feature
#单位为小时,每小时清理一次快照数据
server.1=nmsc0:2888:3888
server.2=nmsc1:2888:3888
server.3=nmsc2:2888:3888
5) 远程复制分发安装文件到其它zookeeper集群节点
scp -r /opt/zookeeper-3.3.4 root@nmsc1:/opt/
scp -r /opt/zookeeper-3.3.4 root@nmsc2:/opt/
6) 设置myid必须为整数
#zookeeper集群节点之一
ssh nmsc0
echo "1" > /home/hadoop/zookeeper/myid
##zookeeper集群节点之二
ssh nmsc1
echo "2" > /home/hadoop/zookeeper/myid
##zookeeper集群节点之三
ssh nmsc2
echo "3" > /home/hadoop/zookeeper/myid
7) 启动ZooKeeper集群
cd /opt/zookeeper-3.4.6
bin/zkServer.sh start
8) 查看单机ZooKeeper是leader还是follower
cd /opt/zookeeper-3.4.6
bin/zkServer.sh status
9) 停止ZooKeeper集群
cd /opt/zookeeper-3.4.6
bin/zkServer.sh stop
10) 用客户端查看zookeeper上数据
客户端链接zookeeper服务端
cd /opt/zookeeper-3.4.6/ bin/zkCli.sh -server nmsc0:2181,nmsc2:2181,nmsc1:2181
登录后提示信息如下:
[root@nmsc1 bin]# ./zkCli.sh -server nmsc0:2181,nmsc2:2181,nmsc1:2181 Connecting to nmsc0:2181,nmsc2:2181,nmsc1:2181 2016-04-19 10:36:20,475 [myid:] - INFO [main:Environment@100] - Client environment:zookeeper.version=3.4.6-1569965, built on 02/20/2014 09:09 GMT 2016-04-19 10:36:20,479 [myid:] - INFO [main:Environment@100] - Client environment:host.name=nmsc1 2016-04-19 10:36:20,479 [myid:] - INFO [main:Environment@100] - Client environment:java.version=1.7.0_65 2016-04-19 10:36:20,481 [myid:] - INFO [main:Environment@100] - Client environment:java.vendor=Oracle Corporation 2016-04-19 10:36:20,481 [myid:] - INFO [main:Environment@100] - Client environment:java.home=/opt/java/jdk1.7.0_65/jre 2016-04-19 10:36:20,481 [myid:] - INFO [main:Environment@100] - Client environment:java.class.path=/opt/zookeeper-3.4.6/bin/../build/classes:/opt/zookeeper-3.4.6/bin/../build/lib/*.jar:/opt/zookeeper-3.4.6/bin/../lib/slf4j-log4j12-1.6.1.jar:/opt/zookeeper-3.4.6/bin/../lib/slf4j-api-1.6.1.jar:/opt/zookeeper-3.4.6/bin/../lib/netty-3.7.0.Final.jar:/opt/zookeeper-3.4.6/bin/../lib/log4j-1.2.16.jar:/opt/zookeeper-3.4.6/bin/../lib/jline-0.9.94.jar:/opt/zookeeper-3.4.6/bin/../zookeeper-3.4.6.jar:/opt/zookeeper-3.4.6/bin/../src/java/lib/*.jar:/opt/zookeeper-3.4.6/bin/../conf:.:/opt/java/jdk1.7.0_65/jre/lib/rt.jar:/opt/java/jdk1.7.0_65/lib/dt.jar:/opt/java/jdk1.7.0_65/lib/tools.jar 2016-04-19 10:36:20,481 [myid:] - INFO [main:Environment@100] - Client environment:java.library.path=:/opt/jprofiler7/bin/linux-x64:/usr/java/packages/lib/amd64:/usr/lib64:/lib64:/lib:/usr/lib 2016-04-19 10:36:20,481 [myid:] - INFO [main:Environment@100] - Client environment:java.io.tmpdir=/tmp 2016-04-19 10:36:20,482 [myid:] - INFO [main:Environment@100] - Client environment:java.compiler=<NA> 2016-04-19 10:36:20,482 [myid:] - INFO [main:Environment@100] - Client environment:os.name=Linux 2016-04-19 10:36:20,482 [myid:] - INFO [main:Environment@100] - Client environment:os.arch=amd64 2016-04-19 10:36:20,482 [myid:] - INFO [main:Environment@100] - Client environment:os.version=2.6.18-308.el5 2016-04-19 10:36:20,482 [myid:] - INFO [main:Environment@100] - Client environment:user.name=root 2016-04-19 10:36:20,482 [myid:] - INFO [main:Environment@100] - Client environment:user.home=/root 2016-04-19 10:36:20,482 [myid:] - INFO [main:Environment@100] - Client environment:user.dir=/opt/zookeeper-3.4.6/bin 2016-04-19 10:36:20,484 [myid:] - INFO [main:ZooKeeper@438] - Initiating client connection, connectString=nmsc0:2181,nmsc2:2181,nmsc1:2181 sessionTimeout=30000 watcher=org.apache.zookeeper.ZooKeeperMain$MyWatcher@8a61d64 Welcome to ZooKeeper! 2016-04-19 10:36:20,511 [myid:] - INFO [main-SendThread(nmsc2:2181):ClientCnxn$SendThread@975] - Opening socket connection to server nmsc2/192.168.88.22:2181. Will not attempt to authenticate using SASL (unknown error) 2016-04-19 10:36:20,515 [myid:] - INFO [main-SendThread(nmsc2:2181):ClientCnxn$SendThread@852] - Socket connection established to nmsc2/192.168.88.22:2181, initiating session JLine support is enabled 2016-04-19 10:36:20,528 [myid:] - INFO [main-SendThread(nmsc2:2181):ClientCnxn$SendThread@1235] - Session establishment complete on server nmsc2/192.168.88.22:2181, sessionid = 0x353a8f6e9547a07, negotiated timeout = 30000 WATCHER:: WatchedEvent state:SyncConnected type:None path:null
查看根目录下数据节点
[zk: nmsc0:2181,nmsc2:2181,nmsc1:2181(CONNECTED) 0] ls / [isr_change_notification, hbase, zookeeper, admin, consumers, config, controller, kafka-manager, brokers, controller_epoch] [zk: nmsc0:2181,nmsc2:2181,nmsc1:2181(CONNECTED) 1] ls /controller [] [zk: nmsc0:2181,nmsc2:2181,nmsc1:2181(CONNECTED) 2] ls /hbase [meta-region-server, backup-masters, table, draining, region-in-transition, table-lock, running, master, namespace, hbaseid, online-snapshot, replication, splitWAL, recovering-regions, rs, flush-table-proc] [zk: nmsc0:2181,nmsc2:2181,nmsc1:2181(CONNECTED) 3] ls /zookeeper [quota] [zk: nmsc0:2181,nmsc2:2181,nmsc1:2181(CONNECTED) 4] ls /brokers [seqid, topics, ids] [zk: nmsc0:2181,nmsc2:2181,nmsc1:2181(CONNECTED) 5] ls /brokers/topics [signal2015, __consumer_offsets] [zk: nmsc0:2181,nmsc2:2181,nmsc1:2181(CONNECTED) 6] ls /brokers/topics/signal2015 [partitions] [zk: nmsc0:2181,nmsc2:2181,nmsc1:2181(CONNECTED) 7]
3.时间同步
注意:集群中机器时间同步很关键,时间最好相差在1秒以下,不然hbase启动会失败
方法一
安装NTP服务,参见http://wenku.baidu.com/link?url=0outiNUpCi-RzCtmWCKgqyVE0S_hyEcc3cjfbes_XHtxDN4wCh3-TXAe8YrtW1iOudzloNbMRMFe6niTS_uODhWEdPjD7MEwimib1a02FVm
方法二
我这是公司内部有时间同步的机器,直接从该机器同步数据,执行命令如下:
#从机器192.168.162.23同步系统时间,可以采用linux定时任务每天凌晨执行一次
ntpdate -u 192.168.162.23
相关推荐
本篇将详细阐述如何在Hadoop 2.7.1环境下搭建HBase 1.2.1集群,并进行性能优化,以提升系统效率。 首先,我们需要了解Hadoop和HBase的基本概念。Hadoop是基于分布式文件系统HDFS(Hadoop Distributed File System)...
本压缩包提供了这些组件的安装部署资源,便于快速搭建一个完整的Hadoop2.7.1、ZK3.5、HBase2.1和Phoenix5.1.0的基础环境。 首先,Hadoop是Apache开源项目,它提供了分布式文件系统(HDFS)和MapReduce计算框架,...
标题 "hadoop2.7.1+hbase2.1.4+zookeeper3.6.2.rar" 提供的信息表明这是一个包含Hadoop 2.7.1、HBase 2.1.4和ZooKeeper 3.6.2的软件集合。这个压缩包可能包含了这些分布式系统的安装文件、配置文件、文档以及其他...
### Hadoop2.7.1 + HBase1.3.5 在 CentOS6.5 虚拟机环境下的安装配置指南 #### 准备工作 为了确保 Hadoop 和 HBase 的顺利安装,需要提前做好一系列准备工作,包括安装 VMware、设置虚拟机、配置 CentOS 操作系统等...
与Hadoop 2.7.1一同提及的还有hive-1.2.1,Hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。在Hive 1.2.1中,可能包含的改进有: 1. 性能优化,包括更快的查询执行...
在探讨Hadoop2.7.1、HBase1.0、Hive1.2以及ZooKeeper3.4.6的安装和配置时,我们首先需要了解这些组件的基本功能以及它们在整个大数据处理框架中所扮演的角色。以下对这些知识点进行详细说明: ### Hadoop2.7.1 ...
本文将深入探讨Hadoop Common 2.7.1与HBase 2.0.0之间的关系,以及在Windows环境下如何正确安装和配置这两个组件。 Hadoop是Apache软件基金会开发的一个开源框架,主要用于处理和存储大规模数据集。Hadoop Common是...
10. **安装与部署**:安装Hadoop 2.7.1通常涉及解压`hadoop-2.7.1.tar.gz`,配置环境变量,格式化HDFS,启动守护进程等步骤。集群部署还需要考虑节点间的通信和数据同步。 综上所述,Hadoop 2.7.1是一个强大的大...
在Hadoop2.7.1中,引入了YARN(Yet Another Resource Negotiator),它作为资源管理器,负责调度集群中的计算资源,提高了系统的资源利用率和任务调度效率。YARN将原本由JobTracker承担的任务调度和资源管理职责分离...
总之,Hadoop2.7.1安装包提供了在Linux和Windows环境下运行Hadoop所需的一切,让开发者和数据分析师能够利用分布式计算能力处理大规模数据。无论是学习Hadoop基础知识,还是在生产环境中部署大数据解决方案,这个...
在Windows环境下安装和配置Hadoop2.7.1和Spark2.0.0+时,确保正确放置hadoop.dll和winutils.exe文件,并配置相应的环境变量,是成功运行Spark作业的必要步骤。用户还需要注意Java环境的配置,因为Hadoop和Spark都是...
Hadoop 2.7.1 是一个重要的版本,在大数据处理领域具有广泛的影响力。这个版本包含了Hadoop的核心组件,包括HDFS(Hadoop Distributed File System)和MapReduce,这两个组件是Hadoop生态系统的基础。HDFS提供了...
Hadoop 2.7.1 是 Apache 基金会发布的一个开源分布式计算框架,它在大数据处理领域扮演着至关重要的角色。...通过持续的改进和优化,Hadoop 2.7.1 为用户提供了更加灵活、高效和可靠的分布式计算环境。
这个名为“hadoop-2.7.1.tar.gz.zip”的文件包含了Hadoop的2.7.1版本,这是一个非常重要的里程碑,因为它包含了对Hadoop生态系统的许多改进和修复。 首先,我们要明白文件的结构。这是一个压缩文件,最外层是.zip...
【Hadoop 2.7.1 安装详解】 在大数据处理领域,Hadoop 是一个不可或缺的开源框架,主要用于分布式存储和计算。本篇将详细阐述如何在 CentOS 6.4 系统上安装 Hadoop 2.7.1。 **一、准备工作** 1. **获取安装包** ...
8. **生态系统**:Hadoop 2.7.1 还兼容众多生态系统组件,如 Hive(数据仓库工具)、Pig(数据分析工具)、HBase(NoSQL 数据库)、Mahout(机器学习库)等,构建了一个完整的大数据处理平台。 9. **配置和管理**:...
4. **Hadoop生态**:Hadoop不仅仅是HDFS和MapReduce,还包括一系列相关的工具和项目,如HBase(分布式NoSQL数据库)、Hive(基于Hadoop的数据仓库工具)、Pig(数据流处理平台)、Oozie(工作流调度系统)、...