`

大数据系列6:HBase – 基于Hadoop的分布式数据库

阅读更多

wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gz

tar -xzvf zookeeper-3.4.5.tar.gz

cd zookeeper-3.4.5

cp conf/zoo_sample.cfg conf/zoo.cfg

vi conf/zoo.cfg
  
修改:dataDir=/home/ysc/zookeeper
  
添加:
       server.1=host001:2888:3888

maxClientCnxns=100

mkdir /home/ysc/zookeeper注:dataDirzookeeper的数据目录,需要手动创建

echo 1 > /home/ysc/zookeeper/myid

启动服务:

bin/zkServer.sh start

连接服务:

bin/zkCli.sh -server host001:2181

查看服务状态:

bin/zkServer.sh status

 

hbase存在系统时间同步的问题,并且误差要再30s以内

sudo apt-get install ntp
sudo ntpdate -u 210.72.145.44

HBase是数据库,会在同一时间使用很多的文件句柄,大多数linux系统使用的默认值1024是不能满足的,还需要修改 hbase 用户的nproc,在压力很大的情况下,如果过低会造成 OutOfMemoryError异常

sudo vi /etc/security/limits.conf

添加:
   ysc soft nproc 32000
   ysc hard nproc 32000
   ysc soft nofile 32768
   ysc hard nofile 32768

sudo vi /etc/pam.d/common-session
添加:
   session required  pam_limits.so

 

wget http://mirrors.hust.edu.cn/apache/hbase/hbase-0.94.12/hbase-0.94.12.tar.gz

tar -xzvf  hbase-0.94.12.tar.gz

cd hbase-0.94.12
vi conf/hbase-env.sh

追加:
  export JAVA_HOME=/home/ysc/jdk1.7.0_40
  export HBASE_MANAGES_ZK=false
  export HBASE_HEAPSIZE=1000

vi conf/hbase-site.xml

加入:

 <property> 

  <name>hbase.rootdir</name> 

  <value>hdfs://host001:9000/hbase</value>    

 </property>

 <property> 

  <name>hbase.cluster.distributed</name> 

  <value>true</value> 

 </property> 

 <property>  

  <name>hbase.zookeeper.quorum</name>       

  <value>host001</value>  

 </property>

vi conf/regionservers

localhosthost001

因为HBase建立在Hadoop之上,Hadoop使用的hadoop*.jarHBase使用的必须一致。所以要将 HBase lib目录下的hadoop*.jar替换成Hadoop里面的那个,防止版本冲突。

cp  /home/ysc/hadoop-1.2.1/hadoop-core-1.2.1.jar  /home/ysc/hbase-0.94.12/lib

rm  /home/ysc/hbase-0.94.12/lib/hadoop-core-1.0.4.jar

启动hadoop并创建目录
hadoop fs -mkdir /hbase

sudo vi /etc/profile

增加:

export PATH=$PATH:/home/ysc/hbase-0.94.12/bin

source /etc/profile

启动初始 HBase 集群:

start-hbase.sh

web界面
  
http://host001:60010
  
http://host001:60030

停止HBase 集群:

stop-hbase.sh

启动额外备份主服务器,可以启动到 9 个备份服务器(总数10 )

local-master-backup.sh start 1

local-master-backup.sh start 2 3

启动更多regionservers, 支持到99 个额外regionservers(100)

local-regionservers.sh start 1

local-regionservers.sh start 2 3 4 5

停止备份主服务器:

cat /tmp/hbase-ysc-1-master.pid | xargs kill -9

停止单独regionserver

local-regionservers.sh stop 1

使用HBase命令行模式:

hbaseshell

 

命令演示:

创建表Person,列族basicdetail

create 'Person', 'basic', 'detail'

看有哪些表:

list

看是否有person表:

list 'person'

增加数据,动态增加列:

数据1

put 'Person','533001198510125838', 'basic:idcard', '533001198510125838'

put 'Person', '533001198510125838','basic:name', '章子怡'

put 'Person','533001198510125838', 'detail:age', '25'

数据2

put 'Person', '533001198510125837','basic:idcard', '533001198510125837'

put 'Person','533001198510125837', 'basic:name', '杨尚川'

put 'Person','533001198510125837', 'detail:age', '22'

查询整条数据:

get 'Person','533001198510125838'

get 'Person','533001198510125837'

查询单列数据:

get 'Person', '533001198510125837','basic:idcard'

查询多列数据:

get 'Person', '533001198510125837','basic:idcard', 'detail:age'

查询全部数据:

scan 'Person'

删除表:

disable 'Person'

drop 'Person'

 

 


 

APDPlat旗下十大开源项目

 

 

 

 

 

 

 

 

 

6
6
分享到:
评论
3 楼 yangshangchuan 2013-10-11  
zcwfeng 写道
川哥,还有个问题,就是,Ganglia,放在为分布式上面,有的时候由于客户端和服务端都用的一个虚拟机的Linux为分布式,结果有可能机器起不来,必须先杀掉进程,然后进入后再启动ganglia才行,是不是死循环了???用putty和ssh client可以访问和操作。
Linux系统CentOs5.5


没搞清楚你说的情况
2 楼 zcwfeng 2013-10-11  
川哥,还有个问题,就是,Ganglia,放在为分布式上面,有的时候由于客户端和服务端都用的一个虚拟机的Linux为分布式,结果有可能机器起不来,必须先杀掉进程,然后进入后再启动ganglia才行,是不是死循环了???用putty和ssh client可以访问和操作。
Linux系统CentOs5.5
1 楼 zcwfeng 2013-10-11  
我用的伪分布式,搭建起来貌似,和真正的集群不一样用法是一个样。不过还是顶一个。

相关推荐

    基于Hadoop分布式交通大数据存储分析平台设计.pdf

    本文将讨论如何基于Hadoop分布式存储与分析平台解决这一问题。 Hadoop是一个开源的分布式存储和处理大数据的框架,它能有效地存储和处理PB级别的数据。Hadoop的核心是HDFS(Hadoop Distributed File System),它...

    Hbase操作Hadoop分布式数据库java工程实例(含测试用例)

    总结起来,这个“Hbase操作Hadoop分布式数据库java工程实例”是一个全面的学习资源,涵盖了HBase的基本概念、Java编程接口和测试实践。通过学习和实践这个实例,开发者能够掌握HBase在Hadoop环境下的实际应用,为大...

    HBase-云计算的分布式数据库

    ### HBase:云计算环境下的分布式数据库 #### 一、HBase简介 HBase是Apache Hadoop项目中的一个重要组件,主要用于处理大规模数据集的分布式存储需求。作为一种非关系型数据库,HBase特别适合于非结构化数据的存储...

    基于Hadoop分布式系统的地质环境大数据框架探讨.pdf

    基于Hadoop分布式系统的地质环境大数据框架探讨,涉及了地质环境大数据的特性分析,以及提出了一种基于Hadoop生态系统架构的框架。这个框架支持数据清洗转换、分布式数据存储管理、数据挖掘、文本搜索和数据可视化等...

    第四十九章:Hbase分布式数据库1

    总结,Hbase是为大数据设计的分布式数据库,其强项在于处理大规模数据的实时访问。通过HMaster、HRegionServer和ZooKeeper等组件实现高可用性和负载均衡,而其独特的列式存储和多版本机制则优化了大规模数据的读写...

    大数据全套安装包:包括hadoop-3.1.1、hbase-2.2.3、hive-3.1.2、zookeeper-3.5.6

    HBase是基于Hadoop的分布式NoSQL数据库,适用于实时读写操作。HBase 2.2.3版本在稳定性、性能和功能上都有所提升,支持复杂的数据模型和强大的数据过滤功能,能够处理PB级别的数据。它常用于实时分析和大数据应用,...

    HBase分布式数据库.pdf

    第零章 大数据概述(2学时) 第一章 Hadoop概述(2学时) 第二章 Hadoop环境搭建(6学时) ...第五章 分布式数据库HBase(6学时) 第六章 分布式数据仓库Hive(8学时) 第七章 综合实例(8学时)

    基于hadoop的分布式数据库测试方法研究.pdf

    基于Hadoop的分布式数据库测试方法研究主要关注在电力系统海量数据存储采集的背景下,构建基于Hadoop生态圈框架的通用测试方法,以对分布式数据库的性能进行分析和检测。随着数据量的激增,传统的集中式数据库已无法...

    搭建HBase完全分布式数据库

    HBase是一个分布式、面向列的开源数据库,它运行在Hadoop的文件系统(HDFS)之上,利用Hadoop的MapReduce来处理HBase中的大数据,同时也使用Apache ZooKeeper作为分布式协同服务。HBase特别适合于需要快速读写访问...

    基于hadoop+hbase+springboot实现分布式网盘系统.zip

    在构建分布式网盘系统时,通常会涉及到多个技术栈,如大数据处理框架Hadoop、分布式数据库HBase以及微服务开发框架Spring Boot。本项目“基于hadoop+hbase+springboot实现分布式网盘系统”旨在利用这些技术搭建一个...

    大数据企业实训项目:基于SpringMVC+Spring+HBase+Maven搭建的Hadoop分布式云盘系统

    基于Hadoop分布式云盘系统使用Hadoop HDFS作为文件存储系统、HBase作为数据存储仓库,采用SpringMVC+Spring框架实现,包括用户注册与登录、我的网盘、关注用户、我的分享、我收到的分享等五大功能模块。其中我的网盘...

    尚硅谷大数据技术之HBase.docx

    尚硅谷大数据技术之 HBase HBase 是一种基于 Hadoop 的分布式、面向列的 NoSQL 数据库,主要用于存储和...HBase 是一种强大的分布式数据库管理系统,具有很多特征和优势,非常适合处理大规模结构化和非结构化数据。

    电影推荐网站(基于hadoop生态的大数据项目,使用hbase和MySQL数据库,利用协同过滤算法给出用户电影推荐).zip

    电影推荐网站是一个基于Hadoop生态系统的大数据项目,它利用了HBase和MySQL数据库,并通过协同过滤算法为用户提供个性化的电影推荐。在这个项目中,我们主要关注以下几个关键知识点: 1. **Hadoop生态**:Hadoop是...

    大数据系列9:Mahout – 机器学习

    例如,通过Hive可以方便地对数据进行预处理和清洗,然后使用Mahout进行模型训练,最后再将结果存入HBase等NoSQL数据库进行查询和展示。 总之,Apache Mahout是大数据时代的一个重要工具,它提供了一套完整的机器...

    大数据企业实训项目:基于SpringMVC+Spring+HBase+Maven搭建的Hadoop分布式云盘系统+源代码+文档说

    大数据企业实训项目:基于SpringMVC+Spring+HBase+Maven搭建的Hadoop分布式云盘系统。使用Hadoop HDFS作为文件存储系统、HBase作为数据存储仓库,采用SpringMVC+Spring框架实现,包括用户注册与登录、我的网盘、关注...

    java大数据案例_3HBase

    在大数据领域,HBase是一个基于Apache Hadoop的分布式、面向列的NoSQL数据库,适用于处理大规模数据。本案例主要介绍如何使用Java来搭建一个包含一个Master和三个RegionServer的HBase分布式集群,并配置监控页面。 ...

    《大数据日知录:架构与算法》完整版+书签

    NoSQL数据库如HBase、Cassandra,以及分布式文件系统如HDFS、Ceph在此扮演着关键角色。 3. 数据处理层:处理层负责对采集到的原始数据进行清洗、转换、聚合等操作。Hadoop MapReduce是传统的大数据处理框架,而...

    09:HBase分布式实时数据库.zip

    在IT领域,HBase是一个非常重要的分布式实时数据库,尤其在大数据处理中占据着核心地位。本资料"09:HBase分布式实时数据库.zip"显然涵盖了关于HBase的基础知识、架构原理以及可能的实际应用。让我们深入探讨一下...

    分布式数据库HBase

    "分布式数据库HBase" HBase 是一个分布式的、面向列的开源数据库,源于 Google 的一篇论文《BigTable:一个结构化数据的分布式存储系统》。HBase 以表的形式存储数据,表有行和列组成,列划分为若干个列族/列簇...

    hbase-0.90.5.tar.gz与hadoop0.20.2版本匹配

    HBase是Apache软件基金会开发的一个开源分布式数据库,它是基于Google的Bigtable模型设计的,用于存储大规模结构化数据。HBase构建在Hadoop之上,两者都是Apache Hadoop生态系统的重要组成部分。Hadoop是一个分布式...

Global site tag (gtag.js) - Google Analytics