hbase中的缓存的计算与使用

博客分类：

hbase

hbase中的缓存分了两层：memstore和blockcache。其中memstore供写使用，写请求会先写入memstore，regionserver会给每个region提供一个memstore，当memstore满64MB以后，会启动flush刷新到磁盘。当memstore的总大小超过限制时（heapsize * hbase.regionserver.global.memstore.upperLimit * 0.9），会强行启动flush进程，从最大的memstore开始flush直到低于限制。 blockcache主要提供给读使用。读请求先 ...

2011-04-13 20:20
浏览 8371
评论(0)
分类:互联网

看facebook分享hbase经验的笔记

博客分类：

hbase

Facebook HBase zk

http://www.qconbeijing.com/download/Nicolas.pdf 重点看了下facebook做了哪些改进以及他们的运维经验，比较重要的有以下几点：改进： 1 加强了行级的ACID约束 2 改善了数据的分布规则，可以配置hdfs的replicas所在节点 3 改写了master的assign规则，利用zk来进行assign 4 不用停机地重启cluster 5 改进了compaction策略 6 批量查询的优化 7 对压缩进行了改进运维经验： 1 事先切分好的region，控制region数目以及split的时机另 ...

2011-04-10 00:34
浏览 3467
评论(1)
分类:互联网

对提高hbase写性能的一些思考

博客分类：

hbase

HBase 网络应用 Google Apache Blog

以下为使用hbase一段时间的三个思考，由于在内存充足的情况下hbase能提供比较满意的读性能，因此写性能是思考的重点。希望读者提出不同意见讨论 1 autoflush=false的影响无论是官方还是很多blog都提倡为了提高hbase的 ...

2011-04-09 17:40
浏览 8259
评论(0)
分类:互联网

hbase的replication使用

博客分类：

hbase

HBase zk Hadoop Mapreduce ITeye

hbase-0.90.0的一个重要改进是引入了replication机制，使它的数据完整性得到了进一步的保障。虽然这一功能还不太完善，但是今后必然会变得更加重要。 hbase的replication机制很像mysql statement-based replication。它是通过WALEdit和hlog来实现的。当请求发送给master cluster时，hlog日志放入hdfs的同时进入replication队列，由slave cluster通过zookeeper获取并写入slave的表中。目前的版本仅支持一个slave cluster 具体配置如下： 1 需要保证主从cluster ...

2011-04-02 00:05
浏览 11623
评论(1)
分类:互联网

zookeeper清除日志文件工具

博客分类：

工作积累

HBase EXT Java Apache

zookeeper运行时间长了以后，日志会成为一个比较大的问题。比如作者压力测试hbase一周以后，zookeeper日志文件达到了10G的规模。由于zookeeper日志文件不能随意删除，因为一个长时间不更新的节点完全有可能存在于几天前的一个日志文件中。那么如何安全地删除它们呢？可以自己编写程序处理，但是zookeeper也提供给了我们一个方便的小工具：PurgeTxnLog 用法： java -Djava.ext.dirs=lib org.apache.zookeeper.server.PurgeTxnLog log_path snap_path -n 10 其中- ...

2011-04-01 22:06
浏览 6119
评论(0)
分类:互联网

hbase开启lzo压缩

博客分类：

hbase

HBase Hadoop Java OpenSource Google

hbase只支持对gzip的压缩,对lzo压缩支持不好。在io成为系统瓶颈的情况下，一般开启lzo压缩会提高系统的吞吐量。但这需要参考具体的应用场景，即是否值得进行压缩、压缩率是否足够等等。想要hbase支持lzo压缩，参照以下步骤： ...

2011-04-01 21:23
浏览 10523
评论(2)
分类:互联网

bulk-load装载hdfs数据到hbase小结

博客分类：

hbase

HBase Hadoop Mapreduce XML Apache

bulk-load的作用是用mapreduce的方式将hdfs上的文件装载到hbase中，对于海量数据装载入hbase非常有用，参考http://hbase.apache.org/docs/r0.89.20100621/bulk-loads.html： hbase提供了现成的程序将hdfs上的文件导入hbase,即bulk-load方式。它包括两个步骤（也可以一次完成）： 1 将文件包装成hfile，hadoop jar /path/to/hbase.jar importtsv -Dimporttsv.columns=a,b,c <tablename> <inputdir&g ...

2011-04-01 11:36
浏览 26333
评论(15)
分类:互联网

监控hbase集群

博客分类：

hbase

HBase Hadoop Apache JVM HTML

对于稳定维护hbase，全面掌握分布式系统中的每一台主机状况，以及检测系统可能或正在出现的瓶颈，强大的监控是必须的。比如：　　region数、block住的内存大小、请求数、命中率、flush/split/compact次数和时间、读写响应时间分布、storefile数目、jvm状况、本文介绍将hbase监控加入ganglia中 hbase本身集成了jmx进行数据采集，这也是沿用hadoop的机制。配置还是比较简单的，参考http://hbase.apache.org/metrics.html，要点：拷贝hbase/conf/hadoop-metrics.propert ...

2011-03-29 17:48
浏览 10129
评论(3)
分类:互联网

hbase 源码解析之master篇2

博客分类：

hbase

HBase zk 数据结构 Cache

HMaster的RPC接口，分两类： HMaster与RegionServer通讯接口，总共只有两个 -->regionServerStartup: 当regionserver启动时会调用该接口 -->将发请起求的RS的信息写入serverInfo，注意这里的hostname为master所识别的hostname，而非RS告诉master的 -->调用serverManager的regionServerStartup方法处理该请求 -->check该RS是否deadServer，如果是，拒绝start请求，抛出YouAreDeadExcept ...

2011-03-27 16:52
浏览 3385
评论(5)
分类:互联网

hbase 源码解析之master篇1

博客分类：

hbase

HBase 工作配置管理 UP

master启动过程： -->首先初始化HMaster -->创建一个rpcServer，其中并启动 -->启动一个Listener线程，功能是监听client的请求，将请求放入nio请求队列，逻辑如下： -->创建n个selector，和一个n个线程的readpool，n由"ipc.server.read.threadpool.size"决定，默认为10 -->读取每个请求的头和内容，将内容放入priorityQueue中 -->启动一个Responder线程，功能是将响应队列里的数据写给各个 ...

2011-03-24 23:56
浏览 8666
评论(2)
分类:互联网

hbase性能测试小结

博客分类：

hbase

HBase Hadoop Linux 算法工作

性能测试小结：测试环境：机器：1 client 5 regin server 1 master 3 zookeeper 配置：8 core超到16 /24G内存，region server分配了4G heap /单seta磁盘,raid10后500GB 系统：Red Hat Enterprise Linux Server release 5.4 版本：hadoop-0.20.2+737 / hbase-0.90.1 / Java HotSpot(TM) 64-Bit Server VM (build 17.0-b16, mixed mode) htable假设：row key = 200 ...

2011-03-24 13:26
浏览 4006
评论(2)
分类:互联网

ycsb的使用

博客分类：

hbase

HBase Ant NoSQL Hadoop Git

ycsb是一个非常方便的针对分布式文件系统的测试工具：https://github.com/brianfrankcooper/YCSB 特点： 1 可以任意设置读写比例、线程数量，打印结果比较详细 2 它是hbase等nosql官方jira上面的测试标准，与人交流时ycsb的测试数据最能说明问题缺点： 1 每次测试时数据需要重新写入，否则读取时选取不了正确的key值，导致内存命中率低 2 key值分布不均匀，节点多数据少时，会导致倾斜 3 线程多时有bug 这里讲一下针对hbase的使用体验： 1 git clone下来源文件后，需要先编译。ant及ant相应的数据库，如ant dbcom ...

2011-03-20 12:06
浏览 8955
评论(0)
分类:互联网

hbase中对deadserver处理的困扰

博客分类：

hbase

HBase Java Apache

hbase在一个regionServer死掉后，即使重启了这个server，deadlist中也不会去掉原先死去的deadserver。例如： hbase shell >status 5 servers, 0 dead, 6.2000 average load 停掉其中一个节点 hbase-daemon.sh stop regionserver 然后 hbase shell >status 4 servers, 1 dead, 6.2000 average load 再立即重启该节点： hbase-daemon.sh start regionserver 此时回到shell ...

2011-03-17 10:50
浏览 4592
评论(0)
分类:互联网

hbase0.90.1安装问题

博客分类：

hbase

HBase Hadoop zk Apache 配置管理

因为hbase的日志很分散，出问题时需要查看每个进程对应的日志，包括master/region/zookeeper 出了三次问题： 1 hbase.cluster.distributed=false，即单机版时，启动日志中报： org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for /hbase/master 原因：hbase的lib中调用的hadoop版本与hdfs所使用的hadoop版本不一致。解决：将hadoop的core.jar拷到hbase的 ...

2011-02-22 17:25
浏览 4123
评论(0)
分类:非技术

apache2.2+版本的apr.h错误

安装好apr后，使用apr_get_table总是报错： syntax error before "apr_off_t" 32位机器上可能会有这个问题，修改apr.h: 将typedef off64_t apr_off_t; 更改为 typedef long long apr_off_t; 然后：重装安装apr/apr-util/httpd，即可解决问题

2010-04-06 22:01
浏览 1729
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hbase中的缓存的计算与使用

看facebook分享hbase经验的笔记

对提高hbase写性能的一些思考

hbase的replication使用

zookeeper清除日志文件工具

hbase开启lzo压缩

bulk-load装载hdfs数据到hbase小结

监控hbase集群

hbase 源码解析之master篇2

hbase 源码解析之master篇1

hbase性能测试小结

ycsb的使用

hbase中对deadserver处理的困扰

hbase0.90.1安装问题

apache2.2+版本的apr.h错误

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>