- 浏览: 1045143 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (538)
- 奇文共赏 (36)
- spring (13)
- hibernate (10)
- AOP/Aspectj (9)
- spring security (7)
- lucence (5)
- compass (3)
- jbmp (2)
- jboss rule(drools) (0)
- birt (1)
- jasper (1)
- cxf (3)
- flex (98)
- webgis (6)
- 设计模式 (1)
- 代码重构 (2)
- log4j (1)
- tomcat (9)
- 神品音乐 (1)
- 工作计划 (2)
- appfuse (1)
- svn (4)
- 寻章摘句 (3)
- eclipse (10)
- arcgis api for flex (1)
- 算法 (5)
- opengis-cs (1)
- bug心得 (13)
- 图标 (1)
- software&key (14)
- java (17)
- 搞笑视频 (13)
- sqlserver (9)
- postgresql (1)
- postgis (0)
- geoserver (5)
- 日子 (50)
- 水晶报表 (1)
- 绝对电影 (3)
- Alternativa3D (1)
- 酷站大全 (10)
- c++ (5)
- oracle (17)
- oracle spatial (25)
- flashbuilder4 (3)
- TweenLite (1)
- DailyBuild (6)
- 华山论贱 (5)
- 系统性能 (5)
- 经典古文 (6)
- SOA/SCA/OSGI (6)
- jira (2)
- Hadoop生态圈(hadoop/hbase/pig/hive/zookeeper) (37)
- 风水 (1)
- linux操作基础 (17)
- 经济 (4)
- 茶 (3)
- JUnit (1)
- C# dotNet (1)
- netbeans (1)
- Java2D (1)
- QT4 (1)
- google Test/Mock/AutoTest (3)
- maven (1)
- 3d/OSG (1)
- Eclipse RCP (3)
- CUDA (1)
- Access control (0)
- http://linux.chinaunix.net/techdoc/beginner/2008/01/29/977725.shtml (1)
- redis (1)
最新评论
-
dove19900520:
朋友,你确定你的标题跟文章内容对应???
tomcat控制浏览器不缓存 -
wussrc:
我只想说牛逼,就我接触过的那点云计算的东西,仔细想想还真是这么 ...
别样解释云计算,太TM天才跨界了 -
hw_imxy:
endpoint="/Hello/messagebr ...
flex+java代码分两个工程 -
gaohejie:
rsrsdgrfdh坎坎坷坷
Flex 与 Spring 集成 -
李涤尘:
谢谢。不过说得有点太罗嗦了。
Oracle数据库数据的导入及导出(转)
http://hi.baidu.com/xuelianglv/blog/item/bdff9a1ecc15201940341725.html
一个Region在HBase中用一个HRegionInfo表示。该类定义在文件HRegionInfo.java中。一个Region包括如下几个重要属性:
// 代表Region的开始Key
byte [] startKey = HConstants.EMPTY_BYTE_ARRAY;
// 代表Region的结束Key
byte [] endKey = HConstants.EMPTY_BYTE_ARRAY;
// 该Region的id
long regionId = -1;
// 该Region的名字
byte [] regionName = HConstants.EMPTY_BYTE_ARRAY;
// 所在Table的表描述符
HTableDescriptor tableDesc = null;
开始Key和结束Key对应该Region中包含了哪些Row。RegionId用于唯一的标识该Region。
1. Region名字的组成:table的名字,开始Key,RegionId。函数
createRegionName(byte[] tableName, byte[] startKey, byte[] id) 用于生产region名字。
由于Region的名字中包含了table的名字,HRegionInfo提供了一个getTableNameFromRegionName
用于从Region名字中返回table名字。
2. 为便于Logging,HRegionInfo类包含了字段regionNameStr,返回用于logging的Region name字符串。
3. 该Region是否是Root Region?
tableDesc.isRootRegion() 为true表明该Region是Root Region。
4. 该Region是否是MetaRegion?
tableDesc.isMetaRegion()为true表明该Region是Meta region。
HRegionInfo其它的字段:
split:表明该region是否已经split了,并且包含daughters。
offLine: 表明该region是否是offline的
HRegionInfo提供了一个函数encodeRegionName,对Region名字进行编码,在很多地方使用了这个编码
结果。编码采用了JenkinsHash,见http://burtleburtle.net/bob/hash/doobs.html
int encodeRegionName的实现(byte[] regionName):
Math.abs(JenkinsHash.hash(regionName, regionName.length, 0))
发表评论
-
一网打尽当下NoSQL类型、适用场景及使用公司
2014-12-28 20:56 960一网打尽当下NoSQL类型、适用场景及使用公司 http:// ... -
别样解释云计算,太TM天才跨界了
2014-02-25 09:41 2432http://mp.weixin.qq.com/s?__bi ... -
Build, Install, Configure and Run Apache Hadoop 2.2.0 in Microsoft Windows OS
2013-12-09 11:17 2524http://www.srccodes.com/p/arti ... -
hadoop的超时设置
2013-06-23 11:47 2417from http://blog.163.com/zheng ... -
hadoop与panasas
2012-12-26 09:53 877在应用的场景中,hadoop当然希望使用全部的本地硬盘,但是对 ... -
程序开过多线程,导致hadoop作业无法运行成功
2012-10-23 16:14 7059Exception in thread "Threa ... -
mount盘异常,导致hadoop作业无法发送
2012-10-23 16:12 948异常信息 2012-10-23 21:10:42,18 ... -
HDFS quota 設定
2012-08-02 16:22 5509http://fenriswolf.me/2012/04/04 ... -
hadoop常用的指令
2011-10-09 16:50 1700hadoop job -kill jobid 可以整个的杀掉 ... -
Hadoop基准测试
2011-08-08 10:04 1271http://www.michael-noll.com/ ... -
Hadoop Job Scheduler作业调度器
2011-05-21 11:02 2521http://hi.baidu.com/zhengxiang3 ... -
hadoop指定某个文件的blocksize,而不改变整个集群的blocksize
2011-03-20 17:20 2104文件上传的时候,使用下面的命令即可 hadoop f ... -
Hadoop Job Tuning
2011-02-28 15:53 814http://www.searchtb.com/2010/12 ... -
如何在不重启整个hadoop集群的情况下,增加新的节点
2011-02-25 10:12 13941.在namenode 的conf/slaves文件中增加新的 ... -
对hadoop task进行profiling的几种方法整理
2011-02-10 21:57 1649对hadoop task进行profiling的几种方法整 ... -
如何对hadoop作业的某个task进行debug单步跟踪
2011-02-10 21:56 2078http://blog.csdn.net/AE86_FC/ar ... -
hadoop 0.20 程式開發 eclipse plugin
2011-01-26 19:36 2253http://trac.nchc.org.tw/cloud/w ... -
hadoop-0.21.0-eclipse-plugin无法在eclipse中运行解决方案
2011-01-26 09:47 3594LINUX下将hadoop-0.21自带的hadoop ecl ... -
How to Benchmark a Hadoop Cluster
2011-01-19 22:15 2842How to Benchmark a Hadoop Clu ... -
json在线格式化
2010-12-21 16:23 2429http://jsonformatter.curiouscon ...
相关推荐
region中存储的是大量的rowkey数据 ,当region中的数据条数过多的时候,直接影响查询效率.当region过大的时候.hbase会拆分region , 这也是Hbase的一个优点 . HBase的region split策略一共有以下几种: 1、...
hbase-region-inspector, HBase区域统计信息的可视化仪表板 hbase-region-inspectorHBase区域统计信息的可视化仪表板。 用法下载与HBase集群版本匹配的可执行二进制插件,添加execute权限,并使用以下命令行参数启动...
【HBASERegion数量增多问题描述及解决方案】 在HBase分布式数据库中,Region是表数据的基本存储单元,它将表的数据按照ROWKEY的范围进行分割。随着数据的增长,一个Region会分裂成两个,以此来确保数据的均衡分布。...
HBase是一种分布式、基于列族的NoSQL数据库,由Apache软件基金会开发并维护,是Hadoop生态系统中的重要组件。这份“HBase官方文档中文版”提供了全面深入的HBase知识,帮助用户理解和掌握如何在大数据场景下有效地...
本指南针对HBase的中文用户,旨在帮助读者更好地理解和使用HBase,特别是在Python环境中进行开发。 ### 一、HBase简介 HBase是Google Bigtable的开源实现,它具有高度可扩展性,能够存储海量数据,并且支持实时...
在Java编程环境中,操作HBase并将其数据写入HDFS(Hadoop ...此外,理解HBase的Region分布和HDFS的Block策略也是至关重要的。在进行大数据操作时,理解并利用Hadoop和HBase的并行处理能力也是提高性能的关键。
例如,通过HBaseAdmin类可以创建、删除和管理表,而Table和Put、Get、Scan等对象则用于数据的读写操作。此外,HBase还支持MapReduce,便于进行批量处理和分析。 除了基本操作,教程还会涵盖高级主题,如过滤器、二...
HBase 元数据修复工具包。 ①修改 jar 包中的application.properties,重点是 zookeeper.address、zookeeper.nodeParent、hdfs.root.dir配置项,hdfs 最好写 ip; ②将core-site.xml、hdfs-site.xml添加到BOOT-INF/...
HBase中的Region分割(Region Split)是一个关键特性,它允许HBase在表数据量增大时,自动将一个Region分割成两个,从而保证每个Region的大小都保持在一个合理的范围。这是实现HBase高扩展性和高性能的关键机制之一...
HBase是Apache软件基金会的一个开源项目,是一款基于Google ...在实际应用中,除了基础部署和配置,还需要关注HBase的表设计、数据模型、 Region分裂和合并、性能调优等多个方面,以充分利用其特性并应对各种挑战。
当一个Region的大小达到预设阈值时,`org.apache.hadoop.hbase.regionserver.HRegion`会触发分裂过程,这涉及到`org.apache.hadoop.hbase.regionserver.SplitTransaction`类的使用,确保分裂过程中数据的一致性。...
3.1. 从HBase 0.20.x or 0.89.x 升级到 HBase 0.90.x 3.2. 从 0.90.x 到 0.92.x 4. The HBase Shell 4.1. 使用脚本 4.2. Shell 技巧 5. 数据模型 5.1. 概念视图 5.2. 物理视图 5.3. 表 5.4. 行 5.5. 列族 5.6. Cells...
当HBase中的数据量增长到一定程度时,Region会被分裂。这一过程包括以下几个步骤: 1. **写入数据**:首先,客户端向RegionServer发送数据写入请求。 2. **写入MemStore**:RegionServer接收到请求后,将数据写入到...
1. 面向列:与传统关系型数据库不同,HBase是以列族(Column Family)为单位存储数据的,这使得对某一类数据进行快速访问成为可能。 2. 分布式:HBase通过分区(Region)将数据分散在多台服务器上,可以水平扩展,...
在HBase中,数据存储在Region中,每个Region包含一部分行键(Row Key)空间。当表的数据量增长时,单个Region可能会变得过大,这时会将Region分裂成两个,以保持大小适中。Region分布在各个RegionServer上,而`...
3. **HBase的Compaction**:Compaction是HBase中用于合并HFile的过程,目的是减少Region内的文件数量,提高读取效率。有两种类型的Compaction:Minor和Major,前者只合并同一Region的小文件,后者会合并所有文件,...
HBase可以通过修改配置文件来自定义安装和运行的细节,比如集群是独立模式还是分布式模式,以及如何设置region的拆分参数等。 ### 升级 HBase提供了多个版本的升级指南,包括从0.94.x升级到0.96.x、0.92.x升级到...
总之,《HBase in Action》这本书全面覆盖了HBase的基础知识和高级应用技巧,对于想要深入了解HBase并将其应用于实际项目中的开发者来说,是非常宝贵的资源。通过本书的学习,读者不仅可以掌握HBase的基本操作,还能...
11. **优化策略**:包括合理设置Region大小、预分区表、选择合适的Column Family、启用BlockCache等,以提升HBase的性能。 12. **安全配置**:在生产环境中,可能需要配置HBase与Kerberos进行集成,以实现身份验证...
这个框架由多个组件构成,包括RPCServer和RPCClient,它们是HBase内部类,负责处理客户端请求并转发给相应的服务器。RPC.Server是Hadoop中的基础RPC服务实现,而HBase在其基础上进行了定制,以满足其特定需求,如...