`
zhangxiong0301
  • 浏览: 359541 次
社区版块
存档分类
最新评论

HBASE 预分区建表

阅读更多
在create一个表时如果不指定预分配region,则默认会先分配一个region,这样在大数据并行载入时性能比较低,因为所有的数据都往一个region灌入,容易引起单节点负载升高,从而影响入库性能,一个好的方法时在建立表时预先分配数个region。方法有两种,主要针对不同版本可供选择。

1.使用RegionSplitter方法,主要针对hbase-0.90.X版本

a.首先使用RegionSplitter建表,预分配region,例如建立一个poidb表,列簇为info,预分配9个region,

hbase org.apache.hadoop.hbase.util.RegionSplitter -c 9 -f info poidb

b.修改建表参数(可选)

默认建表是没有开启Bloomfilter和压缩参数的,这里为了提供读性能,建议开启Bloomfilter,同时使用压缩SNAPPY,进入hbase shell,首先需要disable 'poidb',然后使用使用

alter 'poidb',{NAME => 'info',BLOOMFILTER => 'ROWCOL',COMPRESSION => 'SNAPPY',VERSIONS => '1'}

最后enable 'poidb'

2.使用hbase shell建表参数,真多0.94.x版本

0.94版本可以直接在建表时直接使用预分配regions:

create 'poidb', { NAME => 'info', COMPRESSION => 'snappy' },  {NUMREGIONS => 9, SPLITALGO => 'HexStringSplit'}
分享到:
评论

相关推荐

    HBase的预分区

    预分区(Pre-Partitioning)是HBase为了优化性能和负载均衡而采用的一种策略,主要解决的是数据写入的热点问题以及减少Region分裂带来的开销。 在HBase中,Region是数据存储的基本单元,每个Region包含一个或多个...

    hbase-manager安装包,已编译

    HBase表管理:表创建、预分区建表(内置三种预分区方案)、表删除、表信息更改、表清空 列簇管理:列簇新增、删除、属性修改 标签管理:HBase表的标签管理 数据管理:HBase表数据的查询、新增、删除。 多集群...

    HbaseGUI:Hbase图形用户界面

    提供可视化查询、元数据管理和支持预分区建表三大功能特点响应式设计Hbase数据/操作可视化提供包括Rowkey、版本号、Scan时间和各类Filter在内的高级查询提供元数据管理提供命名空间管理创建表时支持通过设置起止...

    HBase应用最佳实践详解.pdf

    * Region拆分和合并:预建分区可以避免自动split,提高HBase的响应速度 * Region均衡:避免出现Region热点现象,按照table级别进行balance * 尽量只用1-2个列族:减少列族的数量可以提高HBase的性能 * 定期建表:...

    HBase应用最佳实践详解.pptx

    预建分区可避免数据自动split带来的性能影响,列族数量应控制在1-2个,以减少数据存储和查询的复杂性。表名中包含日期信息便于管理不同时间段的数据。 五、HBase优化 优化主要包括垃圾回收、压缩、Region管理和配置...

    气象大数据存储和查询优化[收集].pdf

    此外,合理的分区策略和索引设置也是优化查询性能的关键,通过预分区(Region Splitting)和二次索引可以有效地减少查询延迟。 综上所述,本论文深入探讨了气象大数据的存储结构和查询优化,通过对Hadoop和Hbase的...

    Hadoop数据仓库工具--hive介绍

    创建分区时,可以在建表时指定分区字段,如 `PARTITIONED BY (ds STRING)`。 - **优化查询**:对于简单的查询,如 `SELECT * FROM tbl`,Hive 可能不需要启动 MapReduce 作业,直接从元数据获取结果。 - **Hive 与 ...

    大数据分布并行处理试题及答案.pdf

    - 每个HBase行必须包含Rowkey,且列族在建表时需指定且不可修改。 - HBase中的多个历史版本数据会按时间戳正序排列。 7. **HBase操作**: - 向HBase表中添加数据的正确格式是`put 'table','rowkey','column_...

    同步代码异常.docx

    文档中的内容涉及到了...Phoenix的预分区(SALT_BUCKETS)也可以改善写入效率。 在处理这些问题时,通常需要对系统日志进行深入分析,调整配置参数,优化代码,甚至可能需要修复或更新组件以提高系统的稳定性和性能。

    Hive介绍(百度)

    - **分区(Partitioning)**:通过在建表时指定分区字段,如`PARTITIONED BY (ds STRING)`,可以提高查询性能。 - **非MapReduce查询**:对于简单的查询,Hive可以直接读取数据而无需运行MapReduce任务。 6. **...

    大数据开发工程师简历模板

    掌握 Hive SQL 数据类型、建表语法、动态静态分区、内置函数自定义函数、分桶、Hive 视图索引、以及 Hive 优化等。 HBase:了解 HBase 数据模型和架构,能够部署 HBase 集群,掌握 hbase shell 常用命令;能设 ...

    数据库模型与SQL设计1

    非关系型数据库模型,如文档型数据库(如MongoDB)、图形数据库(如Neo4j)、键值存储(如Redis)和列族数据库(如HBase),在大数据和分布式系统中越来越受欢迎。它们在处理非结构化或半结构化数据、高并发访问和大...

    华为HCIA-大数据认证练试题与答案-202010.pdf

    11. HBase 中的 HMaster 功能:HMaster 负责 Region 的负载均衡、分裂和分配,以及表的操作如建表、修改表和删除表,以及 RegionServer 的监控和故障恢复。 12. Nimbus 在 Storm 架构中的作用:Nimbus 负责任务调度...

    数据资源平台数据模型设计规范

    - **HBase物理模型设计规范**:针对HBase数据库,规定了表结构的设计原则。 ##### 3.2 ArgoDB物理模型设计规范 - **建表原则**:明确了表结构设计的基本准则。 - **建表参数**:规定了创建表时需要设置的各种参数。...

Global site tag (gtag.js) - Google Analytics