`

测试hbase预设分区

 
阅读更多

测试hbase预设分区

 

phonex-4.3 hbase-0.98.10

 

环境 hbase-0.98.10,hadoop-2.5.2 
预设分区使用hbase为了在写入阶段避免个别节点过热,通过数据的分布图,在创建表的时候预设表的分区:

create 'test_splits', {NAME => 'cf', VERSIONS=> 3},{SPLITS => ['a','b','c']}

设置hbase-site.xml

<property>
    <name>hbase.hregion.max.filesize</name>
    <value>3145728</value>
</property>
<property> 
        <name>hbase.hregion.memstore.flush.size</name> 
        <value>1048576</value> 
</property>
<property>
        <name>hbase.hstore.compactionThreshold</name> 
        <value>3</value> 
</property>

设置hfile为3M,memstore为1M,当storefile的个数等于3的时候,出发合并

手动循环导入数据;

测试结果: 
等超过hfile大小后依然采取自动分裂来达到集群平衡,如果避免自动分裂,可以设置filesize的值为足够大,默认10G,比如设置为100G,然后在合适的时间段手动出发分裂

分享到:
评论

相关推荐

    Hbase 分区操作

    在HBase这个分布式列式数据库中,分区管理是其核心组成部分之一。分区,或者说Region,是HBase存储数据的基本单位。每个Region包含一个或多个表的行键范围,确保数据的分散存储,从而提高查询效率。当我们谈论"Hbase...

    HBase源代码 hbase-0.98.23

    `org.apache.hadoop.hbase.regionserver.StoreFile`类管理每个列族的HFile,当一个Region的大小达到预设阈值时,`org.apache.hadoop.hbase.regionserver.HRegion`会触发分裂过程,这涉及到`org.apache.hadoop.hbase....

    hbase_常用配置参数_以及学习笔记讲解_以及各种原理图.zip

    当Region的大小达到预设阈值时,HBase会自动执行Region切分,将一个大Region拆分为两个小Region,以避免单个Region过大导致性能下降。"region切分.png"可能展示了这个过程。 6. **RowKey设计**: RowKey是HBase中...

    hbase-0.94.16-security.tar.gz

    在HBase中,数据分布和分区是通过Region服务器实现的。每个Region服务器负责一部分表的存储和处理,当Region大小达到预设阈值时,会自动分裂以保持性能。此外,Zookeeper用于协调集群状态,确保高可用性。 安装...

    【No0057】HBase源码解析与开发实战.txt

    - 当 Region 的大小超过预设阈值时,Region 将被分裂成两个新的 Region。 - 分裂过程由 RegionServer 自动触发,新分裂出的 Region 会被重新分配到集群中。 - 区域合并则是在 Region 数量过多导致管理成本增加时...

    hbase专题配套文件

    随着数据增长,Region会不断增大,当达到预设阈值时,HBase会自动分裂Region,保持负载均衡。"part-m-00000_10w"可能是分裂前或后的Region文件。 6. **读写操作** HBase支持Get、Put、Scan等操作。Get用于按Row ...

    Apache Hbase面试题

    - **Region**:这是HBase的基本分区单位,每个表由一个或多个Region组成。每个Region大小固定,通常设定为1GB左右。 - **Store**:每个Region又分为多个Store,每个Store对应表中的一个列族(Column Family)。 - **...

    HBase 系统架构

    4. **Region**:HBase 中数据存储的逻辑分区,每个 Region 包含一个或多个列族。Region 会随着数据量增长而分裂,以保证单个 Region 不过大,维持查询性能。 5. **Column Family(列族)**:列族是预定义的数据存储...

    4_HBase.docx

    - **Region**:HBase中数据存储的基本单元,相当于关系型数据库中的分区或分片。 - **Store**:Region内部的数据存储结构,由一个MemStore和多个StoreFile组成。 - **MemStore**:内存中的数据缓存区域,用于暂存...

    HBase架构解析——维基百科文.pdf

    每个HRegionServer负责管理多个Region,Region是HBase的逻辑分区,存储表的一部分行。当Region的大小达到预设阈值时,HBase Master会触发Region的分裂。 3. **HBase客户端**:提供了API供应用程序使用,支持单行...

    Storm流计算项目:1号店电商实时数据分析系统-11.基于HBase的Dao基类和实现类开发一.pptx

    Bolt在接收到数据后,将处理结果转化为适合HBase存储的格式,然后通过预设的Dao接口写入HBase。为了保证数据一致性,需要考虑事务和错误处理机制。 5. **线程安全与并发控制** 在多线程环境下,Dao操作需要确保...

    基于HBase的大数据架构下负载平衡技术.zip

    当RegionServer的负载超过预设阈值时,Master节点会触发Region迁移,将部分Region转移到负载较低的RegionServer上。 2. **Region分裂与合并**:随着数据的增长,单个Region可能会变得过大,导致读写性能下降。HBase...

    基于spark streaming+flume+kafka+hbase的实时日志处理分析系统(分为控制台版本和基于s.zip

    例如,Spark Streaming可以通过增加节点来扩展处理能力,Kafka的分区机制保证了数据处理的并行性,而HBase的分布式特性确保了数据的高可用性。 9. **安全性与隐私**:在处理敏感日志数据时,系统应考虑数据加密和...

    Hbase原理分享

    4. **Region分裂**:当HRegion达到预设大小时,HMaster会触发分裂,生成两个新的HRegion,确保数据的扩展性和读写性能。 综上所述,HBase是一种适合大规模、高并发、实时读写的NoSQL数据库,它的设计理念和架构使其...

    项目笔记1

    首先,MapTask将处理的数据分块存储在内存缓冲区,当达到预设的溢写阈值时,数据会被溢写到磁盘,并在溢写过程中进行局部排序和合并(merge)。这一过程确保了相同键的数据被聚集在一起,为ReduceTask的处理做好准备...

    第13章 大数据平台监控命令.pptx

    Hive作为数据仓库,其性能监控主要包括查询执行时间、内存使用和表的分区状态。`beeline`客户端可用于执行SQL查询并分析执行计划。 ZooKeeper作为分布式协作服务,其监控关注点在于会话状态、节点数据和选举过程。`...

    hbaseLoading

    2. **预分区(如果需要)**:为了优化数据分布和负载均衡,可以预先规划Region的边界,这样数据加载时可以直接按照预设的分区键分布到不同的Region。 3. **数据转换**:CSV文件中的数据需要转换为HBase能理解的格式...

    HIVE面试题集锦201901

    13. **Hive与HBase的交互**:Hive可以通过HBaseSerDe与HBase进行交互,实现对实时数据的分析。 这些知识点是《HIVE面试题集锦201901》中的主要内容,对于理解和掌握Hive在大数据环境中的应用至关重要。在面试或实际...

Global site tag (gtag.js) - Google Analytics