`

duguyiren3476

浏览: 468650 次
性别:
来自: 北京

最近访客更多访客>>

zhangyou1010

zhianchen

guochongcan

jyzbcs

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

zhangyou1010： zhangyou1010 写道请教，我执行mount -t n ...
NFS挂载hdfs到本地
zhangyou1010：请教，我执行mount -t nfs -o vers=3,pr ...
NFS挂载hdfs到本地
hengfengyiyingdong：为什么我查出来的hbase数据都是base64编码的？我保存 ...
apache drill 0.8.0 单机/分布式安装测试
107x：不错，谢谢！
Hive metastore三种存储方式
duguyiren3476：确实不怎么快，httpfs的上传你可以理解为普通的httpup ...
hadoop2.5.2配置httpfs服务

测试hbase预设分区

博客分类：

hbase
pheonix
hadoop

阅读更多

测试hbase预设分区

phonex-4.3 hbase-0.98.10

环境 hbase-0.98.10,hadoop-2.5.2
预设分区使用hbase为了在写入阶段避免个别节点过热,通过数据的分布图,在创建表的时候预设表的分区:

create 'test_splits', {NAME => 'cf', VERSIONS=> 3},{SPLITS => ['a','b','c']}

设置hbase-site.xml

<property>
    <name>hbase.hregion.max.filesize</name>
    <value>3145728</value>
</property>
<property> 
        <name>hbase.hregion.memstore.flush.size</name> 
        <value>1048576</value> 
</property>
<property>
        <name>hbase.hstore.compactionThreshold</name> 
        <value>3</value> 
</property>

设置hfile为3M,memstore为1M,当storefile的个数等于3的时候,出发合并

手动循环导入数据;

测试结果:
等超过hfile大小后依然采取自动分裂来达到集群平衡,如果避免自动分裂,可以设置filesize的值为足够大,默认10G,比如设置为100G,然后在合适的时间段手动出发分裂

分享到：

apache drill 0.8.0 单机/分布式安装测试 | Phoenix设置时间戳

2015-04-07 20:06
浏览 1063
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hbase 分区操作: 在HBase这个分布式列式数据库中，分区管理是其核心组成部分之一。分区，或者说Region，是HBase存储数据的基本单位。每个Region包含一个或多个表的行键范围，确保数据的分散存储，从而提高查询效率。当我们谈论"Hbase...

HBase源代码 hbase-0.98.23: `org.apache.hadoop.hbase.regionserver.StoreFile`类管理每个列族的HFile，当一个Region的大小达到预设阈值时，`org.apache.hadoop.hbase.regionserver.HRegion`会触发分裂过程，这涉及到`org.apache.hadoop.hbase....

hbase_常用配置参数_以及学习笔记讲解_以及各种原理图.zip: 当Region的大小达到预设阈值时，HBase会自动执行Region切分，将一个大Region拆分为两个小Region，以避免单个Region过大导致性能下降。"region切分.png"可能展示了这个过程。 6. **RowKey设计**： RowKey是HBase中...

hbase-0.94.16-security.tar.gz: 在HBase中，数据分布和分区是通过Region服务器实现的。每个Region服务器负责一部分表的存储和处理，当Region大小达到预设阈值时，会自动分裂以保持性能。此外，Zookeeper用于协调集群状态，确保高可用性。安装...

【No0057】HBase源码解析与开发实战.txt: - 当 Region 的大小超过预设阈值时，Region 将被分裂成两个新的 Region。 - 分裂过程由 RegionServer 自动触发，新分裂出的 Region 会被重新分配到集群中。 - 区域合并则是在 Region 数量过多导致管理成本增加时...

hbase专题配套文件: 随着数据增长，Region会不断增大，当达到预设阈值时，HBase会自动分裂Region，保持负载均衡。"part-m-00000_10w"可能是分裂前或后的Region文件。 6. **读写操作** HBase支持Get、Put、Scan等操作。Get用于按Row ...

Hbase学习总结.pdf: HBase采用分区存储，每个分区称为HRegion，由一个HRegion服务器管理。HRegion服务器负责处理对它所管理的HRegion的读写请求。HBase Master负责整个集群的管理和监控，包括表和HRegion的生命周期管理、负载均衡以及...

Apache Hbase面试题: - **Region**：这是HBase的基本分区单位，每个表由一个或多个Region组成。每个Region大小固定，通常设定为1GB左右。 - **Store**：每个Region又分为多个Store，每个Store对应表中的一个列族（Column Family）。 - **...

HBase 系统架构: 4. **Region**：HBase 中数据存储的逻辑分区，每个 Region 包含一个或多个列族。Region 会随着数据量增长而分裂，以保证单个 Region 不过大，维持查询性能。 5. **Column Family（列族）**：列族是预定义的数据存储...

4_HBase.docx: - **Region**：HBase中数据存储的基本单元，相当于关系型数据库中的分区或分片。 - **Store**：Region内部的数据存储结构，由一个MemStore和多个StoreFile组成。 - **MemStore**：内存中的数据缓存区域，用于暂存...

HBase架构解析——维基百科文.pdf: 每个HRegionServer负责管理多个Region，Region是HBase的逻辑分区，存储表的一部分行。当Region的大小达到预设阈值时，HBase Master会触发Region的分裂。 3. **HBase客户端**：提供了API供应用程序使用，支持单行...

Storm流计算项目：1号店电商实时数据分析系统-11.基于HBase的Dao基类和实现类开发一.pptx: Bolt在接收到数据后，将处理结果转化为适合HBase存储的格式，然后通过预设的Dao接口写入HBase。为了保证数据一致性，需要考虑事务和错误处理机制。 5. **线程安全与并发控制** 在多线程环境下，Dao操作需要确保...

基于HBase的大数据架构下负载平衡技术.zip: 当RegionServer的负载超过预设阈值时，Master节点会触发Region迁移，将部分Region转移到负载较低的RegionServer上。 2. **Region分裂与合并**：随着数据的增长，单个Region可能会变得过大，导致读写性能下降。HBase...

基于spark streaming+flume+kafka+hbase的实时日志处理分析系统(分为控制台版本和基于s.zip: 例如，Spark Streaming可以通过增加节点来扩展处理能力，Kafka的分区机制保证了数据处理的并行性，而HBase的分布式特性确保了数据的高可用性。 9. **安全性与隐私**：在处理敏感日志数据时，系统应考虑数据加密和...

Hbase原理分享: 4. **Region分裂**：当HRegion达到预设大小时，HMaster会触发分裂，生成两个新的HRegion，确保数据的扩展性和读写性能。综上所述，HBase是一种适合大规模、高并发、实时读写的NoSQL数据库，它的设计理念和架构使其...

项目笔记1: 首先，MapTask将处理的数据分块存储在内存缓冲区，当达到预设的溢写阈值时，数据会被溢写到磁盘，并在溢写过程中进行局部排序和合并（merge）。这一过程确保了相同键的数据被聚集在一起，为ReduceTask的处理做好准备...

第13章大数据平台监控命令.pptx: Hive作为数据仓库，其性能监控主要包括查询执行时间、内存使用和表的分区状态。`beeline`客户端可用于执行SQL查询并分析执行计划。 ZooKeeper作为分布式协作服务，其监控关注点在于会话状态、节点数据和选举过程。`...

hbaseLoading: 2. **预分区（如果需要）**：为了优化数据分布和负载均衡，可以预先规划Region的边界，这样数据加载时可以直接按照预设的分区键分布到不同的Region。 3. **数据转换**：CSV文件中的数据需要转换为HBase能理解的格式...

HIVE面试题集锦201901: 13. **Hive与HBase的交互**：Hive可以通过HBaseSerDe与HBase进行交互，实现对实时数据的分析。这些知识点是《HIVE面试题集锦201901》中的主要内容，对于理解和掌握Hive在大数据环境中的应用至关重要。在面试或实际...

Global site tag (gtag.js) - Google Analytics