性能测试小结:
测试环境:
机器:1 client 5 regin server 1 master 3 zookeeper
配置:8 core超到16 /24G内存,region server分配了4G heap /单seta磁盘,raid10后500GB
系统:Red Hat Enterprise Linux Server release 5.4
版本:hadoop-0.20.2+737 / hbase-0.90.1 / Java HotSpot(TM) 64-Bit Server VM (build 17.0-b16, mixed mode)
htable假设:row key = 200 Byte;row value=1k Byte;1 family 1 column
前期主要测试了读写性能,非常满意。可以跑满网卡。
接下来进行了一些持续压力测试,下面是测试的一些结论
1 master启动时会读取和恢复所有hlog,这一步的工作是读取所有hlog放在内存中。在集群比较大写入比较频繁时需要配置较大内存
2 dns配置必须保证一致,在启动时dns解析不一致,运行不会报错,但是balance和recovery时会产生很大的问题,因为master无法准确地判断region server的状态。这个问题非常严重
3 LRU引起的性能消耗非常大,因为一旦内存不能命中,则需要从网络上其它主机请求数据,性能的下降是一到两个数量级。因此需要严格计算内存的使用情况,默认的计算公式是heap of regionserver * 0.2 * 0.85,其中0.2那个因子是可以配置的,建议配置到0.4-0.5
4 update时会引起读写锁互斥,目前测试可以得到互斥会引起读的性能下降一倍。当然对写是无影响的。insert也不会有影响
5 balancer将定期检查,默认是5分钟。balance主要将平衡各台机器的总region数量,有三种平衡算法,效果都差不多,由于balance时会改变region对应的server的信息,因此会有短暂的服务不可用时间,抛出NotServingRegion异常。该异常在客户端进行处理,目前默认的处理办法是阻塞。经压力测试得到balance时的region不可用时间为20ms以内,6小时内balance次数约12次
6 balancer不会以table为粒度进行工作。这会导致如果一张表的row key长期没有发生变化,则数据有可能倾斜在某个region server上
7 compact时虽然复杂,但几乎不会阻塞读写,因为region的状态并没有改变,而只是生成了一个新的store file再做一次rename操作,只在rename时会加一个写锁,但是很快解锁。在平均3500qps写入的压力测试中统计了3个小时内某个region server中的compact次数为195次,其中40次<1s,110次1-2s,32次2-3s,10次3-4s,1次4s,1次7s
8 split耗时在10ms级别,对访问正在split的region的请求抛出NotServingRegion异常
分享到:
相关推荐
#### 四、小结 - 《hbase权威指南》不仅是一本详尽的技术手册,也是理解HBase架构和实现原理的重要参考书。它覆盖了从理论基础到实际应用的各个方面,对于希望深入学习HBase的技术人员来说非常有价值。通过本书的...
- **功能**:用于检测HBase集群的状态,通过简单查询来验证region的可用性和读取性能。 - **模式**:region模式和regionserver模式,前者检查每个region,后者针对regionserver。 - **实用性**:2星,因为它只...
在Snappy发布之后,HBase建议使用Snappy算法,并根据实际情况对LZO和Snappy进行对比测试后做出选择。 在具体项目实施过程中,比如利用基数估计的概率算法stream-lib解决去重计算问题时,需要考虑到算法的选择对内存...
14.2 性能测试 237 14.2.1 50/50的读和更新 237 14.2.2 95/5的读和更新 237 14.2.3 扫描 238 14.2.4 可扩展性测试 238 14.2.5 Hypertable测试 238 14.3 背景比较 239 14.4 小结 240 第15章 共存 241 15.1 ...
1.3 本章小结 第2 部分 数据逻辑. 2 将数据导入导出Hadoop. 2.1 导入导出的关键要素 2.2 将数据导入Hadoop . 2.2.1 将日志文件导入Hadoop 技术点1 使用Flume 将系统日志文件导入HDFS 2.2.2 导入...
2. 性能优化:Phoenix通过将SQL查询转换为HBase的扫描操作,提高了查询性能。此外,它还支持索引,进一步提升了查询速度。 3. 并行处理:Phoenix能够并行执行查询,利用多核处理器的优势,提高查询效率。 4. 兼容...
通过这个实验,学生将深入理解Hadoop MapReduce的工作原理,掌握如何处理自定义数据类型,使用Combiner优化性能,以及如何通过Eclipse提交和管理MapReduce任务。这些都是大数据处理和分布式计算中的核心技能,对于...
#### 小结 本文详细介绍了如何在Hadoop2.6伪分布环境中安装配置Sqoop1.4.6,并通过具体的实例演示了如何将数据从MySQL导入到HDFS以及从HDFS导出到MySQL的过程。通过这些步骤,您可以更深入地理解Sqoop的工作原理及其...
3.10 小结 131 习题 131 参考文献 131 第4章 微软云计算Windows Azure 135 4.1 微软云计算平台 135 4.2 微软云操作系统Windows Azure 136 4.2.1 Windows Azure概述 136 4.2.2 Windows Azure计算服务 137 4.2.3 ...
**课件与资源**:提供的课件和资源如“Hadoop+Kerberos+Sentory.pdf”、“课件.pdf”、“Kerberos概念.png”和“Hadoop-Kerberos-模块小结知识点划分.xlsx”应该包含了更详细的步骤解释、示例配置和Kerberos原理图解...