secondary index for hbase

lc_koven

浏览: 355724 次
性别:
来自: 杭州

最近访客更多访客>>

<苍狼>

gaoming1990

libisthanks

m635674608

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hbase

HBase Hadoop Mapreduce Apache

　　最近因为业务需求的原因，需要开始研究hbase中的secondary index。

　　业务模型有点类似于rmdb中的select from table where xx=xx,这里的xx无法做成rowkey，因此需要secondary index，否则只能全表扫描。尽管hbase的全表扫描是优势，但是在线应用也接受不了相应的延迟。

　　在早期的hbase中(0.20.x)曾经出现过secondary index，但后来因为无法解决的blocker级别issue而在0.89以上的版本中取消了。

　　目前0.90.x版本的hbase中有IndexBuilder类，用于离线地创建secondary index，用法是hadoop org.apache.hadoop.hbase.mapreduce.IndexBuilder TABLE_NAME COLUMN_FAMILY ATTR [ATTR ...]，如果应用的类型是一次写入或者每天定时写入，那这是个相当不错的选择。

　　但是如果想在线地写入index，事情就变得相当有趣了。目前的模型通常如下：

创建主表的wal edits对象
创建index表的wal edits对象，该对象特殊标注下，以便在恢复log时不会处理该对象
sync这两个对象到hlog中
写主表的memstore，写完后执行commit
收到commit时，将index的写请求放入后台共享作业队列中，离线处理
返回给client

　　可见hbase由于无法解决多行一致性问题，因此让index的写入滞后于数据的写入，然后通过日志来保障最终一致性，这样产生了以下问题：

如何保证两个对象能够sync到hlog中？
如何保证failover后，能够知道哪些index队列中的请求还未执行的？
当发生failover后一段时间后，master的淘汰hlog机制启动后，如何能够知道哪些index hlog 是没有处理的？由于淘汰机制是检查hlog与storefile中的timestamp来进行的，很可能发生删除还没有处理index hlog的问题
如何自动地创建index表？目前只支持提前手工建好
读的api如何实现？如果索引不到数据，就直接返回null？还是需要到请求队列中去merge一次？
index如何加载到内存中

　　这些问题非常有趣，留待后文慢慢细说。如果大家有思路，或者有其它问题，欢迎一起讨论。

分享到：

hbase交流记录 | hdfs上的append测试

2011-05-07 23:05
浏览 5817
评论(4)
分类:互联网
查看更多

4 楼 lc_koven 2011-05-09

lance_123 写道

cassandra已经支持secondary index这项功能了。

是的，cassandra解决事务性的方法，是将index和data写到同一行commitlog中。这应该是hbase解决事务的突破口

3 楼 lance_123 2011-05-08

cassandra已经支持secondary index这项功能了。

2 楼 lc_koven 2011-05-07

是的，有相应的考虑。因为业务上还是有需求的。lily的解决方案太重量级了。考虑从社区的branch上开始动手

对于离线写入的模型，现在hbase解决还是非常不错的，正巧我们也有部分这样的业务。

1 楼杨俊华 2011-05-07

目前HBase还是不支持secondary index的。
如果对一致性要求不高，Lily是一个解决方案。但是比较复杂。
你们最近有考虑开发secondary index吗？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hbase创建二级索引: public class IndexBuilder3 extends Configured{ public static class MapperIndex extends TableMapper,Put>{ private String tableName; private String column...for (byte[] k:keys){ // 该列对应的索引表名字

HBase全局一致性事务支持Tephra.zip: this.secondaryIndex = secondaryIndex; this.transactionAwareHTable = new TransactionAwareHTable(hTable); this.secondaryIndexTable = new TransactionAwareHTable(secondaryIndexHTable); ...

Enumeration system on HBase for low-latency: 为了更好地理解HBase的枚举系统及其优化方案，还需要深入探讨HBase的数据模型、存储结构、数据操作（如put、get、delete）以及如何在HBase集群中实现高效的数据一致性保障。此外，还需关注HBase在集群管理、版本控制...

Hortonworks Data Platfrom集群安装与操作文档: 安装过程中遵循了《HDP Install and Upgrade for Windows》指南，并结合实际部署经验进行了调整和优化。 #### 二、准备工作 **2.1 系统环境** - **硬件要求**： - 三台主机（主机名分别为hdp-hadoop1、hdp-...

基于A*算法的往返式全覆盖路径规划改进及其Matlab实现: 内容概要：本文详细介绍了如何利用A*算法改进传统的往返式路径规划，解决扫地机器人在复杂环境中容易卡住的问题。首先构建了一个可视化的栅格地图用于模拟环境，然后引入了优先级运动规则，使机器人能够有规律地进行往返清扫。当遇到死角时，通过A*算法计算最佳逃生路径，确保机器人能够顺利脱困并继续完成清扫任务。实验结果显示，改进后的算法显著提高了清洁覆盖率，降低了路径重复率。此外，还讨论了一些潜在的优化方向，如动态调整启发函数权重、断点续传以及能耗模型等。适合人群：对路径规划算法感兴趣的科研人员、自动化专业学生、扫地机器人开发者。使用场景及目标：适用于需要高覆盖率和低重复率的室内清洁任务，旨在提高扫地机器人的工作效率和智能化水平。其他说明：文中提供了详细的Matlab代码实现，并附带了仿真测试结果，有助于读者理解和复现该算法。

爬取喜马拉雅听书(1).py: 爬取喜马拉雅听书(1)

安卓向上传递数据学习笔记总结: 安卓向上传递数据学习笔记总结

tigervnc-selinux-1.11.0-9.el8.x64-86.rpm.tar.gz: 1、文件说明： Centos8操作系统tigervnc-selinux-1.11.0-9.el8.rpm以及相关依赖，全打包为一个tar.gz压缩包 2、安装指令： #Step1、解压 tar -zxvf tigervnc-selinux-1.11.0-9.el8.tar.gz #Step2、进入解压后的目录，执行安装 sudo rpm -ivh *.rpm

户外储能电源双向逆变器板生产资料及技术规格详解: 内容概要：本文详细介绍了户外储能电源双向逆变器板的技术资料及其特点。涵盖原理文件、PCB文件、源代码、电感与变压器规格参数等，适用于2KW（最大3KW）的户外储能电源。文中强调了双向软开关DC-DC设计、两颗M0+ 32位MCU的分工、SPWM调制方式、H桥IGBT的应用、详细的电气参数和技术特性。此外，还包括了SPWM信号生成代码示例、硬件设计细节、生产注意事项等。适合人群：从事户外储能电源开发的技术人员、电子工程师、产品经理等。使用场景及目标：帮助开发者快速掌握双向逆变器板的设计和生产要点，缩短产品研发周期，提高产品质量和可靠性。具体应用场景包括但不限于户外应急电源、便携式储能设备等。其他说明：本文提供了丰富的技术细节和实践经验，如双向软开关DC-DC设计、SPWM调制、IGBT驱动、EMC整改记录等，有助于解决实际开发中的难题。同时，附带的实际案例展示了该方案的成功应用，进一步证明了其可行性和优越性。

电能质量分析：间谐波分析.zip: 电子仿真教程，从基础到精通，每个压缩包15篇教程，每篇教程5000字以上。

【计算机科学领域】美国计算机学会(ACM)：组织架构、使命愿景、核心价值及活动项目介绍: 内容概要：美国计算机学会（ACM）是一个成立于1947年的国际性计算机专业组织，致力于推动计算机科学的发展，提供教育、资源和专业发展机会。ACM的使命是促进计算机科学和信息技术领域的进步，愿景是成为全球计算机专业人士的首选组织。其核心价值包括卓越、诚信、包容性、合作和创新。ACM定期举办学术会议，如SIGGRAPH和图灵奖颁奖典礼，出版高质量的学术期刊和会议论文集，涵盖人工智能、软件工程、网络安全等领域。此外，ACM还提供在线课程、研讨会、认证项目等教育资源，以及职业规划、网络机会和领导力培训等职业发展服务。ACM图灵奖被誉为“计算机界的诺贝尔奖”，每年颁发给对计算机科学和技术做出重大贡献的个人。; 适合人群：计算机科学领域的专业人士、教育工作者、工程师和学生。; 使用场景及目标：①了解计算机科学领域的最新研究成果和发展趋势；②获取高质量的教育资源和职业发展机会；③参与计算机科学领域的学术交流和合作。; 其他说明：ACM作为一个全球性的组织，在教育、研究和行业实践中发挥着重要作用，推动了技术创新和社会进步。

最新版logstash-8.17.4-windows-x86-64.zip: logstash-8.17.4-windows-x86_64.zip

一个基于Springboot使用Aspect实现一个切面，以记录日志为例: springboot 一个基于Springboot使用Aspect实现一个切面，以记录日志为例

音箱底部折边设备sw22可编辑_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip: 音箱底部折边设备sw22可编辑_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip

基于Python Django MySQL的个性化图书推荐系统：协同过滤算法及远程部署实现: 内容概要：本文详细介绍了如何使用Python、Django和MySQL构建一个完整的个性化图书推荐系统。系统从前端界面设计、后端逻辑实现到数据库设计，涵盖了用户管理、图书管理、评分系统等功能模块。重点讲解了基于用户和项目的协同过滤算法实现，以及在用户评分数据不足时的标签推荐备份方案。此外，还包括了系统部署、测试和优化的具体步骤，如云服务器部署、性能测试、数据库优化等。适合人群：具备一定Python和Web开发基础的研发人员，尤其是对推荐系统感兴趣的技术爱好者。使用场景及目标：适用于希望深入了解图书推荐系统的工作原理和实现细节的技术人员。目标是帮助读者掌握从零开始搭建一个完整的个性化推荐系统的方法，包括前后端开发、算法实现和系统部署。其他说明：文中提供了大量代码示例和实战经验，如数据库设计、爬虫实现、权限管理等，有助于读者更好地理解和应用相关技术。

Ai和python学习资料: Ai和python学习资料

文本摘要.py: 文本摘要

冲击试验机sw22_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip: 冲击试验机sw22_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip

Java开发MybatisPlus框架详解：增强Mybatis功能实现高效CRUD操作与代码生成: 内容概要：本文详细介绍了MyBatis Plus（MP），它是MyBatis的增强工具，旨在简化CRUD操作、提高开发效率。其主要功能包括内置分页插件、简化CRUD操作以及代码生成器。使用时只需引入相应依赖，自定义Mapper接口继承BaseMapper泛型接口，并通过实体类反射获取数据库表信息。文章还介绍了常用注解如@TableName、@TableId、@TableField、@TableLogic和@Version，配置项如全局配置、类型别名和Mapper文件路径，以及核心功能如批量插入、分页查询、条件构造器（Wrapper）等。此外，扩展功能涵盖逻辑删除、枚举处理器和JSON处理器，插件功能则包括分页插件的配置和使用。适合人群：具备一定Java开发经验，尤其是熟悉MyBatis框架的开发者，特别是那些希望提高开发效率、减少重复代码的工作1-3年研发人员。使用场景及目标：①简化数据库操作，提高开发效率；②快速生成代码，减少手动编写SQL语句的工作量；③实现分页查询、逻辑删除、枚举和JSON字段处理等高级功能，提升应用的灵活性和可维护性。其他说明：本文不仅提供了MyBatis Plus的功能介绍和使用方法，还深入探讨了条件构造器（Wrapper）的使用技巧，帮助开发者更好地理解和掌握这一强大的工具。在实际开发中，合理利用这些功能可以显著提高开发效率和代码质量。建议在学习过程中结合具体项目实践，逐步掌握各个功能的应用场景和最佳实践。

电路仿真：射频电路仿真.zip: 电子仿真教程，从基础到精通，每个压缩包15篇教程，每篇教程5000字以上。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论