HBase bulkload的一个bug定位

uestzengting

浏览: 97456 次
性别:
来自: 北京

最近访客更多访客>>

汀雨晓洛

swh_197799

ghhong

liuzhiyuan

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hbase

hfile version rowkey bulkload fileinfo

在HBase bulkload过程中，如果rowkey和version都一致，无法取得最新导入的数据。

问题定位：
在HBase里，如果两个HFile中都有相同rowkey和version的数据，是靠HFile的fileinfo里的MAX_SEQ_ID_KEY来判断哪个文件是最新，MAX_SEQ_ID_KEY
越大的文件越新。

1.通过flush写的HFile文件有往fileinfo里面加MAX_SEQ_ID_KEY
public void appendMetadata(final long maxSequenceId, final boolean majorCompaction)
throws IOException {
    writer.appendFileInfo(MAX_SEQ_ID_KEY, Bytes.toBytes(maxSequenceId));
writer.appendFileInfo(MAJOR_COMPACTION_KEY, Bytes.toBytes(majorCompaction));
    appendTimeRangeMetadata();
}

2.而通过bulkload的HFileOutputFormat方式写的HFile没有往fileinfo里面加MAX_SEQ_ID_KEY

private void close(final HFile.Writer w) throws IOException {
    if (w != null) {
        w.appendFileInfo(StoreFile.BULKLOAD_TIME_KEY, Bytes.toBytes(System .currentTimeMillis()));
        w.appendFileInfo(StoreFile.BULKLOAD_TASK_KEY, Bytes.toBytes(context .getTaskAttemptID().toString()));
        w.appendFileInfo(StoreFile.MAJOR_COMPACTION_KEY, Bytes.toBytes(true)); w.close();
    }
}

3.所以导致bulkload后最新的数据取不到，得在HFileOutputFormat加上MAX_SEQ_ID_KEY才行

0
顶

1
踩

分享到：

java线程池 | HBase 不常用命令列表

2011-12-30 11:13
浏览 2317
评论(8)
分类:企业架构
查看更多

8 楼 uestzengting 2013-07-17

朝阳之辉写道

你的想法是保证rowkey唯一是吧，我的想法是rowkey是可以任意重复的，这样可以充分发挥hbase的多版本优势，而在bulkload的过程中保证version（时间戳）绝对唯一，这样才不会丢数据，经过我测试，在很少数据量下的bulkload就有可能时间戳重复，如果恰巧rowkey也相同的话，就会丢失数据

hbase的多版本我没觉得是个优势，我觉得是个糟粕，哈哈。它导致存储模型变复杂了，并同时产生过不少bug，不使用也许更好些。

7 楼朝阳之辉 2013-07-16

6 楼 uestzengting 2013-07-11

朝阳之辉写道

你的version是用的时间戳吧，在数据量非常大的情况下，怎样保证version的绝对唯一呢，如果不是时间戳，就会影响hbase对数据失效的判断吧

是时间戳，我们的数据没有到达rowkey + 时间戳也会重的地步，并且入hbase了以后也不会删除。

如果说在rowkey下用时间戳作为version会导致数据重复，可以将数据存为原rowkey + version + 自增数N位作为新的rowkey，而version存为时间戳，也就不影响失效判断了。

5 楼朝阳之辉 2013-07-10

你的version是用的时间戳吧，在数据量非常大的情况下，怎样保证version的绝对唯一呢，如果不是时间戳，就会影响hbase对数据失效的判断吧

4 楼 hahaiwl 2013-04-11

uestzengting 写道

这是0.90版的bug，不知道最新的版本有没有修复，我们的办法是在bulkload的时候version增大了点，让它version不一样绕过去了。

谢谢。管用。惊醒梦中人

3 楼 uestzengting 2013-04-10

这是0.90版的bug，不知道最新的版本有没有修复，我们的办法是在bulkload的时候version增大了点，让它version不一样绕过去了。

2 楼 hahaiwl 2013-04-10

我也遇到这样的问题，怎么生成，还有怎么设置啊，楼主再详细点，多谢啦

1 楼朝阳之辉 2013-04-07

MAX_SEQ_ID_KEY怎么生成？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hbase在Hulu的实践（2017Hbase亚洲会议ppt）: - 技术栈涉及Spark Streaming、Kafka、HDFS、数据库、批量加载（Bulk Load）、Spark、HBase、MapReduce、服务缓存和HDFS。 5. 用户画像系统的关键技术： - 自动平衡输入格式（AutoBalance Input Format） - 快照...

Matlab基础与应用获奖课件.pptx: Matlab基础与应用获奖课件.pptx

铁路订票平台 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

深部应力环境模拟中pfc-flac耦合代码的应用与实现: 内容概要：本文详细介绍了pfc-flac耦合代码在深部应力环境中模拟巷道和煤层开挖的应用。pfc-flac耦合代码将颗粒流(PFC)和有限差分法(FLAC)相结合，分别用于微观颗粒间相互作用和宏观应力应变问题的处理。文中展示了具体的Python代码片段，解释了如何生成颗粒模型、定义接触模型、创建模拟区域、设置初始应力状态以及实现数据交换。此外，还讨论了耦合代码在处理煤岩损伤演化、开挖步进控制等方面的优势，并提供了实际应用中的优化建议和技术难点。适合人群：从事岩土工程、矿山开采等领域研究的技术人员和科研工作者。使用场景及目标：①模拟深部应力环境下的巷道和煤层开挖过程；②研究岩体应力重分布及其对开挖的影响；③提高模拟精度，更好地预测岩层破坏形态。其他说明：尽管pfc-flac耦合代码在深部应力环境模拟中有显著优势，但也存在一些挑战，如内存消耗较大等问题。文中提到了一些优化措施，如调整参数以节省内存开销等。

电力系统基于谐波线性化的阻抗建模与稳定性分析：考虑锁相环影响的逆变器输出阻抗模型设计及应用: 内容概要：文章详细阐述了阻抗建模过程，分为不考虑锁相环影响和考虑锁相环影响两种情况。不考虑锁相环时，基于电路拓扑结构列出方程，通过谐波线性化方法建模，并将电流基频分量及其正负序谐波分量进行傅里叶变换至频域，再变换至dq坐标系下，最终求得正负序输出阻抗。考虑锁相环影响时，重点在于锁相环对abc坐标系向dq坐标系转换的作用，以及谐波分量对锁相环角度的影响，通过引入传递函数，推导出正负序谐波电压分量到输出扰动角的传递函数，进而求得更精确的输出阻抗。此外，还介绍了稳定性分析，通过诺顿等效和戴维南等效，依据奈奎斯特稳定判据确保系统稳定。适合人群：电力电子、自动化等相关专业的研究人员和技术人员，尤其是对电力系统建模与稳定性分析感兴趣的读者。使用场景及目标：①用于研究并网逆变器的阻抗特性；②提高对锁相环在电力系统中作用的理解；③为电力系统的稳定性分析提供理论支持。阅读建议：本文涉及较多数学公式和专业术语，建议读者先掌握基本的电力系统理论和控制理论基础知识，结合相关文献深入理解公式推导过程。

SpringBoot的租房系统，你看这篇就够了(附源码）: SpringBoot的租房系统，你看这篇就够了(附源码）

MapGIS地质图件一般统一规定.doc: MapGIS地质图件一般统一规定.doc

MATLAB/Simulink中800V直流母线311V交流输出的VSG虚拟同步发电机控制详解: 内容概要：本文详细介绍了如何在MATLAB/Simulink中搭建和调试800V直流母线、311V交流输出的虚拟同步发电机（VSG）控制系统。首先，文章解释了VSG的基本概念及其重要性，接着深入探讨了功率计算模块、机械方程模块和电压环控制的具体实现方法。文中提供了多个关键公式的代码实现，并强调了调试过程中需要注意的关键参数和常见错误。此外，还分享了一些实践经验，如避免过度调制、设置合理的虚拟惯量和阻尼系数、以及进行负载突变测试的方法。适合人群：从事电力电子、电力系统仿真研究的技术人员，尤其是有一定MATLAB/Simulink基础的研发人员。使用场景及目标：适用于需要理解和实现虚拟同步发电机控制系统的科研项目和技术开发。目标是帮助读者掌握VSG的工作原理和实现方法，提高仿真和实际应用的成功率。其他说明：文章不仅提供了详细的理论推导和代码实现，还结合了大量的实践经验，使读者能够更好地应对实际工程中的挑战。同时，提醒读者在实际应用前进行全面的极端工况测试，确保系统的稳定性和可靠性。

智慧校园管理系统 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

PLC关键工程师现场调试步骤.doc: PLC关键工程师现场调试步骤.doc

PCCAN接口解决专题方案.doc: PCCAN接口解决专题方案.doc

电力传输领域中110kV三相高压电缆对地面人体电磁场影响的COMSOL仿真分析: 内容概要：本文详细介绍了如何使用COMSOL软件对110kV三相高压电缆周围的电磁场进行建模和分析，探讨其对人体的影响。主要内容包括：建立电缆和人体的几何模型，选择适当的物理场模块并设置相关参数，进行精细的网格划分，以及最终求解和结果分析。文中不仅提供了具体的MATLAB和Java代码片段，还讨论了实际工程中需要注意的关键细节和技术难点，如电流密度、磁场强度的计算，网格划分策略，求解器设置等。通过对电场和磁场分布的深入分析，得出电缆周围电磁场对人体的具体影响及其安全性评价。适合人群：从事电力系统设计、电磁兼容性研究的专业人士，以及对电磁场仿真感兴趣的科研工作者。使用场景及目标：适用于电力设施建设前期的电磁环境评估，帮助工程师优化电缆布局，确保电磁辐射在安全标准范围内，保障公共健康。此外，也可作为教学案例，帮助学生掌握电磁场仿真技术和COMSOL软件的应用。其他说明：文章强调了实际工程应用中的注意事项，如材料参数的选择、网格划分的合理性、求解器配置等，这些都是确保仿真结果准确性的重要因素。同时，通过具体实例展示了如何利用COMSOL进行复杂电磁场问题的研究，为相关领域的进一步探索提供了宝贵的经验和参考。

【数学建模竞赛】“妈妈杯”全国大学生数学建模竞赛：参赛指南与备赛经验分享: 内容概要：“妈妈杯”是全国大学生数学建模竞赛的俗称，由中国工业与应用数学学会（CSIAM）主办。该竞赛面向全国普通高校全日制在校本科生和研究生，通常于每年11月左右举行。比赛形式为团队赛，每队3人，在规定时间内完成数学建模题目并提交论文。竞赛题目涉及实际问题，要求参赛者运用数学建模、计算机编程和论文写作能力解决问题。文中详细介绍了比赛的报名方式、备赛经验和往届题目。报名时间为每年10月左右，费用约为200~400元/队。备赛建议包括团队分工、核心技能提升、赛前模拟训练等方面。往届题目涵盖社会热点问题，如城市垃圾分类、新能源汽车充电桩布局等。适合人群：全国普通高校全日制在校本科生和研究生，尤其是对数学建模感兴趣的学生。使用场景及目标：①了解“妈妈杯”全国大学生数学建模竞赛的具体情况，包括主办单位、参赛对象、比赛时间和形式；②掌握比赛的报名方式、费用和官方信息渠道；③学习备赛经验和技巧，如团队分工、核心技能提升、赛前模拟训练；④参考往届题目和社会热点问题，为参赛做好充分准备。阅读建议：此资源详细介绍了“妈妈杯”全国大学生数学建模竞赛的各个方面，从比赛基本信息到备赛经验都有覆盖。建议参赛学生仔细阅读，结合自身情况进行团队分工和技能提升，并关注官方渠道以获取最新信息。

Linux操作系统试验基础指导书.doc: Linux操作系统试验基础指导书.doc

永磁同步电机非奇异快速终端滑模速度控制(GFTSMC)仿真及其应用: 内容概要：本文详细介绍了永磁同步电机(PMSM)采用非奇异快速终端滑模控制(GFTSMC)进行速度控制的方法和仿真结果。首先解释了传统PI调节器和滑模控制存在的问题，特别是抖振和收敛速度慢。接着展示了GFTSMC的核心设计思路，包括滑模面设计、控制律实现以及参数选择。文中提供了具体的MATLAB代码片段，用于实现滑模面和控制律，并讨论了如何通过调整参数来优化性能。仿真结果显示，在负载突变情况下，GFTSMC相比传统方法表现出更快的响应时间和更低的抖振水平。此外，作者还分享了一些调试经验和注意事项，如使用sigmoid函数减少抖振、设置合理的参数范围等。适合人群：从事电机控制系统研究与开发的技术人员，尤其是对永磁同步电机有深入了解并希望提高其抗扰能力和响应速度的研究者。使用场景及目标：适用于需要高性能速度控制的应用场合，如无人机电调、电动汽车驱动系统等。目标是实现快速响应的同时确保系统的稳定性和平滑性。其他说明：文中提到的实际案例基于3kW永磁同步电机的实验数据，强调了理论与实践相结合的重要性。同时指出，尽管GFTSMC表现优异，但在实际应用中仍需考虑电机参数辨识的准确性，以避免因参数失配导致的性能下降。

基于COMSOL的煤矿瓦斯抽采数值模拟：变渗透率模型与煤体变形耦合效应研究: 内容概要：本文详细介绍了利用COMSOL进行煤矿瓦斯抽采数值模拟的方法，特别是变渗透率模型与煤体变形之间的耦合效应。文章首先解释了如何在COMSOL中建立固体力学和达西流的耦合模型，通过引入动态渗透率公式（如指数型变渗透率模型），将煤体变形与瓦斯流动紧密联系在一起。接着讨论了边界条件的设置技巧，强调了钻孔周围网格加密的重要性以及求解器配置的优化方法。此外，文中还分享了一些实用的操作技巧，如使用探针功能实时监测压力变化，确保模拟结果的准确性。最后，作者通过实际案例展示了模型的有效性和应用价值，指出该模型能够更好地预测瓦斯流动路径和抽采效果。适合人群：从事煤矿开采、瓦斯治理及相关领域的科研人员和技术工程师。使用场景及目标：适用于需要精确模拟煤矿瓦斯抽采过程的研究项目，旨在提高抽采效率并保障矿井安全。通过该模型，研究人员可以深入理解煤体变形与瓦斯流动之间的复杂关系，从而优化抽采工艺。其他说明：文章不仅提供了详细的建模步骤和技术细节，还分享了许多实践经验，帮助读者避免常见错误，提升模拟的成功率。同时，作者鼓励进一步探索多物理场耦合的可能性，如加入温度场的影响，以获得更加全面的理解。

自动控制领域中直流电机模糊PID控制算法的Matlab实现: 内容概要：本文详细介绍了直流电机的传递函数及其在Matlab环境下的模糊PID控制算法实现。首先，阐述了直流电机传递函数的基本概念，描述了输入电枢电压与输出转速之间的动态关系。接着，解释了模糊控制PID算法的工作原理，包括模糊化、模糊规则制定、模糊推理与解模糊等步骤。然后，展示了具体的Matlab代码实现，涵盖了传递函数定义、模糊控制器设计、仿真过程以及绘图展示控制效果。通过对比实验数据，证明了模糊PID控制在应对负载突变时的优势。适合人群：对自动控制理论有一定了解并希望通过Matlab实现具体控制算法的研究人员和技术人员。使用场景及目标：适用于需要精确控制直流电机转速的应用场景，如工业自动化生产线、机器人控制系统等。主要目标是提高系统的鲁棒性和适应性，尤其是在面对非线性或不确定性的环境中。其他说明：文中提供的Matlab代码可以直接运行，便于读者理解和实践。同时，强调了在设计模糊控制器时需要注意的一些关键点，如隶属函数的选择和规则库的设计，确保控制效果最优。

Matlab. EW-trading-Strategy: In MATLAB, an EW (Exponentially Weighted) trading strategy involves using moving averages, a common technique for smoothing price data and identifying trends. This strategy can be implemented in MATLAB to generate buy and sell signals based on how the current price relates to the exponentially weighted moving average. Here's a breakdown of how to implement an EW trading strategy in MATLAB: 1. Data Preparation: Load historical price data: Import your financial data into MATLAB. This data should include the closing price of the asset you intend to trade. Calculate the exponentially weighted moving average (EWMA): Use the ewma function in MATLAB to calculate the EWMA. The ewma function takes the price data and a "smoothing factor" as input. The smoothing factor controls the speed at which th

【嵌入式系统】AUTOSAR操作系统任务管理机制详解：Basic与Extended任务状态及属性配置了AUTOSAR: 内容概要：本文深入探讨了AUTOSAR OS中的任务机制，详细介绍了Basic Task和Extended Task两种任务类型及其状态转换。Basic Task有Suspended、Ready、Running三种状态，Extended Task在此基础上增加了Waiting状态。文章还列举并解释了AUTOSAR OS任务的多个关键属性配置，如任务名称、激活次数限制、内存保护标识、优先级、调度模式、堆栈大小、任务类型、FPU使用、自动启动和时间保护等。这些配置项可通过Vector DaVinci Configurator工具进行设置，以满足不同的应用场景需求。; 适合人群：汽车电子软件工程师，尤其是对AUTOSAR OS有一定了解，希望深入了解任务调度机制的工程师。; 使用场景及目标：①理解Basic Task与Extended Task的区别及其状态转换机制；②掌握AUTOSAR OS任务的关键属性配置，优化任务调度和系统性能；阅读建议：本文内容较为专业，建议读者结合实际项目经验，特别是AUTOSAR OS的配置和调试经验来阅读，以便更好地理解和应用文中提到的任务机制和配置方法。

毕业设计基于Python Web的社区爱心养老管理系统（完整前后端+mysql+说明文档+LW+PPT）.zip: 前台: 首页、公共书籍、活动信息、网站公告、个人中心管理员：首页、用户、身体健康、公共书籍、借阅信息、归还信息、还书入库、图书分类、活动信息、活动报名、活动分类、系统管理等关键技术：Python、Django、Mysql、B/S 内容包含：源码+数据库+开发文档+LUN文+PPT，快速上手。标价即实价：一键购买，无需议价。技术支持：已测试可正常运行，调试问题可联系客服有偿解决。更多项目：欢迎咨询，我们将快速回复。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论