本月博客排行
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- benladeng5225
- wy_19921005
- fantaxy025025
- e_e
- zysnba
- ssydxa219
- sam123456gz
- javashop
- arpenker
- tanling8334
- kaizi1992
- xpenxpen
- wiseboyloves
- xiangjie88
- ranbuijj
- ganxueyun
- sichunli_030
- xyuma
- wangchen.ily
- jh108020
- lemonhandsome
- zxq_2017
- jbosscn
- Xeden
- luxurioust
- zhanjia
- forestqqqq
- lzyfn123
- ajinn
- nychen2000
- wjianwei666
- hanbaohong
- daizj
- 喧嚣求静
- mwhgJava
- silverend
- kingwell.leng
- lchb139128
- kristy_yy
- lich0079
- johnsmith9th
- jveqi
- java-007
- sunj
最新文章列表
【原创】HBase如何实现海量数据的毫秒级查询
HBase中单表的数据量通常可以达到TB级或PB级,但大多数情况下数据读取可以做到毫秒级。HBase是如何做到的哪?要想实现表中数据的快速访问,通用的做法是数据保持有序并尽可能的将数据保存在内存里。HBase也是这样实现的。
对于海量级的数据,首先要解决存储的问题。
数据存储上,HBase将表切分成小一点的数据单位region,托管到RegionServer上,和以前关系数据库分 ...
HBase 查看HFile内容
HBase 查看HFile内容
hbase 查看HFile hbase的数据文件最终存放的是HFile文件,即对MFile存储格式的封装修改,存储的为二进制格式内容,目前hbase提供的hbase org.apache.hadoop.hbase.io.hfile.HFile 工具类可以查看HFile文件内容,对排查region的分布情况有很大用途,以下为查询步骤:
定位HFile ...
非mapreduce生成Hfile,然后导入hbase当中
最近一个群友的boss让研究hbase,让hbase的入库速度达到5w+/s,这可愁死了,4台个人电脑组成的集群,多线程入库调了好久,速度也才1w左右,都没有达到理想的那种速度,然后就想到了这种方式,但是网上多是用mapreduce来实现入库,而现在的需求是实时入库,不生成文件了,所以就只能自己用代码实现了,但是网上查了很多资料都没有查到,最后在一个网友的指引下,看了源码,最后找到了生成Hfile ...
hbase hfile文件格式 详解
1.HFile详解
HFile文件分为以下六大部分
序号
名称
描述
1
数据块
由多个block(块)组成,每个块的格式为:[块头] + [key长] + [value长] + [key] + [value]。
2
元数据块
元数据是key-value类型的值,但元数据快只保存元数据的value值,元数据的key值保存在第五项(元数据索引块)中。
...
hadoop mr file2hfile2hbase
写了个简单的mr 操作file到hfile,在把hfile倒入hbase的例子,在此记录一下:
File2HFile2HBase.java代码:
package com.lyq.study.example;
import java.io.IOException;
import java.security.PrivilegedAction;
import java.util.Arra ...
【HBase工具】查看解析HFile
查看HFile是HBase本身自带的一个很实用的工具
使用也很简单:
$ ${HBASE_HOME}/bin/hbase org.apache.hadoop.hbase.io.hfile.HFile
usage: HFile [-a] [-b] [-e] [-f <arg>] [-k] [-m] [-p] [-r <arg>] [-v]
-a,--checkfam ...
HBase bulkload的一个bug定位
在HBase bulkload过程中,如果rowkey和version都一致,无法取得最新导入的数据。
问题定位:
在HBase里,如果两个HFile中都有相同rowkey和version的数据,是靠HFile的fileinfo里的MAX_SEQ_ID_KEY来判断哪个文件是最新,MAX_SEQ_ID_KEY
越大的文件越新。
1.通过flush写的HFile文件有往fileinfo里面加MAX ...