最新文章列表

HBase HFile存储格式

HFile存储格式 HFile是参照谷歌的SSTable存储格式进行设计的,所有的数据记录都是通过它来完成持久化,其内部主要采用分块的方式进行存储,如图所示: 每个HFile内部包含多种不同类型的块结构,这些块结构从逻辑上来讲可归并为两类,分别用于数据存储和数据索引(简称数据块和索引块),其中数据块包括: (1) DATA_BLOCK:存储表格数据 (2) BLOOM_ ...
aoyouzi 评论(0) 有1487人浏览 2016-05-08 11:10

【原创】HBase如何实现海量数据的毫秒级查询

HBase中单表的数据量通常可以达到TB级或PB级,但大多数情况下数据读取可以做到毫秒级。HBase是如何做到的哪?要想实现表中数据的快速访问,通用的做法是数据保持有序并尽可能的将数据保存在内存里。HBase也是这样实现的。   对于海量级的数据,首先要解决存储的问题。   数据存储上,HBase将表切分成小一点的数据单位region,托管到RegionServer上,和以前关系数据库分 ...
dujian.gu 评论(0) 有5217人浏览 2015-07-09 16:45

HBase 查看HFile内容

HBase 查看HFile内容   hbase 查看HFile hbase的数据文件最终存放的是HFile文件,即对MFile存储格式的封装修改,存储的为二进制格式内容,目前hbase提供的hbase org.apache.hadoop.hbase.io.hfile.HFile 工具类可以查看HFile文件内容,对排查region的分布情况有很大用途,以下为查询步骤: 定位HFile ...
duguyiren3476 评论(0) 有4151人浏览 2015-03-26 17:54

非mapreduce生成Hfile,然后导入hbase当中

最近一个群友的boss让研究hbase,让hbase的入库速度达到5w+/s,这可愁死了,4台个人电脑组成的集群,多线程入库调了好久,速度也才1w左右,都没有达到理想的那种速度,然后就想到了这种方式,但是网上多是用mapreduce来实现入库,而现在的需求是实时入库,不生成文件了,所以就只能自己用代码实现了,但是网上查了很多资料都没有查到,最后在一个网友的指引下,看了源码,最后找到了生成Hfile ...
Stark_Summer 评论(0) 有3671人浏览 2015-03-10 15:19

hbase hfile文件格式 详解

1.HFile详解 HFile文件分为以下六大部分 序号 名称 描述 1 数据块 由多个block(块)组成,每个块的格式为:[块头] + [key长] + [value长] + [key] + [value]。 2 元数据块 元数据是key-value类型的值,但元数据快只保存元数据的value值,元数据的key值保存在第五项(元数据索引块)中。   ...
blackproof 评论(0) 有3226人浏览 2014-12-09 14:47

hadoop mr file2hfile2hbase

写了个简单的mr 操作file到hfile,在把hfile倒入hbase的例子,在此记录一下: File2HFile2HBase.java代码: package com.lyq.study.example; import java.io.IOException; import java.security.PrivilegedAction; import java.util.Arra ...
beat_it_ 评论(0) 有3046人浏览 2014-08-27 00:25

Hadoop生成HFile直接入库HBase心得

转载请标明出处:http://blackwing.iteye.com/blog/1991380 hbase自带了ImportTsv类,可以直接把tsv格式(官方教材显示,是\t分割各个字段的文本格式)生成HFile,并且使用另外一个类org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles直接把HFile移动到hbase对应的hdfs目录。 ...
BlackWing 评论(0) 有5281人浏览 2013-12-18 16:15

HBase HFile和Hlog的cleaner执行流程和配置项

HFile和Hlog是HBase中两大文件存在格式,HFile用于存储数据,Hlog用于保证数据写入HFile中。 两者都有自己的cleaner逻辑。HFileCleaner和LogCleaner都是继承CleanerChore类 public class HFileCleaner extends CleanerChore<BaseHFileCleanerDelegate> public ...
brianf 评论(0) 有5875人浏览 2013-06-09 14:50

HBase架构图

HBase系统架构图 Client  HBase Client使用HBase的RPC机制与HMaster和HRegionServer进行通信,对于管理类操作,Client与HMaster进行RPC;对于数据读写类操作,Client与HRegionServer进行RPCZookeeper Zookeeper Quorum中除了存储了-ROOT-表的地址和HMaster的地址,HRegionS ...
greatwqs 评论(0) 有3000人浏览 2013-03-27 17:59

[HBase]KeyValue and HFile create

HBase put数据时会先将数据写入内存,其内存结构是一个ConcurrentSkipListMap,其Comparator是KVComparator。 keyvalue对象结构 KVComparator的KeyValue对象比较过程 1.使用KeyComparator比较rowkey,结果是rowkey字节序从小到大 2.如果rowkey一样,则按column family比较, ...
iwinit 评论(1) 有5443人浏览 2013-03-13 14:00

【HBase工具】查看解析HFile

查看HFile是HBase本身自带的一个很实用的工具 使用也很简单: $ ${HBASE_HOME}/bin/hbase org.apache.hadoop.hbase.io.hfile.HFile  usage: HFile  [-a] [-b] [-e] [-f <arg>] [-k] [-m] [-p] [-r <arg>] [-v] -a,--checkfam ...
shenchunhui 评论(0) 有5770人浏览 2012-11-27 10:17

HBase bulkload的一个bug定位

在HBase bulkload过程中,如果rowkey和version都一致,无法取得最新导入的数据。 问题定位: 在HBase里,如果两个HFile中都有相同rowkey和version的数据,是靠HFile的fileinfo里的MAX_SEQ_ID_KEY来判断哪个文件是最新,MAX_SEQ_ID_KEY 越大的文件越新。 1.通过flush写的HFile文件有往fileinfo里面加MAX ...
uestzengting 评论(8) 有2299人浏览 2011-12-30 11:13

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics