HDFS HBase NIO相关知识

博客分类：

hadoop
hbase

HDFS的NIO有一些相关的知识偶尔需要注意下： (1) 使用了堆外内存 Control direct memory buffer consumption by HBaseClient https://issues.apache.org/jira/browse/HBASE-4956 standard hbase client, asynchbase client, netty and direct memory buffers https://groups.google.com/forum/?fromgroups=#!topic/asynchbase/xFvHuniLI1c ...

2012-09-26 18:29
浏览 2684
评论(0)
分类:开源软件

HBase HDFS 的检验

博客分类：

hbase

对于0.94版本来说，有几个地方会发生检验（1）HFile （HRegionServer里面）（2）FSInputChecker （DFSClient里面） DFSClient ：非本地读取，通过DataNode读取，RemoteBlockReader Disk -> DataNode -> DFSClient(RemoteBlockReader) -> HFile (HRegionServer) Disk -> DataNode -> DFSClient(RemoteBlockReader) -> HLog ...

2012-09-24 14:04
浏览 2285
评论(0)
分类:开源软件

java.net.SocketTimeoutException: 480000 millis timeout hdfs

博客分类：

hadoop
hbase

hdfs集群出现SocketTimeoutException，但是原因不得而知，社区不少issue都提到过，但是就是不懂具体原因。 https://issues.apache.org/jira/browse/HDFS-693 https://issues.apache.org/jira/browse/HDFS-770 https://issues.apache.org/jira/browse/HDFS-3342 http://search-hadoop.com/m/zjdcx1aR6Aa1/millis+timeout+while+waiting+for+channel+to+be+ ...

2012-08-13 16:45
浏览 8204
评论(5)
分类:开源软件

HBase如何从Hadoop读取数据，DFSInputStream

博客分类：

hbase
hadoop

HDFS Client的读取流是从DFSInputStream来获得的，外层做了不少包装。从DFSInputStream读取数据有两种方式：（1）seek(long targetPos) + read(byte buf[], int off, int len) （2）read(long position, byte[] buffer, int offset, int length) 第一种适合顺序读取，比如hbase里面的scan请求或者hbase的compact读取。读取的数据量一般都比较大，所以打开预读可以减少磁盘的iops，预读可以见hdfs相关的jira Add HD ...

2012-08-08 15:41
浏览 3376
评论(0)
分类:开源软件

DFSClient Packet dfs.write.packet.size

博客分类：

hadoop
hbase

HBase 里面调用DFSOutputStream的方法常用的是：write、sync write会往当前Packet里面写数据，sync会强制生成一个Packet。在DFSClient Packet里面每次都会new 一个 big byte array，size 是65557(more than 64K，data+checksum+head)，由于sync会强制生成Packet，对于小kv数据来说，实际的数据会比较少，几百、几千、上万，很多时候其实没有64k的数据，所以这个使用率比较低。（1）想到的方法是：使用一个Packet Pool （2）减少dfs.write.packet ...

2012-07-30 20:01
浏览 1654
评论(0)
分类:开源软件

hbase、hadoop checksum相关

博客分类：

hadoop
hbase

support checksums in HBase block cachehttps://issues.apache.org/jira/browse/HBASE-5074 Store data and checksums together in block filehttps://issues.apache.org/jira/browse/HDFS-2699 Skip checksum is broke; are we double-checksumming by default? https://issues.apache.org/jira/browse/HBASE- ...

2012-07-25 21:16
浏览 1985
评论(0)
分类:开源软件

region split时metascan出现regioninfo为空

博客分类：

hbase

最近测试94版本时，出现过多次 HRegionInfo was null or empty in Meta 的异常 WARN org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation: Encountered problems when prefetch META table:java.io.IOException: HRegionInfo was null or empty in Meta for writetest, row=writetest,MNI07EGK9EOW7L7VG8TK,999 ...

2012-07-19 22:30
浏览 3039
评论(0)
分类:开源软件

hive sql where条件很简单，但是太多

博客分类：

Hive

insert overwrite table aaaa partition(pt='20120717') select auction_id,property_id,value_id from xxxx where pt='20120717' and ( (property_id = 1626130 and value_id = 46276) or (property_id = 33510 and value_id = 31533293) or (property_id = 33510 and value_id = 119834) or (property_id ...

2012-07-18 15:51
浏览 8769
评论(0)
分类:开源软件

DFSClient 写一个Block的过程

博客分类：

hadoop

DFSClient 写一个Block的过程 (1) 上层应用程序往输出流（FSDataOutputStream封装）写数据，底层DFSClient把数据切分成packets（典型的是64K），一个一个packet发送出去。 Packet 格式： * (H is head, C is checksum data, D is payload data) * * [HHHHHCCCCC________________DDDDDDDDDDDDDDDD___] * ^ ^ ...

2012-07-12 21:39
浏览 1264
评论(0)
分类:开源软件

hbase hbck

博客分类：

hbase

https://issues.apache.org/jira/browse/HBASE-5128 https://github.com/jmhsieh/hbase-repair-scripts HBASE-5128之前版本的HBCK：检查master、regionserver内存中的状态以及hdfs上面数据的状态之间的一致性（1）获取所有region的信息（regioninfo）：� ...

2012-06-14 19:44
浏览 3689
评论(0)
分类:开源软件

insert into时(string->bigint)自动类型转换

博客分类：

Hive

原表src： hive> desc src; OK key string value string Time taken: 0.148 seconds hive> select * from src; OK 238 val_238 Time taken: 0.107 seconds 建一个新的表create table src111(key bigint, value bigint); insert数据到src111表中 insert into table src111 select * from src; src的两个字段都是string，src1 ...

2012-06-14 12:30
浏览 8300
评论(0)
分类:开源软件

hbase 0.90->0.92升级

博客分类：

hbase

0.90->0.92版本之间在hdfs上面存储文件的一些区别：（1）0.92在hbase.rootdir下面多了文件hbase.id，用来存储集群的ClusterId （2）每个Table目录下面了个文件.tableinfo.0000000001（默认从0000000001开始，修改表的属性这个值会增加），用来存储Table的HTableDescriptor （2）0.90使用HFileV1存储Region数据，0.92使用HFileV2存储数据，读取时根据文件里面存储的version信息来使用那个HFile 相同的地方： HLog都是一样的用的SequenceFile格式 ...

2012-05-25 17:11
浏览 2280
评论(0)
分类:开源软件

通过复合结构来优化udf的调用

博客分类：

Hive

select split("accba", "b")[0],split("accba", "b")[1] from dual; 上面的split("accba", "b")[0]会调用一次split("accba", "b")，split("accba", "b")[1]也会调用一次split("accba", "b")，所以有两次split调用 ...

2012-05-11 14:07
浏览 1232
评论(0)
分类:开源软件

cdh3u0的jetty导致Error Reading IndexFile

博客分类：

hadoop

在36个机器上面跑一个大作业，8千多个map，2w多个reduce，跑reduce的时候经常会出现如下问题： Map output lost, rescheduling: getMapOutput(attempt_201204130934_0012_m_000022_0,5416) failed : java.io.IOException: Error Reading IndexFile at org.apache.hadoop.mapred.IndexCache.readIndexFileToCache(IndexCache.java:113) at org.a ...

2012-04-13 20:21
浏览 2340
评论(1)
分类:开源软件

RegexSerDe

博客分类：

Hive

官方示例在： https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-ApacheWeblogData Apache Weblog Data The format of Apache weblog is customizable, while most webmasters uses the default.For default Apache weblog, we can create a table with the following command. More about !Re ...

2012-03-14 09:58
浏览 1567
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HDFS HBase NIO相关知识

HBase HDFS 的检验

java.net.SocketTimeoutException: 480000 millis timeout hdfs

HBase如何从Hadoop读取数据，DFSInputStream

DFSClient Packet dfs.write.packet.size

hbase、hadoop checksum相关

region split时metascan出现regioninfo为空

hive sql where条件很简单，但是太多

DFSClient 写一个Block的过程

hbase hbck

insert into时(string->bigint)自动类型转换

hbase 0.90->0.92升级

通过复合结构来优化udf的调用

cdh3u0的jetty导致Error Reading IndexFile

RegexSerDe

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>