- 浏览: 351450 次
- 性别:
- 来自: 杭州
-
最新评论
-
lvyuan1234:
你好,你那个sample.txt文件可以分享给我吗
hive insert overwrite into -
107x:
不错,谢谢!
hive 表的一些默认值 -
on_way_:
赞
Hadoop相关书籍 -
bupt04406:
dengkanghua 写道出来这个问题该怎么解决?hbase ...
Unexpected state导致HMaster abort -
dengkanghua:
出来这个问题该怎么解决?hbase master启动不起来。
Unexpected state导致HMaster abort
文章列表
HDFS的NIO有一些相关的知识偶尔需要注意下:
(1) 使用了堆外内存
Control direct memory buffer consumption by HBaseClient
https://issues.apache.org/jira/browse/HBASE-4956
standard hbase client, asynchbase client, netty and direct memory buffers
https://groups.google.com/forum/?fromgroups=#!topic/asynchbase/xFvHuniLI1c
...
HBase HDFS 的检验
- 博客分类:
- hbase
对于0.94版本来说,有几个地方会发生检验
(1)HFile (HRegionServer里面)
(2)FSInputChecker (DFSClient里面)
DFSClient :
非本地读取,通过DataNode读取,RemoteBlockReader
Disk -> DataNode -> DFSClient(RemoteBlockReader) -> HFile (HRegionServer)
Disk -> DataNode -> DFSClient(RemoteBlockReader) -> HLog ...
hdfs集群出现SocketTimeoutException,但是原因不得而知,社区不少issue都提到过,但是就是不懂具体原因。
https://issues.apache.org/jira/browse/HDFS-693
https://issues.apache.org/jira/browse/HDFS-770
https://issues.apache.org/jira/browse/HDFS-3342
http://search-hadoop.com/m/zjdcx1aR6Aa1/millis+timeout+while+waiting+for+channel+to+be+ ...
HDFS Client的读取流是从DFSInputStream来获得的,外层做了不少包装。
从DFSInputStream读取数据有两种方式:
(1)seek(long targetPos) + read(byte buf[], int off, int len)
(2)read(long position, byte[] buffer, int offset, int length)
第一种适合顺序读取,比如hbase里面的scan请求或者hbase的compact读取。读取的数据量一般都比较大,所以打开预读可以减少磁盘的iops,预读可以见hdfs相关的jira
Add HD ...
HBase 里面调用DFSOutputStream的方法常用的是:write、sync
write会往当前Packet里面写数据,sync会强制生成一个Packet。
在DFSClient Packet里面每次都会new 一个 big byte array,size 是65557(more than 64K,data+checksum+head),由于sync会强制生成Packet,对于小kv数据来说,实际的数据会比较少,几百、几千、上万,很多时候其实没有64k的数据,所以这个使用率比较低。
(1)想到的方法是:使用一个Packet Pool
(2)减少dfs.write.packet ...
support checksums in HBase block cachehttps://issues.apache.org/jira/browse/HBASE-5074
Store data and checksums together in block filehttps://issues.apache.org/jira/browse/HDFS-2699
Skip checksum is broke; are we double-checksumming by default?
https://issues.apache.org/jira/browse/HBASE- ...
最近测试94版本时,出现过多次 HRegionInfo was null or empty in Meta 的异常
WARN org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation: Encountered problems when prefetch META table:java.io.IOException: HRegionInfo was null or empty in Meta for writetest, row=writetest,MNI07EGK9EOW7L7VG8TK,999 ...
hive sql where条件很简单,但是太多
- 博客分类:
- Hive
insert overwrite table aaaa
partition(pt='20120717')
select auction_id,property_id,value_id
from xxxx
where pt='20120717'
and
(
(property_id = 1626130 and value_id = 46276) or
(property_id = 33510 and value_id = 31533293) or
(property_id = 33510 and value_id = 119834) or
(property_id ...
DFSClient 写一个Block的过程
- 博客分类:
- hadoop
DFSClient 写一个Block的过程
(1) 上层应用程序往输出流(FSDataOutputStream封装)写数据,底层DFSClient把数据切分成packets(典型的是64K),一个一个packet发送出去。
Packet 格式:
* (H is head, C is checksum data, D is payload data)
*
* [HHHHHCCCCC________________DDDDDDDDDDDDDDDD___]
* ^ ^ ...
hbase hbck
- 博客分类:
- hbase
https://issues.apache.org/jira/browse/HBASE-5128
https://github.com/jmhsieh/hbase-repair-scripts
HBASE-5128之前版本的HBCK:
检查master、regionserver内存中的状态以及hdfs上面数据的状态之间的一致性
(1)获取所有region的信息(regioninfo): ...
原表src:
hive> desc src;
OK
key string
value string
Time taken: 0.148 seconds
hive> select * from src;
OK
238 val_238
Time taken: 0.107 seconds
建一个新的表create table src111(key bigint, value bigint); insert数据到src111表中 insert into table src111 select * from src; src的两个字段都是string,src1 ...
hbase 0.90->0.92升级
- 博客分类:
- hbase
0.90->0.92版本之间在hdfs上面存储文件的一些区别:
(1)0.92在hbase.rootdir下面多了文件hbase.id,用来存储集群的ClusterId
(2)每个Table目录下面了个文件.tableinfo.0000000001(默认从0000000001开始,修改表的属性这个值会增加),用来存储Table的HTableDescriptor
(2)0.90使用HFileV1存储Region数据,0.92使用HFileV2存储数据,读取时根据文件里面存储的version信息来使用那个HFile
相同的地方:
HLog都是一样的用的SequenceFile格式 ...
通过复合结构来优化udf的调用
- 博客分类:
- Hive
select split("accba", "b")[0],split("accba", "b")[1] from dual;
上面的split("accba", "b")[0]会调用一次split("accba", "b"),split("accba", "b")[1]也会调用一次split("accba", "b"),所以有两次split调用 ...
在36个机器上面跑一个大作业,8千多个map,2w多个reduce,跑reduce的时候经常会出现如下问题:
Map output lost, rescheduling: getMapOutput(attempt_201204130934_0012_m_000022_0,5416) failed :
java.io.IOException: Error Reading IndexFile
at org.apache.hadoop.mapred.IndexCache.readIndexFileToCache(IndexCache.java:113)
at org.a ...
RegexSerDe
- 博客分类:
- Hive
官方示例在:
https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-ApacheWeblogData
Apache Weblog Data
The format of Apache weblog is customizable, while most webmasters uses the default.For default Apache weblog, we can create a table with the following command.
More about !Re ...