hugh.wangp

浏览: 294791 次
性别:
来自: 杭州

最近访客更多访客>>

清新练

x影千绝

呵呵Hero

xfworld

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Hadoop 中使用DistributedCache遇到的问题

博客分类：

HADOOP

hadoop distributed cache FileNotFoundException MAP JOIN

自己在写MAR/REDUCE代码时，遇到了一个问题，一个大数据文件和一个小数据文件匹配计算，但是小数据文件太小，所以想采用HIVE的MAP JOIN的方式，把小数据文件放到直接大数据文件map的datanode的内存中，这样少了MR代码的1对N的数据文件关联。实现这个的最佳方案就是利用distributed cache。HIVE的MAP JOIN也是利用这个技术。首先简要介绍一下distributed cache是如何使用的，然后总结下自己在使用distributed cache遇到的问题，这些问题网上也有人遇到，但是没有给出明确的解释。希望能够帮助同样遇到此类问题的朋 ...

2012-03-29 15:59
浏览 14597
评论(14)
分类:开源软件

基于HIVE文件格式的map reduce代码编写

博客分类：

HIVE

hive sequencefile rcfile wordcount mapreduce

by hugh.wangp 我们的数据绝大多数都是在HIVE上，对HIVE的SEQUENCEFILE和RCFILE的存储格式都有利用，为了满足HIVE的数据开放，hive client的方式就比较单一，直接访问HIVE生成的HDFS数据也是一种必要途径，所以本文整理测试了如何编写� ...

2012-02-14 19:03
浏览 12959
评论(0)
分类:开源软件

HIVE文件存储格式的测试比较

博客分类：

HIVE

hive 文件格式 rcfile sequencefile

by hugh.wangp 根据自身涉及到的数据分布和使用需求，对HIVE上的三类文件格式做了如下测试，指导HIVE的文件格式选型。测试存在环境、数据分布、测试偏重点的不同，本测试只供参考，不作为大家选型决策的绝对指导。 HIVE的三种文件格式：TEXTFILE、SEQUENCEFILE、RCFILE中，TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的，RCFILE是基于行列混合的思想，先按行把数据划分成N个row group，在row group中对每个列分别进行存储。基于HDFS的行存储具备快速数据加载和动态负载的高适应能力，因为行存储保证了相同记录 ...

2012-02-13 17:26
浏览 3750
评论(1)
分类:开源软件

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop 中使用DistributedCache遇到的问题

基于HIVE文件格式的map reduce代码编写

HIVE文件存储格式的测试比较

最近访客更多访客>>