论坛首页 综合技术论坛

希望 MapReduce 直接支持多种输入/输出

浏览 2190 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-11-16  

希望在 MapReduce 加入这样3个功能:

 

1.      可以对不同的输入文件指定不同的RecordReader/Mapper

我对这个问题的解决办法是:使用不同的正则表达式来自动识别,很不优美,而且有局限

 

2.      一个 Map 可以输出多个不同的管道——目前只有一个

我对这个问题的解决办法是:给记录打标记,使用标记来识别管道编号

 

3.         每个Reduce可以输出多个不同的文件

我对这个问题的解决办法也是给记录打标记

 

这几个需求是在做equal join时发现的,使用这种模式,equal join的速度非常快。并且,还可用于group 时计算多个字段的distinct count

 

很希望MapReduce可以提供直接的支持。

 

论坛首页 综合技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics