浏览 2190 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2009-11-16
希望在 MapReduce 加入这样3个功能:
1. 可以对不同的输入文件指定不同的RecordReader/Mapper 我对这个问题的解决办法是:使用不同的正则表达式来自动识别,很不优美,而且有局限
2. 一个 Map 可以输出多个不同的管道——目前只有一个 我对这个问题的解决办法是:给记录打标记,使用标记来识别管道编号
3. 每个Reduce可以输出多个不同的文件 我对这个问题的解决办法也是给记录打标记
这几个需求是在做equal join时发现的,使用这种模式,equal join的速度非常快。并且,还可用于group 时计算多个字段的distinct count。
很希望MapReduce可以提供直接的支持。
声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |