`
febird
  • 浏览: 256394 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

希望 MapReduce 直接支持多种输入/输出

阅读更多

希望在 MapReduce 加入这样3个功能:

 

1.      可以对不同的输入文件指定不同的RecordReader/Mapper

我对这个问题的解决办法是:使用不同的正则表达式来自动识别,很不优美,而且有局限

 

2.      一个 Map 可以输出多个不同的管道——目前只有一个

我对这个问题的解决办法是:给记录打标记,使用标记来识别管道编号

 

3.         每个Reduce可以输出多个不同的文件

我对这个问题的解决办法也是给记录打标记

 

这几个需求是在做equal join时发现的,使用这种模式,equal join的速度非常快。并且,还可用于group 时计算多个字段的distinct count

 

很希望MapReduce可以提供直接的支持。

 

分享到:
评论

相关推荐

    MapReduce 设计模式

    书中可能还会包含其他更高级的主题,如自定义输入/输出格式、MapReduce工作流以及如何优化MapReduce作业性能等。总的来说,《MapReduce设计模式》是一本实用的参考书,对于希望深入理解和利用MapReduce框架的IT专业...

    MapReduce2.0程序设计多语言编程(理论+实践)

    2. **数据输入和输出**:MapReduce作业的数据输入和输出通常涉及到自定义InputFormat和OutputFormat。例如,CSVFileInputFormat用于读取逗号分隔值文件,而TextOutputFormat则将结果输出为文本格式。 3. **性能优化...

    MapReduce 中文版论文

    - MapReduce 支持多种输入和输出数据格式,这使得它可以灵活应用于不同的应用场景。 5. **副作用**: - 处理过程中可能产生的副作用需要被仔细管理,以避免影响最终结果的准确性。 6. **跳过损坏的记录**: - 当...

    使用MyEclipse实现MapReduce

    MyEclipse是Java开发的一款集成开发环境(IDE),支持多种Java应用的开发,包括对Hadoop MapReduce的支持。 1.1 介绍 在MyEclipse中实现MapReduce,首先需要了解Hadoop的基础知识,包括其分布式文件系统(HDFS)和...

    MapReduce发明人关于MapReduce的介绍

    这些数据可能来自网页抓取文档、网络请求日志等,目标是计算各种派生数据,如倒排索引、网页结构的多种表示、每个主机爬取页面的摘要统计以及一天内最频繁查询的集合。虽然这些计算在概念上并不复杂,但输入数据量...

    Hadoop_MapReduce教程.doc

    作业配置包含输入输出路径、任务参数等信息。客户端提交作业给JobTracker,JobTracker负责分发软件、配置并监控任务执行。 10. **应用案例**: MapReduce在许多领域都有广泛应用,如搜索引擎的PageRank计算、日志...

    Hadoop MapReduce Cookbook 源码

    3. **数据输入与输出**:探讨InputFormat和OutputFormat接口,理解如何自定义输入输出格式以适应不同类型的数据源。 4. **错误处理与容错机制**:讲解Hadoop的检查点、重试和故障恢复策略,以确保任务的可靠性。 5...

    软件工程mapreduce.pdf

    MapReduce框架支持多种编程语言,除了默认的Java实现,还可以使用Hadoop Streaming运行任何可执行程序(如Shell脚本)作为mapper和reducer,或者使用Hadoop Pipes,这是一个与SWIG兼容的C++ API,可以编写C++ ...

    MapReduce & Hadoop

    Hadoop不仅支持MapReduce模型,还支持其他多种计算框架,从而成为一个全面的大数据处理平台。 #### 六、MapReduce在现代大数据处理中的角色 随着大数据技术的发展,尽管出现了Spark等新的计算框架,但MapReduce仍然...

    MapReduce中英文 (Word)

    在谷歌内部,MapReduce被广泛应用于搜索引擎索引构建、网页链接分析、日志数据分析等多种场景。同时,它也激发了开源社区的类似实现,如Apache Hadoop的MapReduce,这使得这种计算模型在大数据领域得到广泛应用。 ...

    MapReduce设计模式介绍.ppt

    MapReduce 设计模式有多种应用,包括: 1. 单词计数:统计文档中单词的出现次数。 2. 记录计数:统计文档中的记录数量。 3. 最大值/最小值/计数:统计文档中的最大值、最小值和计数。 4. 平均值/中位数/标准差:...

    Hadoop MapReduce v2 Cookbook.pdf

    5. **优化的调度器**:YARN支持多种调度策略,如FIFO、Capacity Scheduler和Fair Scheduler,以满足不同工作负载的需求。 本书《Hadoop MapReduce v2 Cookbook》会详细介绍如何使用Hadoop MapReduce v2进行大数据...

    mapreduce 云计算

    例如,Apache Hadoop就是基于MapReduce的思想开发的一种开源框架,它进一步扩展了MapReduce的功能,支持更多的数据处理模式和应用场景。随着云计算技术的发展,未来的MapReduce可能会更加关注云环境下的优化和集成,...

    Hadoop MapReduce高级特性

    另外,MapReduce还支持在Map任务内部对键值对进行排序,即对键内的数据进行排序,这是一种更为细致的排序方式,可以提高输出数据的有序性,对于后续的数据分析处理非常有帮助。MapReduce的排序特性,使得大数据集...

    MapReduce源码分析完整版

    MapReduce的工作流程主要基于`, value>`对,无论输入还是输出都是这种形式,但类型可能有所不同。为了能够进行序列化和排序操作,`key`和`value`必须分别实现`Writable`和`WritableComparable`接口。 - **Map阶段**...

    大数据技术 ODPS MapReduce对外开放实践 共20页.pptx

    ODPS支持多种编程模型和范式,其中MapReduce是其核心组件之一。MapReduce是一种分布式计算模型,由Google在2004年提出,被广泛应用于大数据处理。ODPS中的MapReduce不仅继承了Hadoop MapReduce的基本思想,还进行了...

Global site tag (gtag.js) - Google Analytics