`
heipark
  • 浏览: 2097429 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

1分钟理解map reduce,其实它就在我们身边

阅读更多

linux平台下有个ls指令,大家都很熟悉:

① ls | grep 2008   查询文件名包含2008的文件(这其实就是一个map,找到需要的数据)

② ls | grep 2008 | wc -l 计算上述指令查询文件个数(这其实就是一个reduce,对找到数据进行汇总聚合)

 

再来一个例子,关于SQL:select * from device

 

① select * from device t where t.name like 'CNC-Bj%'  (这其实就是一个map,找到需要的数据)

② select count(*) from device t where t.name like 'CNC-Bj%' (这其实就是一个reduce,对找到数据进行汇总聚合)

 

第二个SQL的例子在hive中就是通过mapreduce实现的,①为一个map任务 ②为一个reduce任务

分享到:
评论

相关推荐

    a java map reduce framework

    Map阶段是MapReduce的核心部分,它将输入数据分割成独立的块(通常为文件),然后对每个块执行一个Map函数。Map函数接受键值对作为输入,产生一系列中间键值对。这个过程是并行的,因此可以在多个节点上同时运行,...

    hadoop map reduce hbase 一人一档

    在大数据处理领域,Hadoop MapReduce、HBase和一人一档的概念构成了一个高效、可扩展的数据管理和分析系统。本文将深入探讨这些技术及其在实际应用中的结合。 标题“hadoop map reduce hbase 一人一档”揭示了这个...

    Map/Reduce:大规模集群上的简化数据处理

    总结起来,MapReduce 是一种简化大数据处理的编程模型,它通过将复杂问题分解为 Map 和 Reduce 两个阶段,使得开发者能够更轻松地处理大规模分布式计算任务,而无需深入理解底层的并行和分布式系统实现。这种模型...

    Map-Reduce原理体系架构和工作机制,eclipse与Hadoop集群连接

    Map-Reduce是一种编程模型,用于处理大规模数据集(通常是TB级或更大),该模型可以在大量计算机(称为集群)上进行并行处理。Map-Reduce的设计初衷是为了简化大数据处理任务,通过将这些任务分解成两个阶段——Map...

    【MapReduce篇06】MapReduce之MapJoin和ReduceJoin1

    MapJoin 是一种特殊的 Join 操作,通过在 Map 阶段对数据进行 Join 操作,减少了 Reduce 阶段的数据传输量,提高了计算效率。MapJoin 的实现原理是,在 Map 阶段将来自不同数据源的数据进行标记,并将连接字段作为 ...

    使用map、reduce求平均值

    使用Spark算子map、reduce相结合求平均值

    hadoop map-reduce turorial

    Hadoop Map-Reduce框架是设计用于处理大规模数据集(多太字节级)的软件框架,它允许在大量廉价硬件集群上(可达数千节点)进行并行处理,确保了数据处理的可靠性与容错性。此教程全面介绍了Hadoop Map-Reduce框架的...

    Hadoop Map Reduce教程

    该框架将任务分解为一系列较小的任务(Map 和 Reduce),并在集群中的多台计算机上并行执行这些任务。 - **应用场景**:适用于大数据分析、搜索引擎索引构建、日志文件分析等场景。 #### 二、MapReduce 工作原理 1...

    hadoop map reduce 中文教程

    为了更好地理解 MapReduce 的工作流程,我们可以通过一个简单的字符串计数示例来进行说明: - **输入数据**:一段文本文件,包含多个单词。 - **Map 函数**:读取每个单词,并将其转换为键值对 (word, 1)。 - **...

    19、Join操作map side join 和 reduce side join

    Reduce Side Join 是最常见的 Join 实现方式,它在 Reduce 阶段执行 Join 操作。Mapper 读取不同数据集,输出中将 Join 字段作为 Key。Shuffle 过程会确保相同 Key 的数据被分发到同一个 Reduce 节点进行处理。在 ...

    使用Map-Reduce对大规模图进行排名和半监督分类

    文档“使用Map-Reduce对大规模图进行排名和半监督分类.docx”可能是该论文的中文翻译,便于理解。 总结来说,这个主题涉及如何利用MapReduce有效地处理大规模图数据,执行PageRank排序,以及进行半监督分类,这对于...

    最高气温 map reduce hadoop 实例

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,它专为分布式存储和处理大量数据而设计。本实例将介绍如何使用Hadoop MapReduce解决一个实际问题——找出给定数据集中的最高气温。MapReduce是一种编程模型,...

    Map/Reduce

    Map/Reduce介绍。一些基本基础介绍。

    在solr文献检索中用map/reduce

    MapReduce是一种编程模型,用于处理和生成大型数据集,它将复杂计算分解为两个主要阶段:map和reduce,适合在分布式环境下运行。 描述简短,但暗示了Solr如何利用MapReduce来扩展其在海量数据上的检索能力。在大型...

    Google Map Reduce 中文版 论文

    Map函数将文档内容分割成单词,对每个单词计数,并生成中间键值对,其中键是单词,值是1,表示该单词出现一次。 Reduce阶段是另一个用户定义的函数,它接收所有具有相同中间键的值集合,并将它们合并成一个或零个...

Global site tag (gtag.js) - Google Analytics