在网上收集了一些mapreduce中常用的一些名词的解释,分享一下:
Shuffle(洗牌):当第一个map任务完成后,节点可能还要继续执行更多的map 任务,但这时候也开始把map任务的中间输出交换到需要它们的 reducer那里去,这个移动map输出到 reducer 的过程叫做shuffle。
Partition:每一个reduce节点会分派到中间输出的键集合中的一个不同的子集合,这些子集合(被称为“partitions”)是reduce任务的输入数据。每一个map任务生成的键值对可能会隶属于任意的partition,有着相同键的数值总是在一起被reduce,不管它是来自那个mapper的。因此,所有的map 节点必须就把不同的中间数据发往何处达成一致。Partitioner 类就是用来决定给定键值对的去向,默认的分类器(partitioner)会计算键的哈希值并基于这个结果来把键赋到相应的partition上。
排序(Sort):每一个reduce任务负责归约(reduceing)关联到相同键上的所有数值,每一个节点收到的中间键集合在被送到具体的reducer那里前就已经自动被Hadoop排序过了。
Combiner:前面展示的流水线忽略了一个可以优化MapReduce作业所使用带宽的步骤,这个过程叫Combiner,它在Mapper之后 Reducer之前运行。Combiner是可选的,如果这个过程适合于你的作业,Combiner 实例会在每一个运行map任务的节点上运行。Combiner会接收特定节点上的 Mapper 实例的输出作为输入,接着 Combiner 的输出会被发送到Reducer那里,而不是发送Mapper的输出。 Combiner是一个“迷你reduce”过程,它只处理单台机器生成的数据。
Reporter:是用于Map/Reduce应用程序报告进度,设定应用级别的状态消息, 更新Counters(计数器)的机制。
Mapper和Reducer的实现可以利用Reporter 来报告进度,或者仅是表明自己运行正常。在那种应用程序需要花很长时间处理个别键值对的场景中,这种机制是很关键的,因为框架可能会以为这个任务超时了,从而将它强行杀死。另一个避免这种情况发生的方式是,将配置参数mapred.task.timeout设置为一个足够高的值(或者干脆设置为零,则没有超时限制了)。 应用程序可以用Reporter来更新Counter(计数器)。
OutputCollector:是一个Map/Reduce框架提供的用于收集 Mapper或Reducer输出数据的通用机制 (包括中间输出结果和作业的输出结果)。
转自:http://blog.csdn.net/scutshuxue/article/details/6040882
分享到:
相关推荐
这份"科技大数据结构名词解释+简答.zip"压缩包很可能是为了帮助学习者理解和掌握大数据技术中的核心概念,包括各种数据结构的定义、工作原理以及在实际问题中的应用。以下是对一些常见大数据结构的详细解释和简答: ...
#### 5.1 相关技术名词解释 - **DFS(Distributed File System)**:分布式文件系统,是一种存储大量数据的文件系统,它将数据分布在多个计算机节点上,提供高可靠性和高性能。 - **Job**:在MapReduce中,一个完整...
大数据名词解析是对大数据领域中常见的名词进行解释和分析的文档。该文档对大数据存储、处理和分析的各种概念和技术进行了详细的解释,从而帮助读者更好地理解大数据领域的知识。 结构化数据 结构化数据是指企业...
名词解释44. 服务器结构4#Hadoop试验集群的部署结构4#系统和组建的依赖关系5#生产环境的部署结构65. Red hat Linux基础环境搭建6#linux 安装 (vm虚拟机)6#配置机器时间同步6#配置机器网络环境7#配置集群hosts列表10...
#### 名词解释 - **Hadoop**: 开源的分布式计算框架,由 Apache 基金会维护,包含 HDFS(Hadoop Distributed File System)和 MapReduce。 - **HDFS**: 分布式文件系统,提供高容错性和高吞吐量的数据存储。 - **...
+ 因为我们最后Reduce过程要输出的结果是“单词-->文件名词频”,所以我们需要在Combine过程把key和value进行一个调整,从原来的“单词:文档-->词频”转变成”单词-->文件名词频”。 * Reduce过程的设计: + ...
名词解释部分,文档可能详细解析了与云计算、大数据相关的专业术语,如分布式系统、并行计算、Hadoop、NoSQL等,以便读者理解后续内容。 云数据采集中心的章节详细描述了数据采集的需求、总体设计、核心技术及功能...
3. **名词解释** - **Hadoop**:Apache Hadoop是一个开源的分布式计算框架,由HDFS(Hadoop Distributed File System)和MapReduce组成,用于处理和存储大量数据。 - **EasyHadoop**:一个简化Hadoop部署和管理的...
大数据处理技术参考架构 ...附录中的名词解释对大数据处理中的一些专业术语进行了清晰的阐述,有助于读者更好地理解和应用这些技术。总的来说,这份文档为理解大数据处理技术及其应用提供了全面的视角和深入的探讨。
1.5 名词解释 - 分布式文件存储技术:如Hadoop HDFS,用于大规模数据分布式存储。 - 分布式并行计算技术:如MapReduce,用于大数据处理的并行计算框架。 - 分布式数据库技术:如HBase,支持高并发读写、水平扩展的...
5. 名词解释: - 分布式文件存储技术:如Hadoop的HDFS,用于分布式存储大量非结构化数据。 - 分布式并行计算技术:如MapReduce,通过并行处理提高计算效率。 - 分布式数据库技术:如HBase,提供大规模数据的分布式...
10. 关键技术名词解释 - TBSpark: 一种扩展型的Spark系统,可能表示该平台具备处理TB级数据的能力。 - Flume: 是一个分布式、可靠且可用的系统,用于高效地收集、聚合和移动大量日志数据。 - YARN: 是Hadoop2的资源...
1.5 名词解释 - 数据采集:从各种数据源获取原始数据的过程。 - 数据处理:对采集到的数据进行清洗、整合、转换等操作,使其具备分析价值。 - 大数据计算平台:支持大规模数据处理和分析的软件框架,如Apache Hadoop...
大数据处理技术参考架构 在当前数字化时代,大数据已经成为企业决策、科研分析以及...附录中的名词解释将为读者提供更深入的理解,例如MPP、Hadoop、Spark等关键术语的定义,帮助读者更好地掌握大数据处理的核心概念。
名词解释 - **Hadoop**:一个开源框架,用于存储和处理大规模数据集。Hadoop的核心组成部分包括HDFS(Hadoop Distributed File System)和MapReduce。 - **HDFS**:一种分布式文件系统,专为存储大量数据而设计。 -...
1.5 名词解释 这部分可能定义了一些关键术语,如大数据、云计算、数据挖掘等,以便读者理解后续的技术方案。 2. 云数据采集中心 这部分详细介绍了数据采集的需求和设计,包括数据来源、采集频率、数据预处理等。...
4. **Hadoop相关名词解释**:HBase提供的是高可靠性的列式数据库服务,而不是行式数据库(选项D错误)。 5. **Hadoop生态系统的组件**:Hadoop生态系统包括MapReduce(选项A未完整列出),此外还包括HDFS、YARN、...