`
p_3er
  • 浏览: 58094 次
  • 性别: Icon_minigender_1
  • 来自: 广州
文章分类
社区版块
存档分类
最新评论

hadoop的一些名词解释

 
阅读更多

在网上收集了一些mapreduce中常用的一些名词的解释,分享一下:


Shuffle(洗牌):当第一个map任务完成后,节点可能还要继续执行更多的map 任务,但这时候也开始把map任务的中间输出交换到需要它们的 reducer那里去,这个移动map输出到 reducer 的过程叫做shuffle。

Partition:每一个reduce节点会分派到中间输出的键集合中的一个不同的子集合,这些子集合(被称为“partitions”)是reduce任务的输入数据。每一个map任务生成的键值对可能会隶属于任意的partition,有着相同键的数值总是在一起被reduce,不管它是来自那个mapper的。因此,所有的map 节点必须就把不同的中间数据发往何处达成一致。Partitioner 类就是用来决定给定键值对的去向,默认的分类器(partitioner)会计算键的哈希值并基于这个结果来把键赋到相应的partition上。

排序(Sort):每一个reduce任务负责归约(reduceing)关联到相同键上的所有数值,每一个节点收到的中间键集合在被送到具体的reducer那里前就已经自动被Hadoop排序过了。

Combiner:前面展示的流水线忽略了一个可以优化MapReduce作业所使用带宽的步骤,这个过程叫Combiner,它在Mapper之后 Reducer之前运行。Combiner是可选的,如果这个过程适合于你的作业,Combiner 实例会在每一个运行map任务的节点上运行。Combiner会接收特定节点上的 Mapper 实例的输出作为输入,接着 Combiner 的输出会被发送到Reducer那里,而不是发送Mapper的输出。 Combiner是一个“迷你reduce”过程,它只处理单台机器生成的数据。

Reporter:是用于Map/Reduce应用程序报告进度,设定应用级别的状态消息, 更新Counters(计数器)的机制。

Mapper和Reducer的实现可以利用Reporter 来报告进度,或者仅是表明自己运行正常。在那种应用程序需要花很长时间处理个别键值对的场景中,这种机制是很关键的,因为框架可能会以为这个任务超时了,从而将它强行杀死。另一个避免这种情况发生的方式是,将配置参数mapred.task.timeout设置为一个足够高的值(或者干脆设置为零,则没有超时限制了)。 应用程序可以用Reporter来更新Counter(计数器)。

OutputCollector:是一个Map/Reduce框架提供的用于收集 Mapper或Reducer输出数据的通用机制 (包括中间输出结果和作业的输出结果)。

分享到:
评论

相关推荐

    Hadoop期末复习资料

    1. Hadoop期末考试题型及分值分布:综合案例题(35分)、名词解释(15分)、简答题(30分)、编程题(20分)。考生应该全面掌握各个题型的内容和答题技巧。 2. Hadoop集群部署:涉及配置和启动Hadoop集群的关键步骤...

    大数据实验报告Hadoop编程实现InvertedIndex文档倒排索引程序附源码.doc

    + 因为我们最后Reduce过程要输出的结果是“单词-->文件名词频”,所以我们需要在Combine过程把key和value进行一个调整,从原来的“单词:文档-->词频”转变成”单词-->文件名词频”。 * Reduce过程的设计: + ...

    Hadoop分布式文件系统:架构和设计.doc

    二、HDFS 重要名词解释 Hadoop分布式文件系统的核心组件包括: * Namenode:Namenode是Hadoop分布式文件系统的核心组件,负责文件系统的命名空间管理和文件元数据管理。 * Secondary Namenode:Secondary Namenode...

    科技大数据结构名词解释+简答.zip

    这份"科技大数据结构名词解释+简答.zip"压缩包很可能是为了帮助学习者理解和掌握大数据技术中的核心概念,包括各种数据结构的定义、工作原理以及在实际问题中的应用。以下是对一些常见大数据结构的详细解释和简答: ...

    Hadoop分布式文件系统:架构和设计.pdf

    HDFS重要名词解释 - **Namenode**:HDFS的元数据管理节点,负责文件系统的命名空间和文件块的映射信息,是整个系统的“大脑”。 - **Secondary Namenode**:辅助Namenode的角色,定期与主Namenode同步元数据,以防...

    H13-811hcn-a名词解释.docx

    以下是根据提供的文件内容对这些名词的详细解释: 1. RDS(关系型数据库服务):RDS 提供了一种即用即付的在线数据库服务,支持多种关系型数据库,如 MySQL、SQL Server 等。它具有高可用性、弹性伸缩和安全防护...

    大数据习题-这是一份大数据相关的考试试卷和一些课程内容概述

    4. **Hadoop相关名词解释**:HBase提供的是高可靠性的列式数据库服务,而不是行式数据库(选项D错误)。 5. **Hadoop生态系统的组件**:Hadoop生态系统包括MapReduce(选项A未完整列出),此外还包括HDFS、YARN、...

    EasyHadoop部署实战手册

    名词解释 - **Hadoop**:一个开源框架,用于存储和处理大规模数据集。Hadoop的核心组成部分包括HDFS(Hadoop Distributed File System)和MapReduce。 - **HDFS**:一种分布式文件系统,专为存储大量数据而设计。 -...

    EasyHadoop实战手册.doc

    #### 名词解释 - **Hadoop**: 开源的分布式计算框架,由 Apache 基金会维护,包含 HDFS(Hadoop Distributed File System)和 MapReduce。 - **HDFS**: 分布式文件系统,提供高容错性和高吞吐量的数据存储。 - **...

    大数据名词解析.pdf

    大数据名词解析是对大数据领域中常见的名词进行解释和分析的文档。该文档对大数据存储、处理和分析的各种概念和技术进行了详细的解释,从而帮助读者更好地理解大数据领域的知识。 结构化数据 结构化数据是指企业...

    EasyHadoop大数据平台部署指南.docx

    3. **名词解释** - **Hadoop**:Apache Hadoop是一个开源的分布式计算框架,由HDFS(Hadoop Distributed File System)和MapReduce组成,用于处理和存储大量数据。 - **EasyHadoop**:一个简化Hadoop部署和管理的...

    大数据技术 讲解Hadoop单机安装和集群部署的方法和步骤入门文档 适用于centos等操作系统(共24页).pdf

    3. 名词解释 ...................................................................................................................................................................... 3 4. 服务器结构 ........

    大数据处理技术参考架构.docx

    大数据处理技术参考架构 在当前数字化时代,大数据已经成为企业决策、科研分析以及...附录中的名词解释将为读者提供更深入的理解,例如MPP、Hadoop、Spark等关键术语的定义,帮助读者更好地掌握大数据处理的核心概念。

    基础考题云计算

    4. 名词解释: - 企业信息化:通过信息技术提高企业的生产、经营、管理、决策的效率和水平。 - 云计算:商业计算模型,将计算任务分布在资源池上,按需提供计算力、存储空间和信息服务。 - Hadoop:Apache开源...

    大数据处理技术参考架构 (2).docx

    大数据处理技术参考架构 ...附录中的名词解释对大数据处理中的一些专业术语进行了清晰的阐述,有助于读者更好地理解和应用这些技术。总的来说,这份文档为理解大数据处理技术及其应用提供了全面的视角和深入的探讨。

    2019级北邮信通院《数据库与云存储》考试复习题库.zip

    题库内容多样,包括单项选择题、填空题、设计与应用题、名词解释等,覆盖了历年来的重点和难点,针对性强,对提升学生的理解和应用能力有着显著的帮助。 首先,我们要关注的是“数据库”这一主题。数据库是存储和...

    收集与Java开发相关的文档,包括基础系统服务(大数据、流计算、NoSQL等)、专业名词、jar包、开发工具等文档

    以下是对这些关键领域的一些详细解释: 1. **Java基础**:Java是一种多平台的、面向对象的编程语言,由Sun Microsystems(现为Oracle公司)开发。它的“Write Once, Run Anywhere”(WORA)理念使得开发者可以在...

    优质资料(2021-2022年收藏)数据采集处理项目技术方案.doc

    1.5 名词解释 - 数据采集:从各种数据源获取原始数据的过程。 - 数据处理:对采集到的数据进行清洗、整合、转换等操作,使其具备分析价值。 - 大数据计算平台:支持大规模数据处理和分析的软件框架,如Apache Hadoop...

    基于分布式计算的农机运营效率分析.pdf

    由于文档内容中出现了一些技术名词和可能的OCR识别错误,我们将基于已提供的信息进行知识提取和解释。以下是关于分布式计算以及在农机运营效率分析中的应用的知识点。 ### 分布式计算概念 分布式计算是一种计算...

    数据采集处理项目-技术方案参考.docx

    1.5 名词解释 这部分将对文档中涉及的专业术语进行清晰的定义,帮助读者理解方案内容。 2. 云数据采集中心 这部分详细描述了数据采集中心的需求、总体设计和关键技术。需求概述可能包括数据源的多样性、数据格式的...

Global site tag (gtag.js) - Google Analytics