`
这些年
  • 浏览: 402042 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop权威指南 读书笔记

 
阅读更多

第二章:关于mapReduce

          mapreduce是一种可用于数据处理的编程模型,它是并行运行的,可以处理大规模数据分析。

处理少量大文件比大量小文件更容易

           mapreduce两个处理阶段:

                 map阶段和reduce阶段,每个阶段都以key/value做为输入和输出,类型由程序员选择

map中的key是文件中的行偏移量,map函数并不需要这些信息,所以将其忽略
reduce的输入类型必须与map的输出类型相匹配

                 reduce函数输出文件的目录在运行任务前应该不存在

    数据流:

          节点角色:

                 tasktracker:用来执行map和reduce任务

                 jobtracker:用来调度任务在哪个tasktracker上执行

执行任务期,tasktracker会将运行进度报告给jobtracker,job由此记录作业的整体进度,如果其中一个任务失败,它可以调度别一个tasktracker来重新执行

           分片:hadoop将mapreduce输入数据划分成等长的小数据块称为分片,hadoop为每个分片建立一个map任务,并由map函数来处理分片中的每行数据(分片切分更细,负载均衡就越好,当然太小map数就越多,所须要执行时间就越长)

一个合理的分片应该与hdfs块大小相同,默认64M
map函数的输出会写到磁盘上,非hdfs;reduce的输出存在hdfs上实现可靠存储

    单个reduce的输入通常来自所有map的输出      

分享到:
评论

相关推荐

    Hadoop 权威指南读书笔记

    Hadoop 权威指南读书笔记 我自己画的一张图

    Hadoop权威指南----读书笔记.pdf

    Hadoop权威指南----读书笔记

    hadoop权威指南4和源码

    《Hadoop权威指南4》是Hadoop领域的一本经典著作,深入浅出地介绍了这个分布式计算框架的核心概念、设计原理以及实际操作。这本书是许多开发者和数据工程师学习Hadoop的首选资料,而附带的源码则为读者提供了更直观...

    hadoop权威指南第三版 中文 pdf

    《Hadoop权威指南》第三版是一本深度剖析Hadoop生态系统的经典著作,旨在帮助读者从基础知识到高级技术全面掌握这个大数据处理平台。Hadoop作为开源的分布式计算框架,以其高可扩展性和容错性,成为了大数据时代的...

    Hadoop权威指南中文版(完全版)

    《Hadoop权威指南》中文版是全面了解和深入学习Hadoop技术的重要参考资料,它涵盖了Hadoop生态系统中的核心组件以及相关的分布式计算概念。这本书详细解析了Hadoop的设计原理、架构、安装配置、操作维护以及实际应用...

    Hadoop权威指南第四版中文版

    本文带来的资源是hadoop权威指南第四版中文版,适合hadoop深入学习

    hadoop权威指南第四版高清 pdf下载

    《Hadoop权威指南》第四版是Hadoop领域的经典著作,由Tom White撰写,该书深入浅出地介绍了Hadoop生态系统的核心技术和应用场景。这本书对于想要理解、学习和掌握Hadoop技术的人来说,具有极高的参考价值。 Hadoop...

    Hadoop权威指南 第四版 大数据 中文版 pdf

    绝对第四版!绝对中文!绝对完整!绝对第四版!绝对中文!绝对完整! Hadoop权威指南 大数据 第四版 修订版&升级版 中文版 pdf格式。Tom White 著,王海 等译,清华大学出版社,最新第4版。

    Hadoop权威指南,hadoop权威指南pdf,Hadoop

    《Hadoop权威指南》是大数据领域的一本经典著作,它深入浅出地介绍了Apache Hadoop这一开源分布式计算框架。Hadoop是由Doug Cutting和Mike Cafarella共同创建,最初是为了支持Google的MapReduce计算模型和Google ...

    Hadoop权威指南(第4版)(修订版) 中英文PDF(含源码)

    《Hadoop权威指南(第4版)(修订版)》是一本深入探讨大数据存储与分析的重量级书籍,针对Hadoop生态系统提供了全面而详尽的指导。这本书不仅包含了中英文双语版本,还附带了源代码,使得读者可以更加直观地理解和实践...

    【免费】Hadoop权威指南(第3版) 修订版(带目录书签) 中文高清晰PDF

    《Hadoop权威指南》(第3版) 修订版是一本专门为那些想要深入理解Hadoop技术的读者准备的专业书籍。Hadoop是当前大数据处理领域的重要工具,它基于分布式计算模型,能够处理和存储海量数据。这本书以其详尽的介绍和...

    高清中文PDf附带目录标签《Hadoop权威指南》

    《Hadoop权威指南》是一本深入探讨大数据处理和分布式计算技术的经典著作,尤其对Hadoop生态系统的核心组件进行了详尽的阐述。这本书对于理解Hadoop集群、MapReduce编程模型以及HBase分布式数据库有着极大的帮助。接...

    Hadoop权威指南_第四版_中文版

    Hadoop权威指南 第四版 修订版&升级版 中文版 pdf格式。大家放心,绝对是中文版,不骗人。原文件很大,稍压缩了一下,页面依然非常清晰。无水印。共732页。 Tom White 著,王海 等译,清华大学出版社,2017年7月第4...

    Hadoop权威指南(中文版)

    Hadoop编程书籍,由浅入深,介绍Hadoop编程,特别适合初学者以及企业开发人员以及大学生以及其他深造学习者

    hadoop权威指南第三版完整版

    ### Hadoop权威指南第三版知识点总结 #### 一、Hadoop概述 - **定义与背景**:Hadoop是一个能够对大量数据进行分布式处理的软件框架。它由Apache基金会开发维护,旨在提供高可靠性、高效性及可扩展性的数据处理...

    史上最全--HADOOP权威指南 第3版带目录书签 完整版

    《HADOOP权威指南》第三版是一本全面深入解析Hadoop生态系统的经典之作,由知名的IT专家撰写,旨在为读者提供最全面、最权威的Hadoop学习资源。这本书以其详尽的内容、清晰的结构和实用的示例,深受广大开发者和数据...

    Hadoop权威指南_第四版_中文版(附源码))

    Hadoop权威指南第四版中文版,高清扫描版,有源码 本文带来的资源是hadoop权威指南第四版中文版以及配套的源码,内容以Hadoop2.x为主,包含一些hadoop的stable版本的新特性,与之前 的版本相比增加了介绍YARN , ...

    hadoop权威指南代码(Hadoop: The Definitive Guide code)

    《Hadoop权威指南》是Hadoop领域的经典著作,其配套代码资源可以帮助读者深入理解Hadoop的内部机制和实际应用。这本书全面介绍了Hadoop生态系统,包括HDFS、MapReduce、YARN以及相关的工具和扩展。代码库`tomwhite-...

    《Hadoop权威指南(第四版)》中-英文pdf+源码

    《Hadoop权威指南(第四版)》是一本深入解析Hadoop生态系统的经典著作,适合对大数据处理感兴趣的读者,包括开发者、架构师以及数据分析师。这本书详尽地介绍了Hadoop的核心概念、架构以及实际应用,旨在帮助读者...

Global site tag (gtag.js) - Google Analytics