初识Hadoop 古代,人们用牛来拉重物,当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样, 我们也不需要尝试开发超级计算机,而应该结合使用更多计算机。 --格蕾斯.霍珀 数据的存储与分析 大数据时代,磁盘存储容量快速增加的同时,其访问速度--磁盘数据读取速度缺未能与时俱进。 1990年,一个1370MB的磁盘,传输速度为4.4MB/S,因此读取整个磁盘需要5分钟,20年后,1TB的磁盘逐渐 普及,其数据传输速度约为100MB/S,因此读取整个磁盘的数据要约两个半小时。 假如我们拥有100块磁盘,每个磁盘存储1%的数据,并行读取,那么不到两分钟就读取所有数据。 仅使用磁盘容量的1%似乎很浪费,但我们可以存储100个数据集,每个数据集1TB,实现共享磁盘访问。 尽管如此,实现多个磁盘的并行读写,还有更多的问题要解决: 1.硬件故障,一旦使用多个硬件,其中任一硬件发生故障的概率非常高,常见办法是进行备份,发生 故障后使用另一副本。例如RAID就是按照此原理实现。另外Hadoop的文件系统HDFS也是一类,不过 它采用的方法稍微不同。详见后文 2.大多数的数据分析任务需要以某种方式结合大部分的数据共同完成分析任务,即从一个磁盘读取的 数据可能需要和从99个磁盘中读取的数据结合使用,各种分布式系统允许结合多个来源的数据并实现 分析,但保证其正确性是一个非常大的挑战。Hadoop的MapReduce提出一个编程模型,该模型将上述 问题进行抽象,并转换为一个数据集的计算(键/值对组成)。 简而言之,Hadoop提供了一个可靠的共享存储和分析系统。HDFS实现存储,而MapReduce实现分析处理。 纵然Hadoop还有其他功能,但这两部分是它的核心。 关系型数据库管理系统的对比 我们为什么不能使用数据库来对大量磁盘上大规模的数据进行批量分析?为什么要需要MapReduce? 答案来自磁盘的发展趋势:寻址时间的提高远远慢于传输速率的提高,寻址就是将磁头移动到特定 磁盘位置进行读写的过程。它是导致磁盘延迟的主要原因,而传输速率取决于磁盘的带宽。 如果数据的访问模式中包含大量的磁盘寻址,那么读取大量数据集所花的时间势必会更长(相比流式数据读取模式), 流式读取主要取决于传输速率。另一方面,如果数据库系统只更新一小部分记录,传统的B树更有优势。 但数据库系统更新大部分数据时,B数的效率比MapReduce低的多。 在很多情况下,可以将MapReduce视为关系型数据库管理系统的补充。MapReduce比较适合以批处理的方式 处理需要分析整个或大部分数据集的问题,尤其是即席查询。RDBMS适用于"点查询"和更新,数据集被索引 后,数据库系统能够提供低延迟数据检索和快速的少量数据更新。MapReduce适合一次写入,多次读取数据 的应用,而关系型数据库更适合持续更新的数据集。 MapReduce和关系型数据库之间的另一个区别是在于它们所操作的数据集的结构化程度。 结构化数据:xml或数据库表 半格式化: 虽然可能有格式,但经常被忽略,只能对数据结构一般指导。如电子表格,各个单元格组成,但 每个单元格自身可保存任何形式的数据。 半结构化数据:没有任何内部结构。比如纯文本或图像数据。 MapReduce对非结构化或半结构化数据非常有效,因为在处理数据时才对数据进行解释。换句话说,MapReduce 输入的键值并不是数据固有的属性,而是由分析数据的人员来选择的。 关系型数据往往是规范的,以保持其数据完整不冗余。但规范化给MapReduce带来了问题,它是记录的读取 称为异地操作,而MapReduce的核心之一就是,它可以进行高速的流式读写操作。 但是在不久的将来,关系型数据库系统和MapReduce之间的差异可能变得模糊,关系型数据库都开始吸收 MapReduce的一些思路(入Aster DATA和GreePlum的数据库),另一方面,基于MapReduce的高级查询语言 (Pig,HIVE)使MapReduce的系统更接近传统的数据库编程方式。 MapReduce的设计目标是服务于那些只需数分钟或数小时即可完成的作业,并且运行于内部通过高速 网路连接的单一数据中心内,并且该数据中心内的计算机需要可靠的,可定制的硬件组成。
相关推荐
《Hadoop权威指南4》是Hadoop领域的一本经典著作,深入浅出地介绍了这个分布式计算框架的核心概念、设计原理以及实际操作。这本书是许多开发者和数据工程师学习Hadoop的首选资料,而附带的源码则为读者提供了更直观...
《Hadoop权威指南》第三版是一本深度剖析Hadoop生态系统的经典著作,旨在帮助读者从基础知识到高级技术全面掌握这个大数据处理平台。Hadoop作为开源的分布式计算框架,以其高可扩展性和容错性,成为了大数据时代的...
《Hadoop权威指南》中文版是全面了解和深入学习Hadoop技术的重要参考资料,它涵盖了Hadoop生态系统中的核心组件以及相关的分布式计算概念。这本书详细解析了Hadoop的设计原理、架构、安装配置、操作维护以及实际应用...
《Hadoop权威指南》第四版是Hadoop领域的经典著作,由Tom White撰写,该书深入浅出地介绍了Hadoop生态系统的核心技术和应用场景。这本书对于想要理解、学习和掌握Hadoop技术的人来说,具有极高的参考价值。 Hadoop...
本文带来的资源是hadoop权威指南第四版中文版,适合hadoop深入学习
《Hadoop权威指南》是大数据领域的一本经典著作,它深入浅出地介绍了Apache Hadoop这一开源分布式计算框架。Hadoop是由Doug Cutting和Mike Cafarella共同创建,最初是为了支持Google的MapReduce计算模型和Google ...
《Hadoop权威指南(第4版)(修订版)》是一本深入探讨大数据存储与分析的重量级书籍,针对Hadoop生态系统提供了全面而详尽的指导。这本书不仅包含了中英文双语版本,还附带了源代码,使得读者可以更加直观地理解和实践...
绝对第四版!绝对中文!绝对完整!绝对第四版!绝对中文!绝对完整! Hadoop权威指南 大数据 第四版 修订版&升级版 中文版 pdf格式。Tom White 著,王海 等译,清华大学出版社,最新第4版。
《Hadoop权威指南》(第3版) 修订版是一本专门为那些想要深入理解Hadoop技术的读者准备的专业书籍。Hadoop是当前大数据处理领域的重要工具,它基于分布式计算模型,能够处理和存储海量数据。这本书以其详尽的介绍和...
Hadoop权威指南----读书笔记
《Hadoop权威指南》是一本深入探讨大数据处理和分布式计算技术的经典著作,尤其对Hadoop生态系统的核心组件进行了详尽的阐述。这本书对于理解Hadoop集群、MapReduce编程模型以及HBase分布式数据库有着极大的帮助。接...
Hadoop编程书籍,由浅入深,介绍Hadoop编程,特别适合初学者以及企业开发人员以及大学生以及其他深造学习者
Hadoop权威指南 第四版 修订版&升级版 中文版 pdf格式。大家放心,绝对是中文版,不骗人。原文件很大,稍压缩了一下,页面依然非常清晰。无水印。共732页。 Tom White 著,王海 等译,清华大学出版社,2017年7月第4...
### Hadoop权威指南第三版知识点总结 #### 一、Hadoop概述 - **定义与背景**:Hadoop是一个能够对大量数据进行分布式处理的软件框架。它由Apache基金会开发维护,旨在提供高可靠性、高效性及可扩展性的数据处理...
《HADOOP权威指南》第三版是一本全面深入解析Hadoop生态系统的经典之作,由知名的IT专家撰写,旨在为读者提供最全面、最权威的Hadoop学习资源。这本书以其详尽的内容、清晰的结构和实用的示例,深受广大开发者和数据...
《Hadoop权威指南》是Hadoop领域的经典著作,其配套代码资源可以帮助读者深入理解Hadoop的内部机制和实际应用。这本书全面介绍了Hadoop生态系统,包括HDFS、MapReduce、YARN以及相关的工具和扩展。代码库`tomwhite-...
《Hadoop权威指南(第四版)》是一本深入解析Hadoop生态系统的经典著作,适合对大数据处理感兴趣的读者,包括开发者、架构师以及数据分析师。这本书详尽地介绍了Hadoop的核心概念、架构以及实际应用,旨在帮助读者...
Hadoop权威指南第四版中文版,高清扫描版,有源码 本文带来的资源是hadoop权威指南第四版中文版以及配套的源码,内容以Hadoop2.x为主,包含一些hadoop的stable版本的新特性,与之前 的版本相比增加了介绍YARN , ...