`
Lewis·Lee
  • 浏览: 66078 次
  • 性别: Icon_minigender_1
  • 来自: 台州
社区版块
存档分类
最新评论

Hadoop - 权威网站和经典书籍

阅读更多

Hadoop 官方网站

 

Hadoop - Cloudera

 

Hadoop - Yahoo!

 

Hadoop - Wiki


Doug Cutting - Wiki


Doug Cutting - blog

 

Hadoop 包括下面这些子项目:

 

Hadoop权威指南(中文版)

      本人已买且读过部分章节。翻译的语句明显不通,但是该刚接触 Hadoop 挚友的还是很有帮助的。从中文版的内容来看,英文原版的质量非常不错。所以,建议将她和英文版(下载电子版即可,下载地址详见下面,附件也有文件下载),以及 Hadoop 官方文档信息一起结合起来学习和实践。这应该是一种不错的折衷方案吧,毕竟有关 Hadoop 的经典中文书籍少之又少。


Hadoop: The Definitive Guide

    从中文版的内容介绍来看,她对 Hadoop 的 HDFS 和 MapReduce 的具体实现细节都介绍地很详细。个人认为她与《Java 编程思想》有的一拼。英文原版下载地址:Oreilly.Hadoop.The.Definitive.Guide.Jun.2009.rar


云计算的关键技术与应用实例

     有选择的看了这本书的部分章节,发现她对云计算(包括概念、相关技术)的解释还是颇有深度,且是用通俗易懂的语言阐明非常深奥的知识实属难得。同时也看出作者对云计算的理解还是很有深度的。

 

The Google File System
Sanjay Ghemawat , Howard Gobioff , and Shun-Tak Leung

Abstract

We have designed and implemented the Google File System, a scalable distributed file system for large distributed data-intensive applications. It provides fault tolerance while running on inexpensive commodity hardware, and it delivers high aggregate performance to a large number of clients.


While sharing many of the same goals as previous distributed file systems, our design has been driven by observations of our application workloads and technological environment, both current and anticipated, that reflect a marked departure from some earlier file system assumptions. This has led us to reexamine traditional choices and explore radically different design points.


The file system has successfully met our storage needs. It is widely deployed within Google as the storage platform for the generation and processing of data used by our service as well as research and development efforts that require large data sets. The largest cluster to date provides hundreds of terabytes of storage across thousands of disks on over a thousand machines, and it is concurrently accessed by hundreds of clients.


In this paper, we present file system interface extensions designed to support distributed applications, discuss many aspects of our design, and report measurements from both micro-benchmarks and real world use.


Appeared in:
19th ACM Symposium on Operating Systems Principles,
Lake George, NY, October, 2003.


Download: PDF Version


MapReduce: Simplified Data Processing on Large Clusters
Jeffrey Dean and Sanjay Ghemawat

Abstract

MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a key/value pair to generate a set of intermediate key/value pairs, and a reduce function that merges all intermediate values associated with the same intermediate key. Many real world tasks are expressible in this model, as shown in the paper.


Programs written in this functional style are automatically parallelized and executed on a large cluster of commodity machines. The run-time system takes care of the details of partitioning the input data, scheduling the program's execution across a set of machines, handling machine failures, and managing the required inter-machine communication. This allows programmers without any experience with parallel and distributed systems to easily utilize the resources of a large distributed system.


Our implementation of MapReduce runs on a large cluster of commodity machines and is highly scalable: a typical MapReduce computation processes many terabytes of data on thousands of machines. Programmers find the system easy to use: hundreds of MapReduce programs have been implemented and upwards of one thousand MapReduce jobs are executed on Google's clusters every day.


Appeared in:
OSDI'04: Sixth Symposium on Operating System Design and Implementation,
San Francisco, CA, December, 2004.


Download: PDF Version

Slides: HTML Slides

 

想要学习 Google 技术的挚友,不妨时常访问她: Google Research 技术论文中心



分享到:
评论

相关推荐

    史上最全--HADOOP权威指南 第3版带目录书签 完整版

    《HADOOP权威指南》第三版是一本全面深入解析Hadoop生态系统的经典之作,由知名的IT专家撰写,旨在为读者提供最全面、最权威的Hadoop学习资源。这本书以其详尽的内容、清晰的结构和实用的示例,深受广大开发者和数据...

    hadoop权威指南第三版 中文 pdf

    《Hadoop权威指南》第三版是一本深度剖析Hadoop生态系统的经典著作,旨在帮助读者从基础知识到高级技术全面掌握这个大数据处理平台。Hadoop作为开源的分布式计算框架,以其高可扩展性和容错性,成为了大数据时代的...

    Hadoop权威指南(中文版-带目录索引).zip

    《Hadoop权威指南》全面涵盖了从基础理论到实战技巧的各个环节,对于希望深入了解和使用Hadoop的人来说,是一本不可或缺的参考书籍。通过学习书中的内容,读者不仅可以掌握Hadoop的核心技术,还能了解大数据处理的...

    hadoop权威指南第四版高清 pdf下载

    《Hadoop权威指南》第四版是Hadoop领域的经典著作,由Tom White撰写,该书深入浅出地介绍了Hadoop生态系统的核心技术和应用场景。这本书对于想要理解、学习和掌握Hadoop技术的人来说,具有极高的参考价值。 Hadoop...

    Hadoop权威指南-中文版

    《Hadoop权威指南》是大数据领域的一本经典著作,它为初学者提供了全面而深入的Hadoop知识体系。Hadoop是Apache软件基金会开发的一个开源框架,主要用于处理和存储大规模数据集。这本书以其详尽的内容和实用的指导,...

    《Hadoop权威指南(第四版)》中-英文pdf+源码

    《Hadoop权威指南(第四版)》是一本深入解析Hadoop生态系统的经典著作,适合对大数据处理感兴趣的读者,包括开发者、架构师以及数据分析师。这本书详尽地介绍了Hadoop的核心概念、架构以及实际应用,旨在帮助读者...

    Hadoop权威指南第四版和第二版

    《Hadoop权威指南》是大数据领域的一本经典著作,它为读者深入理解并掌握Hadoop提供了全面而详尽的指导。第四版与第二版的对比,不仅展现了Hadoop技术的演进历程,也反映了大数据处理领域的最新发展。下面将分别就两...

    hadoop权威指南 第4版

    《Hadoop权威指南》第四版是一本针对大数据处理和分析领域的经典著作,旨在为读者提供全面、深入的Hadoop知识。Hadoop是Apache软件基金会的一个开源项目,它为大规模数据处理提供了一个分布式计算框架,是大数据领域...

    hadoop权威指南及实战.rar

    《Hadoop权威指南》是大数据领域的一本经典之作,它深入浅出地介绍了Apache Hadoop这一开源框架,为读者提供了全面、系统的学习资料。这本书详细阐述了Hadoop的核心概念、架构设计、工作原理以及实际应用,是理解并...

    hadoop权威指南(第四版)配套源码及气象数据集示例

    《Hadoop权威指南》是大数据领域的一本经典之作,它深入浅出地介绍了Apache Hadoop这一分布式计算框架的原理和应用。第四版的配套源码和气象数据集为读者提供了丰富的实践材料,帮助理解Hadoop在处理大规模数据时的...

    Hadoop书籍

    在Hadoop的学习过程中,有两本书籍被誉为经典:《Hadoop实战》和《Hadoop权威指南》。 《Hadoop实战》(第2版)这本书主要面向实践,适合对Hadoop有一定了解并希望深入应用的读者。书中详细介绍了如何配置和管理...

    Hadoop权威指南(第四版).pdf

    《Hadoop权威指南》第四版是一本深度剖析Hadoop生态系统的核心书籍,对于想要深入理解和掌握大数据处理技术的读者来说,是一份不可多得的参考资料。Hadoop作为开源的大数据处理框架,其影响力和应用范围已经渗透到...

    hadoop权威指南4书上项目源码等

    《Hadoop权威指南》第四版是Hadoop领域的经典著作,为读者深入理解并掌握Hadoop提供了全面而详尽的指导。这本书涵盖了Hadoop的核心组件、生态系统以及实际项目应用的方方面面。源码等资料的提供,使得读者能更直观地...

    Hadoop权威指南(中文版)(带书签

    综上所述,《Hadoop权威指南》全面涵盖了Hadoop的核心概念、架构、配置、管理和优化等内容,对于想要深入了解和使用Hadoop的读者来说,是一本不可多得的参考书籍。通过阅读本书,你可以掌握如何利用Hadoop进行大规模...

    hadoop权威指南PDF

    总的来说,《Hadoop权威指南》是一本全面了解和学习Hadoop的必备书籍,它不仅涵盖了Hadoop的基本概念和技术细节,还讨论了Hadoop在实际应用中的挑战和解决方案,对于希望投身大数据领域的读者来说,极具价值。

    最新 Hadoop权威指南 第四版 中文(绝非水军)

    《Hadoop权威指南》第四版是Hadoop领域的经典著作,对于深入理解分布式计算系统和大数据处理具有极高的价值。本书全面覆盖了Hadoop生态系统的各个方面,包括Hadoop的起源、核心组件、工作原理以及实际应用案例。以下...

    Hadoop权威指南中英文合集

    《Hadoop权威指南》是大数据领域的一本经典著作,它深入浅出地介绍了Apache Hadoop这一开源分布式计算框架。此合集包含了第三版的英文原版与中文译本,为学习和研究Hadoop提供了极大的便利。 Hadoop是基于Java开发...

Global site tag (gtag.js) - Google Analytics