`

Hadoop 介绍

阅读更多
题要:
          一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

   Hadoop的Logo项目主页:http://hadoop.apache.org

   开源实现
  
  Hadoop是项目的总称,起源于作者儿子的一只吃饱了的大象的名字。主要是由HDFS、MapReduce和Hbase组成。   HDFS是Google File System(GFS)的开源实现。   MapReduce是Google MapReduce的开源实现。   HBase是Google BigTable的开源实现。   这个分布式框架很有创造性,而且有极大的扩展性,使得Google在系统吞吐量上有很大的竞争力。因此Apache基金会用Java实现了一个开源版本,支持Fedora、Ubuntu等Linux平台。目前Hadoop受到Yahoo的支持,有Yahoo员工长期工作在项目上,而且Yahoo内部也准备使用Hadoop代替原来的的分布式系统。   Hadoop实现了HDFS文件系统和MapRecue。用户只要继承MapReduceBase,提供分别实现Map和Reduce的两个类,并注册Job即可自动分布式运行。   目前Release版本是0.20.1。还不成熟,但是已经集群规模已经可以达到4000个节点,是由Yahoo!实验室中构建的。下面是此集群的相关数据:   • 4000 节点   • 2 x quad core Xeons@2.5ghz per 节点   • 4 x 1TB SATA Disk per 节点   • 8G RAM per 节点   • 千兆带宽 per 节点   • 每机架有40个节点   • 每个机架有4千兆以太网上行链路   • Redhat Linux AS4 ( Nahant update 5 )   • Sun Java JDK1.6.0_05 - b13   • 所以整个集群有30000多个CPU,近16PB的磁盘空间!   HDFS把节点分成两类:NameNode和DataNode。NameNode是唯一的,程序与之通信,然后从DataNode上存取文件。这些操作是透明的,与普通的文件系统API没有区别。   MapReduce则是JobTracker节点为主,分配工作以及负责和用户程序通信。   HDFS和MapReduce实现是完全分离的,并不是没有HDFS就不能MapReduce运算。   Hadoop也跟其他云计算项目有共同点和目标:实现海量数据的计算。而进行海量计算需要一个稳定的,安全的数据容器,才有了Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)。   HDFS通信部分使用org.apache.hadoop.ipc,可以很快使用RPC.Server.start()构造一个节点,具体业务功能还需自己实现。针对HDFS的业务则为数据流的读写,NameNode/DataNode的通信等。   MapReduce主要在org.apache.hadoop.mapred,实现提供的接口类,并完成节点通信(可以不是hadoop通信接口),就能进行MapReduce运算。   目前这个项目还在进行中,还没有到达1.0版本,和Google系统的差距也非常大,但是进步非常快,值得关注。
分享到:
评论

相关推荐

    Hadoop介绍

    **Hadoop介绍** Hadoop是Apache软件基金会的一个开源项目,主要设计用于处理和存储大量数据。这个分布式计算框架使得在普通硬件集群上处理PB级别的数据成为可能,它以高容错性和可扩展性著称,是大数据分析的核心...

    Hadoop云计算2.0笔记第一课Hadoop介绍

    Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍 Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍中,我们可以了解到 Hadoop 的生态系统特点、Hadoop 生态系统概况、Hadoop 生态系统版本衍化、下一代 Hadoop、Hadoop 学习...

    hadoop介绍

    ### Hadoop介绍及安装详解 #### 一、Hadoop简介 **Hadoop** 是一个能够对大量数据进行分布式处理的软件框架,它最初由Nutch和Lucene之父Doug Cutting于2006年创建。有趣的是,“Hadoop”这个名字来源于Doug ...

    完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 01 Hadoop介绍 共33页.rar

    标题中的“完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 01 Hadoop介绍 共33页”表明这是一份关于Hadoop的大数据云计算课程的初步介绍,共有33页的内容。Hadoop是Apache基金会的一个开源项目,主要...

    Hadoop介绍,HDFS和MapReduce工作原理

    **Hadoop介绍** Hadoop的设计理念源于Google的GFS(Google File System)和MapReduce论文。它允许在廉价硬件上搭建大规模的数据处理环境,具有高容错性、可扩展性和高效性能。Hadoop的架构基于主从结构,由一个...

    Hadoop介绍及实战

    Hadoop介绍及实战

    hadoop 介绍

    ### Hadoop介绍与核心组件详解 #### Hadoop概述 Hadoop是一种开源软件框架,主要用于分布式存储和处理大规模数据集。其设计目标是为了处理PB级别的数据,并且能够在数千台商用服务器组成的集群上运行。Hadoop的...

    淘宝技术大学 应届生培训 Hadoop介绍

    【Hadoop介绍】 Hadoop是开源的分布式计算框架,由Apache软件基金会开发,主要用于处理和存储海量数据。在淘宝技术大学的应届生培训中,Hadoop被作为应对云时代数据处理挑战的重要工具进行讲解。 在云时代的背景下...

    什么是 Apache Hadoop?Hadoop介绍

    hadoop 什么是 Apache Hadoop?Hadoop介绍 Apache Hadoop 是一个开源软件框架,由当时就职于雅虎的 Douglas Cutting 开发,该框架使用简单的编程模型提供对大型数据集的高度可靠的分布式处理。

    Hadoop介绍与实践

    Hadoop介绍与实践,简要介绍了Hadoop的背景和其相关组成部分原理,并说明了Hadoop的安装步骤

    Hadoop介绍+环境搭建

    Hadoop介绍环境搭建

    云计算开源框架Hadoop介绍.pdf

    云计算开源框架Hadoop介绍.pdf

    分布式计算开源框架Hadoop介绍.doc

    分布式计算开源框架Hadoop介绍.doc

    hadoop介绍以及使用规则

    Hadoop 是一个开源的分布式计算框架,旨在处理和存储海量数据。它的核心设计目标是可扩展性和高容错性,使得即使是复杂的并行数据处理任务也能在普通硬件集群上高效运行。Hadoop 的出现源于Google发布的MapReduce...

Global site tag (gtag.js) - Google Analytics