`

hadoop的运行原理

阅读更多

接上篇博客写的.今天现简单介绍下hadoop的运行原理.

hadoop的配置在这里我就不详细讲了,网上关于这方面的文章很多,有单机版的,也有集群的。
hadoop主要由三方面组成:
1、HDFS
2、MapReduce
3、Hbase

Hadoop框架中最核心的设计就是:MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传的, 简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写 ,为分布式计算存储提供了底层支持。

MapReduce从它名字上来看就大致可以看出个缘由,两个动词Map和Reduce,“Map(展开)”就是将一个任务分解成为多个任 务,“Reduce”就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。这不是什么新思想,其实在前面提到的多线程,多任务的设计就可以找到这 种思想的影子。不论是现实社会,还是在程序设计中,一项工作往往可以被拆分成为多个任务,任务之间的关系可以分为两种:一种是不相关的任务,可以并行执 行;另一种是任务之间有相互的依赖,先后顺序不能够颠倒,这类任务是无法并行处理的。回到大学时期,教授上课时让大家去分析关键路径,无非就是找最省时的 任务分解执行方式。在分布式系统中,机器集群就可以看作硬件资源池,将并行的任务拆分,然后交由每一个空闲机器资源去处理,能够极大地提高计算效率,同时 这种资源无关性,对于计算集群的扩展无疑提供了最好的设计保证。(其实我一直认为Hadoop的卡通图标不应该是一个小象,应该是蚂蚁,分布式计算就好比 蚂蚁吃大象,廉价的机器群可以匹敌任何高性能的计算机,纵向扩展的曲线始终敌不过横向扩展的斜线)。任务分解处理以后,那就需要将处理以后的结果再汇总起 来,这就是Reduce要做的工作。


下面这个图很经典:

 

上图中展现了整个HDFS三个重要角色:NameNode、DataNode和 Client。NameNode可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode 会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。 DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的 Block信息发送给NameNode。Client就是需要获取分布式文件系统文件的应用程序。这里通过三个操作来说明他们之间的交互关系。
 

文件写入:

  a):Client向NameNode发起文件写入的请求。
  b):NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
  c):Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

文件读取:

  a):Client向NameNode发起文件读取的请求。
  b):NameNode返回文件存储的DataNode的信息。
  c):Client读取文件信息。

文件Block复制:

  a):NameNode发现部分文件的Block不符合最小复制数或者部分DataNode失效。
  b):通知DataNode相互复制Block。
  c):DataNode开始直接相互复制.

下面综合MapReduce和HDFS来看Hadoop的结构:


Hadoop结构示意图

在Hadoop的系统中,会有一台Master,主要负责NameNode的工作以及JobTracker的工作。JobTracker的主要职责 就是启动、跟踪和调度各个Slave的任务执行。还会有多台Slave,每一台Slave通常具有DataNode的功能并负责TaskTracker的 工作。TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。

把自己平时工作当中的代码贴出来解释下可能会更好的理解:
    FileInputFormat.setInputPaths(tempJob, hdfsHome); //  把本地的文件读入到HDFS中
    LOG.info(tempJobName + " data  start .....");

    tempJob.setJarByClass(tempMain.class); //设置这个Job运行是那个类
    tempJob.setMapperClass(MultithreadedMapper.class); //设置这个job运行的map,这里面使用了本身map自带的多线程实 现机制,这一点很重要,可以帮助我们提高运行的效率。
    MultithreadedMapper.setMapperClass(tempJob,tempMapper.class); //设置这个job运行的map
    MultithreadedMapper.setNumberOfThreads(tempJob, Integer.parseInt(tempThread));//设置多线程运行几个线程
    tempJob.setMapOutputKeyClass(LongWritable.class);// 设置map所输出的key
    tempJob.setMapOutputValueClass(StringArrayWritable.class); // 设置map所输出的value
       ......                     //下面还有reduce的一些,我这里的业务没有涉及到,这里就不列出来了。

    long start = System.currentTimeMillis();
    boolean result = tempJob.waitForCompletion(true); //启动一个job运行
    long end = System.currentTimeMillis();
如果大家有什么意见,欢迎提出来,共同学习!
0
0
分享到:
评论
2 楼 szgaea 2011-01-07  
这个是啥原理呀,只是讲了下结构而已,深入点呗
1 楼 yangfuchao418 2011-01-06  
额 ,楼主都是拷贝的,还不如说下你们用到哪些地方,具体的用法实在点

相关推荐

    hadoop 运行原理分析

    Hadoop的运行原理分析深入揭示了其作为分布式处理方案的核心优势,即能够通过简单的编程模型,将复杂的数据处理任务分布到大规模的机器集群上,大幅度提升数据处理和分析的效率。对于刚刚入门的IT人员来说,掌握...

    Hadoop运行原理分析pdf

    《Hadoop运行原理分析》是深入理解大数据处理框架Hadoop的核心读物,它详细解析了Hadoop如何在大规模数据集上高效运行。本文件主要涵盖了以下几个关键知识点: 1. **Hadoop概述**:Hadoop是Apache软件基金会开发的...

    Hadoop运行原理分析

    Hadoop运行原理分析主要涉及MapReduce编程模式、HDFS的架构以及Hadoop分布式计算的基本流程。以下是对该文件内容的详细解析。 1. Hadoop概述 Hadoop是一个能够处理海量数据的分布式计算框架,它基于Google开发的...

    大数据技术分享 Hadoop运行原理分析 共3页.pdf

    ### 大数据技术分享:Hadoop运行原理分析 #### 一、概论 Hadoop作为一个开源框架,主要用于处理大规模的数据集。它通过提供一个高效、可靠、可扩展的基础架构来支持分布式数据处理任务。Hadoop的核心组件包括HDFS...

    Hadoop示例程序WordCount运行及详解

    Hadoop示例程序WordCount运行及详解 Hadoop平台上进行WordCount是非常重要的,掌握了WordCount可以更好地理解Hadoop的map-reduce编程模型。本文将详细讲解Hadoop平台上WordCount的运行和实现。 基于Hadoop的map-...

    Hadoop HDFS原理分析,技术详解

    "Hadoop HDFS原理分析" HDFS(Hadoop Distributed File System)是Hadoop项目的一部分,是一个分布式文件管理系统。HDFS的设计理念是为了存储和管理大量的数据,具有高容错性、可扩展性和高性能的特点。 HDFS的...

    hadoop运行wordcount实例

    ### Hadoop运行WordCount实例详解 #### 一、Hadoop简介与WordCount程序的重要性 Hadoop 是一个由Apache基金会所开发的分布式系统基础架构。它能够处理非常庞大的数据集,并且能够在集群上运行,通过将大数据分割...

    hadoop 运行成功代码(wordcount)

    在实际应用中,Hadoop WordCount的示例不仅可以帮助理解MapReduce的工作原理,还常用于性能基准测试和调试Hadoop集群。掌握这一基础,可以进一步学习更复杂的Hadoop应用,如数据分析、图计算等。 总之,通过这个...

    hadoop相关技术原理

    【Hadoop 技术原理概览】 Hadoop 是一个开源的大数据处理框架,核心由 HDFS(Hadoop Distributed File System)和 MapReduce 组成,它允许在廉价硬件上进行大规模数据处理。Hadoop 旨在提供高容错性和高可扩展性,...

    hadoop Windows 运行环境

    为了更好地在Windows上运行Hadoop,理解Hadoop的工作原理、熟悉Windows命令行环境以及具备一定的网络和系统管理知识是十分重要的。同时,由于Windows环境下的Hadoop性能可能不如Linux,因此在生产环境中,通常建议...

    Hadoop原理与实现.pptx

    对hadoop的hdfs,mapreduce,yarn三大模块的内部运行原理进行总结和归纳,了解其内部的原理

    Hadoop介绍,HDFS和MapReduce工作原理

    Hadoop介绍,HDFS和MapReduce工作原理

    hadoop组件程序包.zip

    总结,"hadoop组件程序包.zip"是一个为Hadoop初学者量身定制的学习资源,通过深入学习和实践,初学者可以全面掌握Hadoop的核心组件及其工作原理,为未来在大数据领域的探索和发展打下坚实基础。

Global site tag (gtag.js) - Google Analytics