`
gaoke
  • 浏览: 87015 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop框架详细分析

 
阅读更多

mapreduce是一种模式,一种什么模式呢?一种云计算的核心计算模式,一种分布式运算技术,也是简化的分布式编程模式,它主要用于解决问题的程序开发模型,也是开发人员拆解问题的方法。

 

如下图所示,mapreduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式,流程图如下图1所示:

 hadoop框架详细分析

在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分布式运算的效果,在通过Reduce 函数的程序将结果汇整,从而输出开发者需要的结果。

MapReduce 借鉴了函数式程序设计语言的设计思想,其软件实现是指定一个Map 函数,把键值对(key/value)映射成新的键值对(key/value),形成一系列中间结果形式的key/value 对,然后把它们传给Reduce(规约)函数,把具有相同中间形式key 的value 合并在一起。Map 和Reduce 函数具有一定的关联性。函数描述如表1 所示:

 hadoop框架详细分析

MapReduce致力于解决大规模数据处理的问题,因此在设计之初就考虑了数据的局部性原理,利用局部性原理将整个问题分而治之。MapReduce集 群由普通PC机构成,为无共享式架构。在处理之前,将数据集分布至各个节点。处理时,每个节点就近读取本地存储的数据处理(map),将处理后的数据进行 合并(combine)、排序(shuffle and sort)后再分发(至reduce节点),避免了大量数据的传输,提高了处理效率。无共享式架构的另一个好处是配合复制(replication)策 略,集群可以具有良好的容错性,一部分节点的down机对集群的正常工作不会造成影响。

ok,你可以再简单看看下副图,整幅图是有关hadoop的作业调优参数及原理,图的左边是MapTask运行示意图,右边是ReduceTask运行示意图:

 hadoop框架详细分析

如上图所示,其中map阶段,当map task开始运算,并产生中间数据后并非直接而简单的写入磁盘,它首先利用内存buffer来对已经产生的buffer进行缓存,并在内存buffer中 进行一些预排序来优化整个map的性能。而上图右边的reduce阶段则经历了三个阶段,分别Copy->Sort->reduce。我们能 明显的看出,其中的Sort是采用的归并排序,即merge sort。

Hadoop 是一个实现了MapReduce 计算模型的开源分布式并行编程框架,程序员可以借助Hadoop 编写程序,将所编写的程序运行于计算机机群上,从而实现对海量数据的处理。

此外,Hadoop 还提供一个分布式文件系统(HDFS)及分布式数据库(HBase)用来将数据存储或部署到各个计算节点上。所以,你可以大致认 为:Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)。Hadoop 框架如图2 所示:

 hadoop框架详细分析

借助Hadoop 框架及云计算核心技术MapReduce 来实现数据的计算和存储,并且将HDFS 分布式文件系统和HBase 分布式数据库很好的融入到云计算框架中,从而实现云计算的分布式、并行计算和存储,并且得以实现很好的处理大规模数据的能力。

Hadoop的组成部分

我们已经知道,Hadoop是Google的MapReduce一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个 由普通机器组成的超大集群上并发执行。Hadoop主要由HDFS、MapReduce和HBase等组成。具体的hadoop的组成如下图:

 hadoop框架详细分析

由上图,我们可以看到:

1、 Hadoop HDFS是Google GFS存储系统的开源实现,主要应用场景是作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase、 HyperTable)的底层分布式文件系统。HDFS采用master/slave架构。一个HDFS集群是有由一个Namenode和一定数目的 Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是 一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。如下图所示 (HDFS体系结构图):

 hadoop框架详细分析

2、 Hadoop MapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上TB级别的数据集。

一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由 Map任务(task)以完全并行的方式处理它们。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储 在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。如下图所示(Hadoop MapReduce处理流程图):

 hadoop框架详细分析

3、 Hive是基于Hadoop的一个数据仓库工具,处理能力强而且成本低廉。

主要特点:

存储方式是将结构化的数据文件映射为一张数据库表。提供类SQL语言,实现完整的SQL查询功能。可以将SQL语句转换为MapReduce任务运行,十分适合数据仓库的统计分析。

不足之处:

采用行存储的方式(SequenceFile)来存储和读取数据。效率低:当要读取数据表某一列数据时需要先取出所有数据然后再提取出某一列的数据,效率很低。同时,它还占用较多的磁盘空间。

由于以上的不足,有人(查礼博士)介绍了一种将分布式数据处理系统中以记录为单位的存储结构变为以列为单位的存储结构,进而减少磁盘访问数量,提高查询处 理性能。这样,由于相同属性值具有相同数据类型和相近的数据特性,以属性值为单位进行压缩存储的压缩比更高,能节省更多的存储空间。如下图所示(行列存储 的比较图):

 hadoop框架详细分析

4、 HBase

HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而 不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个 ColumnFamily,一个Fmaily下的列位于一个HFile中,易于缓存数据。表是疏松的存储的,因此用户可以给行定义各种不同的列。在 HBase中数据按主键排序,同时表按主键划分为多个HRegion,如下图所示(HBase数据表结构图):

 hadoop框架详细分析

如下图所示,便是hadoop的内部结构,我们可以看到,海量的数据交给hadoop处理后,在hadoop的内部中,正如上文所述:hadoop提供一 个分布式文件系统(HDFS)及分布式数据库(Hbase)用来存储或部署到各个计算点上,最终在内部采取mapreduce的模式对其数据进行处理,然 后输出处理结果:

 hadoop框架详细分析

 hadoop框架详细分析

图2-1 海量数据产品技术架构

如上图所示,我们可以看到,海量数据产品技术架构,分为以下五个层次,从上至下来看,它们分别是:数据源,计算层,存储层,查询层和产品层。我们来一一了解这五层:

数据来源层。存放着交易数据。在数据源层产生的数据,通过DataX,DbSync和Timetunel准实时的传输到下面第2点所述的“云梯”。

计算层。在这个计算层内,采用的是hadoop集群,这个集群,我们暂且称之为云梯,是计算层的主要组成部分。在云梯上,系统每天会对数据产品进行不同的mapreduce计算。

存储层。在这一层,采用了两个东西,一个使MyFox,一个是Prom。MyFox是基于MySQL的分布式关系型数据库的集群,Prom是基于 hadoop Hbase技术 的(读者可别忘了,在上文第一部分中,咱们介绍到了这个hadoop的组成部分之一,Hbase—在hadoop之内的一个分布式的开源数据库)的一个 NoSQL的存储集群。

查询层。在这一层中,有一个叫做glider的东西,这个glider是以HTTP协议对外提供restful方式的接口。数据产品通过一个唯一的URL来获取到它想要的数据。同时,数据查询即是通过MyFox来查询的。下文将具体介绍MyFox的数据查询过程。

产品层。简单理解,不作过多介绍。

MyFOX

MySQL的MyISAM引擎作为底层的数据存储引擎。且为了应对海量数据,他们设计了分布式MySQL集群的查询代理层-MyFOX。

如下图所示,是MySQL的数据查询过程:

 hadoop框架详细分析

图2-2 MyFOX的数据查询过程

在MyFOX的每一个节点中,存放着热节点和冷节点两种节点数据。顾名思义,热节点存放着最新的,被访问频率较高的数据;冷节点,存放着相对而来比较旧 的,访问频率比较低的数据。而为了存储这两种节点数据,出于硬件条件和存储成本的考虑,你当然会考虑选择两种不同的硬盘,来存储这两种访问频率不同的节点 数据。如下图所示:

 hadoop框架详细分析

图2-3 MyFOX节点结构

“热节点”,选择每分钟15000转的SAS硬盘,按照一个节点两台机器来计算,单位数据的存储成本约为4.5W/TB。相对应地,“冷数据”我们选择了每分钟7500转的SATA硬盘,单碟上能够存放更多的数据,存储成本约为1.6W/TB。

Prom

出于文章篇幅的考虑,本文接下来不再过多阐述这个Prom了。如下面两幅图所示,他们分别表示的是Prom的存储结构以及Prom查询过程:

 hadoop框架详细分析

图2-4 Prom的存储结构

 hadoop框架详细分析

图2-5 Prom查询过程

glide的技术架构

 hadoop框架详细分析

图2-6 glider的技术架构

在这一层-查询层中,主要是基于用中间层隔离前后端的理念而考虑。Glider这个中间层负责各个异构表之间的数据JOIN和UNION等计算,并且负责隔离前端产品和后端存储,提供统一的数据查询服务。

缓存

除了起到隔离前后端以及异构“表”之间的数据整合的作用之外,glider的另外一个不容忽视的作用便是缓存管理。我们有一点须了解,在特定的时间段内,我们认为数据产品中的数据是只读的,这是利用缓存来提高性能的理论基础。

在上文图2-6中我们看到,glider中存在两层缓存,分别是基于各个异构“表”(datasource)的二级缓存和整合之后基于独立请求的一级缓存。除此之外,各个异构“表”内部可能还存在自己的缓存机制。

 hadoop框架详细分析

图2-7 缓存控制体系

图2-7向我们展示了数据魔方在缓存控制方面的设计思路。用户的请求中一定是带了缓存控制的“命令”的,这包括URL中的query string,和HTTP头中的“If-None-Match”信息。并且,这个缓存控制“命令”一定会经过层层传递,最终传递到底层存储的异构“表”模 块。

缓存系统往往有两个问题需要面对和考虑:缓存穿透与失效时的雪崩效应。

缓存穿透是指查询一个一定不存在的数据,由于缓存是不命中时被动写的,并且出于容错考虑,如果从存储层查不到数据则不写入缓存,这将导致这个不存在的数据 每次请求都要到存储层去查询,失去了缓存的意义。至于如何有效地解决缓存穿透问题,最常见的则是采用布隆过滤器(这个东西,在我的此篇文章中有介绍:), 将所有可能存在的数据哈希到一个足够大的bitmap中,一个一定不存在的数据会被这个bitmap拦截掉,从而避免了对底层存储系统的查询压力。

而在数据魔方里,用了一个更为简单粗暴的方法,如果一个查询返回的数据为空(不管是数据不存在,还是系统故障),我们仍然把这个空结果进行缓存,但它的过期时间会很短,最长不超过五分钟。

2、缓存失效时的雪崩效应尽管对底层系统的冲击非常可怕。但遗憾的是,这个问题目前并没有很完美的解决方案。大多数系统设计者考虑用加锁或者队列的方式保证缓存的单线程(进程)写,从而避免失效时大量的并发请求落到底层存储系统上。

在数据魔方中,存过期机制理论上能够将各个客户端的数据失效时间均匀地分布在时间轴上,一定程度上能够避免缓存同时失效带来的雪崩效应。

分享到:
评论

相关推荐

    Hadoop框架详细分析

    hadoop框架深入学习,大数据开发者参考使用文档,相当不错

    基于Hadoop框架的豆瓣大数据分析与搜索系统源码.zip

    基于Hadoop框架的豆瓣大数据分析与搜索系统源码.zip基于Hadoop框架的豆瓣大数据分析与搜索系统源码.zip基于Hadoop框架的豆瓣大数据分析与搜索系统源码.zip基于Hadoop框架的豆瓣大数据分析与搜索系统源码.zip基于...

    基于大数据Hadoop框架的数据处理流程研究与案例实践.pdf

    在Hadoop框架下,数据处理的实践案例通常展示如何有效地对海量数据集进行存储和分析,为不同行业提供了新的解决方案和业务洞察。Hadoop的成功应用不仅在于其技术能力,更在于其对大数据时代的深刻理解和解决方案的...

    大数据技术:Hadoop 框架详细介绍

    此时,大数据技术应运而生,其中Hadoop框架作为开源的分布式计算平台,成为了大数据处理的重要工具。本文将深入探讨Hadoop框架的核心组件、工作原理以及其在大数据领域的应用。 ### 一、Hadoop概述 Hadoop是Apache...

    Hadoop框架下的容灾系统研究

    ### Hadoop框架下的容灾系统研究 #### 摘要 在信息技术日益发展的今天,确保信息系统的稳定性变得尤为重要。无论是企业还是个人用户,都面临着数据安全的风险。一旦数据发生丢失或损坏,可能会对业务造成不可估量...

    基于hadoop框架的大数据处理与分析系统.pdf

    综上所述,本文详细介绍了如何利用Hadoop框架和Storm实现一个大数据处理和分析系统,覆盖了从环境搭建、系统结构设计、数据模型建立、代码实现到运行结果分析的整个过程。通过这样的系统,能够有效处理EB级别的数据...

    hadoop框架的jar包整合

    在大数据处理领域,Hadoop框架扮演着至关重要的角色。它是一个开源的分布式计算框架,由Apache软件基金会维护,主要用于处理和存储大规模数据集。本文将深入探讨如何进行Hadoop框架的jar包整合,以及这些jar包对全局...

    大数据Hadoop框架核心技术对比与实现.pdf

    Hadoop是一个开源框架模型,它利用集群存储数据的能力,以高效和可扩展的方式对大数据进行分布式信息处理。其优势在于对半结构化和非结构化数据的处理,以及可靠性高、容错能力强、搭建成本低、跨平台等特点。因此...

    基于Hadoop框架的图书数据管理系统.pdf

    该系统将数据加载到 Hadoop 框架,并使用 Hive、MapReduce 和 Pig 等工具进行数据处理和分析。同时,系统还使用 PHP 脚本语言创建了基于网络的用户界面,以便执行 Hive、Pig 和 MapReduce 查询。 该系统的关键技术...

    大数据Hadoop框架核心技术对比与实现.docx

    Hadoop框架应运而生,它是一个开源项目,由Apache Software Foundation维护,旨在支持大数据的分布式处理。Hadoop的核心组件包括Hadoop分布式文件系统(HDFS)和MapReduce计算框架。 1.2 大数据处理的挑战与机遇 ...

    Hadoop框架在电力大数据平台中的运用分析与研究.docx

    【Hadoop框架在电力大数据平台中的运用分析与研究】 Hadoop框架是Apache基金会开发的分布式系统基础架构,专为处理和存储大规模数据而设计。它包含两个核心组件:分布式文件系统(HDFS)和映射规约(MapReduce)。...

    HadoopHDFS架构概述推荐系统框架图

    Hadoop HDFS 架构概述推荐系统框架图 Hadoop 是什么?Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题。Hadoop 通常是指一个更广泛的概念——Hadoop ...

    分布式计算平台Hadoop框架解析.pdf

    Hadoop框架的成本效益极高,可以在廉价的商用硬件上运行,这为数据密集型任务提供了一个经济有效的解决方案。Hadoop还具有良好的扩展性和容错性,能够轻松地扩展到几千个节点。在Hadoop集群中,数据可以跨多个物理...

    基于Hadoop数据分析系统设计毕业论文

    Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台。以 Hadoop分布式文件系统和 MapReduce为核心的 Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将 Hadoop...

    大数据环境下基于Hadoop框架的数据挖掘算法的研究与实现 (1).pdf

    大数据环境下基于Hadoop框架的数据挖掘算法的研究与实现 (1).pdf

    Hadoop_RPC详细分析.doc

    Hadoop RPC 详细分析 Hadoop RPC(Remote Procedure Call,远程过程调用)是 Hadoop 项目中的一个重要组件,用于实现分布式系统中的通信和数据交换。下面是对 Hadoop RPC 的详细分析。 RPCInterface Hadoop RPC ...

    大数据Hadoop框架核心技术对比与实现.zip

    在大数据处理领域,Hadoop框架扮演着至关重要的角色。它是一个开源框架,主要设计用于分布式存储和处理大规模数据集。本资料"大数据Hadoop框架核心技术对比与实现"将深入探讨Hadoop的核心技术,并与其他大数据处理...

    Hadoop框架详解及其在未来大数据处理中的发展趋势

    内容概要:本文首先介绍了Hadoop框架的基本原理,包括分布式文件系统(HDFS)、MapReduce及YARN等核心组件的技术特性,并通过具体示例进行了讲解。随后详细分析了数据采集预处理、数据存储与管理系统,及数据处理和...

    Hadoop源代码分析(完整版).pdf

    Hadoop 源代码分析 Hadoop 是一个开源的分布式计算框架,由 Apache 基金会维护。Hadoop 的核心组件包括 HDFS(Hadoop Distributed File System)和 MapReduce。HDFS 是一个分布式文件系统,可以存储大量的数据,而 ...

Global site tag (gtag.js) - Google Analytics