最新文章列表

Hadoop源代码分析(类TaskStatus)

我们先分析Task,这是一个规模比较大的类,类图如下。Task是一个虚类,它有两个子类,MapTask和ReduceTask,分别是Map任务和Reduce任务的抽象。   在分析Task相关类之前,我们来分析和ID,JobID,TaskID相关的类。 我们从TaskStatus开始来分析Task相关的类,TaskStatus,一看类名就知道它保持了Task的状态。从前面介绍MapRe ...
caibinbupt 评论(3) 有5750人浏览 2009-03-10 17:32

Hadoop源代码分析(*IDs类和*Context类)

我们开始来分析Hadoop MapReduce的内部的运行机制。用户向Hadoop提交Job(作业),作业在JobTracker对象的控制下执行。Job被分解成为Task(任务),分发到集群中,在TaskTracker的控制下运行。Task包括MapTask和ReduceTask,是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D ...
caibinbupt 评论(3) 有8070人浏览 2009-03-10 17:28

Google的高可扩展架构与海量数据处理

Google需要处理数据真正可以称得上海量,这依赖于其分布式的高扩展架构,否则,再强的小型机大型机也扛不住互联网每天产生的“信息垃圾”。Google的Jeff Dean同学为我们解密了Google的高可扩展性架构,ppt可以从这里下载。 一、底层架构 负载并行分配到多个硬件机器上 软件必须采用容错处理,不依赖具体的某一个台机器运行 大量采用刀片服务器和PC Server,低端存储和网络设备 机器 ...
longgangbai 评论(0) 有2322人浏览 2009-03-10 13:21

Hadoop源代码分析(包hadoop.mapred中的MapReduce接口)

前面已经完成了对org.apache.hadoop.mapreduce的分析,这个包提供了Hadoop MapReduce部分的应用API,用于用户实现自己的MapReduce应用。但这些接口是给未来的MapReduce应用的,目前MapReduce框架还是使用老系统(参考补丁HADOOP-1230)。下面我们来分析org.apache.hadoop.mapred,首先还是从mapred的MapRe ...
caibinbupt 评论(1) 有8758人浏览 2009-03-06 14:29

Hadoop源代码分析(mapreduce.lib.partition/reduce/output)

Map的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。   Mapper的结果,可能送到可能的Combiner做合并,Combiner在系统中并没有自己的基类,而是用Reducer作为Combiner的基类,他们对外的功能是一样的,只是使用的位置和使用时的上下文不太一样而已。 M ...
caibinbupt 评论(11) 有8553人浏览 2009-02-26 11:29

Hadoop源代码分析(包mapreduce.lib.map)

Hadoop的MapReduce框架中,Map动作通过Mapper类来抽象。一般来说,我们会实现自己特殊的Mapper,并注册到系统中,执行时,我们的Mapper会被MapReduce框架调用。Mapper类很简单,包括一个内部类和四个方法,静态结构图如下:   内部类Context继承自MapContext,并没有引入任何新的方法。 Mapper的四个方法是setup,map,cleanup和r ...
caibinbupt 评论(0) 有8203人浏览 2009-02-25 23:53

Hadoop源代码分析(包mapreduce.lib.input)

接下来我们按照MapReduce过程中数据流动的顺序,来分解org.apache.hadoop.mapreduce.lib.*的相关内容,并介绍对应的基类的功能。首先是input部分,它实现了MapReduce的数据输入部分。类图如下:   类图的右上角是InputFormat,它描述了一个MapReduce Job的输入,通过InputFormat,Hadoop可以: l         ...
caibinbupt 评论(0) 有8609人浏览 2009-02-25 23:45

Hadoop源代码分析(包org.apache.hadoop.mapreduce)

有了前一节的分析,我们来看一下具体的接口,它们都处于包org.apache.hadoop.mapreduce中。   上面的图中,类可以分为4种。右上角的是从Writeable继承的,和Counter(还有CounterGroup和Counters,也在这个包中,并没有出现在上面的图里)和ID相关的类,它们保持MapReduce过程中需要的一些计数器和标识;中间大部分是和Context相关的 ...
caibinbupt 评论(1) 有10108人浏览 2009-02-25 22:06

Hadoop源代码分析(MapReduce概论)

大家都熟悉文件系统,在对HDFS进行分析前,我们并没有花很多的时间去介绍HDFS的背景,毕竟大家对文件系统的还是有一定的理解的,而且也有很好的文 ...
caibinbupt 评论(2) 有11403人浏览 2009-02-21 16:58

Hadoop的mapred TaskTracker端源码概览

花了许多功夫把Hadoop的mapreduce实现过了一遍,基本线索理清楚了: 1. 任务的运行时TaskTracker通过heartbeat取得 2. TaskTracker得到hearbeatresponse之后,会根据封装在response里的action来决定行为 3. 如果是launchaction的话,调用TasklLauncher,在startNewTasks中的localizeJob ...
jiwenke 评论(2) 有4118人浏览 2009-02-17 14:39

云计算

OO + 分布式计算 = 软件架构的方向 http://www.jdon.com/artichect/architecture.html 云计算成为现实 http://www.jdon.com/article/34888.html         这是一篇Web服务器Jetty集群文章的翻译。         1.Cloud Platform云计算平台: Morph (http://www.mor. ...
xihongshi414 评论(0) 有1047人浏览 2009-02-06 17:17

Hadoop配置和使用问题记录

关于hadoop如何配置的教程网上已经有不少了,配合hadoop主页上的说明,基本可以顺利在多台机器上配置好hadoop集群。这里记录的是我在实际配置和使用had ...
shutiao2008 评论(0) 有2193人浏览 2009-01-20 10:24

Hadoop源代码分析(重读GFS的文章)

前面的内容基本完成了对HDFS的分析,很微观,从宏观的角度,重读一遍Google的论文,再次把握这个系统,还是很有意义的。 HDFS的设计目标和GFS是高度一致的,甚至HDFS上面的应用,也有对应的项目。 设计方面,从接口看,HDFS缺少快照和记录追加操作(下面分析),其他方面,如架构,单一主服务器,块尺寸,元数据的实现上,差别不大。操作日志的实现上,HDFS的实现方案应该更有优势,创建检查点对 ...
caibinbupt 评论(5) 有11904人浏览 2009-01-19 16:37

hadoop源码分析之MapReduce(二)

  任务的申请、派发与执行 TaskTracker.run() 连接JobTracker TaskTracker 的启动过程会初始化一系列参数和服务(另有单独的一节介绍),然后尝试连接JobTracker 服务(即必须实现InterTrackerProtocol 接口),如果连接断开,则会循环尝试连接JobTracker ,并重新初始化所有成员和参数,此过程参见run() 方法。 TaskTr ...
coderplay 评论(13) 有8606人浏览 2009-01-18 22:14

MapReduce

MapReduce关系数据库 多目的:用于数据分析、数据编辑、批量互动任务 通过“ACID transactions”机制实现高度数据完整  大量兼容工具用于加载、管理、 ...
yinjh 评论(0) 有1229人浏览 2008-12-25 11:01

用 Hadoop 进行分布式并行编程Ⅰ

2008-06-06 14:42Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distributed File System )。也许到目前为止,Hadoop 还不是那么广为人知,其最新的版本号也仅仅是 0.16,距离 1.0 似乎都还有很长的一 ...
chenyunhong 评论(0) 有1555人浏览 2008-12-17 09:02

hadoop源码分析之MapReduce(一)

      hadoop的源码已经粗看过一遍,但每次想要了解细节的时候,还得去翻代码. 看了又是忘记. 所以我决定这些天把其中的重要的细节记下来。 声明: 1. ...
coderplay 评论(10) 有19362人浏览 2008-12-16 13:08

谷歌的云计算是什么样子的?

在网上收集到几乎所有的关于谷歌云计算和大规模计算的资料,说实话有用的资料确实不多,掰着手指头能数清楚:谷歌关于云计算的一个新闻发布会, ...
cjc 评论(0) 有970人浏览 2008-09-11 23:29

分布式计算开源框架Hadoop入门实践

Author :岑文初 Email: wenchu.cenwc@alibaba-inc.com msn: cenwenchu_79@hotmail.com blog: http://blog.csdn.net/cenwenchu79/   引... 2
cenwenchu 评论(0) 有1461人浏览 2008-08-29 12:03

【关注】雅虎架构师谈MapReduce和Hadoop的未来

雅虎架构师谈MapReduce和Hadoop的未来 作者 Scott Delap译者 Terry 发布于 2008年3月18日 下午10时42分 Hadoop是一个开源的分布式计算平台,它主要由MapReduce的算法执行和一个分布式的文件系统等两部分组成。InfoQ曾经刊登过一篇Jeremy Zawodny写的有关Hadoop速度提升的综述性文章。这次InfoQ的资深Java编辑Sco ...
pumaboyd 评论(0) 有806人浏览 2008-05-15 15:39

最近博客热门TAG

浏览器(34332) Blog(32212) Google(26471) 网络应用(23512) IE(21696) 互联网(13881) QQ(11035) Firefox(9275) 网络协议(9099) 搜索引擎(8705) 百度(7940) BBS(4716) Gmail(3793) 防火墙(3687) Chrome(3205) 360(3012) 云计算(2849) 腾讯(2715) Yahoo(2236) WordPress(2094)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics