Mapreduce热门博客列表 - 互联网 ITeye博客频道 - 第64页

博客专栏推荐

本月博客排行

年度博客排行

Hadoop源代码分析（类TaskStatus）

我们先分析Task，这是一个规模比较大的类，类图如下。Task是一个虚类，它有两个子类，MapTask和ReduceTask，分别是Map任务和Reduce任务的抽象。在分析Task相关类之前，我们来分析和ID，JobID，TaskID相关的类。我们从TaskStatus开始来分析Task相关的类，TaskStatus，一看类名就知道它保持了Task的状态。从前面介绍MapRe ...

Hadoop Mapreduce 工作

caibinbupt 评论(3) 有5750人浏览 2009-03-10 17:32

我们开始来分析Hadoop MapReduce的内部的运行机制。用户向Hadoop提交Job（作业），作业在JobTracker对象的控制下执行。Job被分解成为Task（任务），分发到集群中，在TaskTracker的控制下运行。Task包括MapTask和ReduceTask，是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D ...

Hadoop Mapreduce Apache 配置管理虚拟机

caibinbupt 评论(3) 有8070人浏览 2009-03-10 17:28

Google的高可扩展架构与海量数据处理

Google需要处理数据真正可以称得上海量，这依赖于其分布式的高扩展架构，否则，再强的小型机大型机也扛不住互联网每天产生的“信息垃圾”。Google的Jeff Dean同学为我们解密了Google的高可扩展性架构，ppt可以从这里下载。一、底层架构负载并行分配到多个硬件机器上软件必须采用容错处理，不依赖具体的某一个台机器运行大量采用刀片服务器和PC Server，低端存储和网络设备机器 ...

Google Mapreduce 互联网 Linux 工作

longgangbai 评论(0) 有2315人浏览 2009-03-10 13:21

Hadoop源代码分析（包hadoop.mapred中的MapReduce接口）

前面已经完成了对org.apache.hadoop.mapreduce的分析，这个包提供了Hadoop MapReduce部分的应用API，用于用户实现自己的MapReduce应用。但这些接口是给未来的MapReduce应用的，目前MapReduce框架还是使用老系统（参考补丁HADOOP-1230）。下面我们来分析org.apache.hadoop.mapred，首先还是从mapred的MapRe ...

Hadoop Mapreduce Apache 框架工作

caibinbupt 评论(1) 有8758人浏览 2009-03-06 14:29

Hadoop源代码分析（mapreduce.lib.partition/reduce/output）

Map的结果，会通过partition分发到Reducer上，Reducer做完Reduce操作后，通过OutputFormat，进行输出，下面我们就来分析参与这个过程的类。 Mapper的结果，可能送到可能的Combiner做合并，Combiner在系统中并没有自己的基类，而是用Reducer作为Combiner的基类，他们对外的功能是一样的，只是使用的位置和使用时的上下文不太一样而已。 M ...

Mapreduce Hadoop 配置管理工作

caibinbupt 评论(11) 有8553人浏览 2009-02-26 11:29

Hadoop源代码分析（包mapreduce.lib.map）

Hadoop的MapReduce框架中，Map动作通过Mapper类来抽象。一般来说，我们会实现自己特殊的Mapper，并注册到系统中，执行时，我们的Mapper会被MapReduce框架调用。Mapper类很简单，包括一个内部类和四个方法，静态结构图如下：内部类Context继承自MapContext，并没有引入任何新的方法。 Mapper的四个方法是setup，map，cleanup和r ...

Mapreduce Hadoop 多线程框架配置管理

caibinbupt 评论(0) 有8203人浏览 2009-02-25 23:53

Hadoop源代码分析（包mapreduce.lib.input）

接下来我们按照MapReduce过程中数据流动的顺序，来分解org.apache.hadoop.mapreduce.lib.*的相关内容，并介绍对应的基类的功能。首先是input部分，它实现了MapReduce的数据输入部分。类图如下：类图的右上角是InputFormat，它描述了一个MapReduce Job的输入，通过InputFormat，Hadoop可以： l ...

Mapreduce Hadoop Apache 工作

caibinbupt 评论(0) 有8609人浏览 2009-02-25 23:45

Hadoop源代码分析（包org.apache.hadoop.mapreduce）

有了前一节的分析，我们来看一下具体的接口，它们都处于包org.apache.hadoop.mapreduce中。上面的图中，类可以分为4种。右上角的是从Writeable继承的，和Counter（还有CounterGroup和Counters，也在这个包中，并没有出现在上面的图里）和ID相关的类，它们保持MapReduce过程中需要的一些计数器和标识；中间大部分是和Context相关的 ...

Hadoop Mapreduce Apache OpenSource OS

caibinbupt 评论(1) 有10108人浏览 2009-02-25 22:06

Hadoop源代码分析（MapReduce概论）

大家都熟悉文件系统，在对HDFS进行分析前，我们并没有花很多的时间去介绍HDFS的背景，毕竟大家对文件系统的还是有一定的理解的，而且也有很好的文� ...

Mapreduce Hadoop JDBC 框架 Blog

caibinbupt 评论(2) 有11403人浏览 2009-02-21 16:58

Hadoop的mapred TaskTracker端源码概览

花了许多功夫把Hadoop的mapreduce实现过了一遍，基本线索理清楚了： 1. 任务的运行时TaskTracker通过heartbeat取得 2. TaskTracker得到hearbeatresponse之后，会根据封装在response里的action来决定行为 3. 如果是launchaction的话，调用TasklLauncher,在startNewTasks中的localizeJob ...

Hadoop JVM Mapreduce 虚拟机

jiwenke 评论(2) 有4115人浏览 2009-02-17 14:39

云计算

OO + 分布式计算 = 软件架构的方向 http://www.jdon.com/artichect/architecture.html 云计算成为现实 http://www.jdon.com/article/34888.html 这是一篇Web服务器Jetty集群文章的翻译。 1.Cloud Platform云计算平台: Morph (http://www.mor. ...

云计算 Hadoop Mapreduce 应用服务器企业应用

xihongshi414 评论(0) 有1043人浏览 2009-02-06 17:17

Hadoop配置和使用问题记录

关于hadoop如何配置的教程网上已经有不少了，配合hadoop主页上的说明，基本可以顺利在多台机器上配置好hadoop集群。这里记录的是我在实际配置和使用had ...

Hadoop SSH Apache Eclipse Mapreduce

shutiao2008 评论(0) 有2191人浏览 2009-01-20 10:24

Hadoop源代码分析（重读GFS的文章）

前面的内容基本完成了对HDFS的分析，很微观，从宏观的角度，重读一遍Google的论文，再次把握这个系统，还是很有意义的。 HDFS的设计目标和GFS是高度一致的，甚至HDFS上面的应用，也有对应的项目。设计方面，从接口看，HDFS缺少快照和记录追加操作（下面分析），其他方面，如架构，单一主服务器，块尺寸，元数据的实现上，差别不大。操作日志的实现上，HDFS的实现方案应该更有优势，创建检查点对 ...

Hadoop HBase Mapreduce 应用服务器项目管理

caibinbupt 评论(5) 有11904人浏览 2009-01-19 16:37

hadoop源码分析之MapReduce(二)

任务的申请、派发与执行 TaskTracker.run() 连接JobTracker TaskTracker 的启动过程会初始化一系列参数和服务（另有单独的一节介绍），然后尝试连接JobTracker 服务（即必须实现InterTrackerProtocol 接口），如果连接断开，则会循环尝试连接JobTracker ，并重新初始化所有成员和参数，此过程参见run() 方法。 TaskTr ...

Mapreduce Hadoop Eclipse Apache

coderplay 评论(13) 有8601人浏览 2009-01-18 22:14

MapReduce

MapReduce关系数据库多目的：用于数据分析、数据编辑、批量互动任务通过“ACID transactions”机制实现高度数据完整大量兼容工具用于加载、管理、 ...

Mapreduce Hadoop 数据挖掘 Linux Python

yinjh 评论(0) 有1222人浏览 2008-12-25 11:01

用 Hadoop 进行分布式并行编程Ⅰ

2008-06-06 14:42Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架，由于分布式存储对于分布式编程来说是必不可少的，这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distributed File System )。也许到目前为止，Hadoop 还不是那么广为人知，其最新的版本号也仅仅是 0.16，距离 1.0 似乎都还有很长的一 ...

编程 Hadoop Mapreduce 云计算 SSH

chenyunhong 评论(0) 有1541人浏览 2008-12-17 09:02

hadoop源码分析之MapReduce(一)

hadoop的源码已经粗看过一遍,但每次想要了解细节的时候,还得去翻代码. 看了又是忘记. 所以我决定这些天把其中的重要的细节记下来。声明： 1. ...

Mapreduce Hadoop 配置管理应用服务器网络应用

coderplay 评论(10) 有19342人浏览 2008-12-16 13:08

谷歌的云计算是什么样子的？

在网上收集到几乎所有的关于谷歌云计算和大规模计算的资料，说实话有用的资料确实不多，掰着手指头能数清楚：谷歌关于云计算的一个新闻发布会， ...

云计算企业应用腾讯 Mapreduce SAAS

cjc 评论(0) 有968人浏览 2008-09-11 23:29

分布式计算开源框架Hadoop入门实践

Author :岑文初 Email: wenchu.cenwc@alibaba-inc.com msn: cenwenchu_79@hotmail.com blog: http://blog.csdn.net/cenwenchu79/ 引... 2

框架 Hadoop 云计算 Mapreduce Rack

cenwenchu 评论(0) 有1453人浏览 2008-08-29 12:03

【关注】雅虎架构师谈MapReduce和Hadoop的未来

雅虎架构师谈MapReduce和Hadoop的未来作者 Scott Delap译者 Terry 发布于 2008年3月18日下午10时42分 Hadoop是一个开源的分布式计算平台，它主要由MapReduce的算法执行和一个分布式的文件系统等两部分组成。InfoQ曾经刊登过一篇Jeremy Zawodny写的有关Hadoop速度提升的综述性文章。这次InfoQ的资深Java编辑Sco ...

Mapreduce Hadoop Yahoo 大众软件应用服务器

pumaboyd 评论(0) 有799人浏览 2008-05-15 15:39

« 上一页 1 2 … 63 64 65 … 69 70 下一页 »

最近博客热门TAG

浏览器(34332) Blog(32212) Google(26471) 网络应用(23512) IE(21696) 互联网(13881) QQ(11035) Firefox(9275) 网络协议(9099) 搜索引擎(8705) 百度(7940) BBS(4716) Gmail(3793) 防火墙(3687) Chrome(3205) 360(3012) 云计算(2849) 腾讯(2715) Yahoo(2236) WordPress(2094)

博客人气排行榜

博客电子书下载排行

>>浏览更多下载