最新文章列表

Yahoo Doug Cutting:MapReduce和Hadoop的未来

Hadoop是一个开源的分布式计算平台,它主要由MapReduce的算法执行和一个分布式的文件系统等两部分组成。InfoQ曾经刊登过一篇Jeremy Zawodny写的有关Hadoop速度提升的综述性文章。这次InfoQ的资深Java编辑Scott Delap和Hadoop项目负责人Doug Cutting进行了一次专访。在这次InfoQ的专访中,Cutting论述了Hadoop是如何在Yahoo中 ...
kevinwu 评论(0) 有678人浏览 2009-07-19 16:06

Google大表(BigTable)

http://my.donews.com/eraera/2006/09/26/swogzstwtqdnwlfrzgsljctkjsbrtuiumxzj/   摘要bigtable是设计来分布存储大规模结构化数据的,从设计上它可以扩展到上2^50字节,分布存储在几千个普通服务器上.Google的很多项目使用BT来存储数据,包括网页查询,google earth和google金融.这些应用程序对BT ...
vb2005xu 评论(0) 有2250人浏览 2009-07-08 13:29

云计算成为现实

2008年下半年这些日子,虽然微软还在表示进军云计算,但是云计算在Java世界实际上已经从口号变成现实。这是一篇Web服务器Jetty集群文章的翻译,也就 ...
freesoftman 评论(0) 有891人浏览 2009-07-01 19:33

Nutch Crawler工作流程及文件格式详细分析

Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大 ...
biaowen 评论(1) 有1492人浏览 2009-06-30 17:59

Google架构

Google架构 文/Todd Hoff 译/黄翀 Google是可伸缩性控制方面的王者。Google一直的目标就是构建高性能高伸缩性的基础组织来支持它们的产品。 平台 l  Linux l  开发语言:Python,Java,C++ 状态 l  在2006年大约有450,000台廉价服务器 l  在2005年Google索引了80亿Web页面,现在没有人知道数目 l  目前在Googl ...
jythoner 评论(0) 有1474人浏览 2009-06-19 12:48

Map Reduce:The Free Lunch is not over!

微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开 ...
ChinaEstone 评论(0) 有591人浏览 2009-06-13 11:56

Map/Reduce-javascript版

/** * URL访问频率统计 * map函数 处理webpag请求和应答(URL,1)的log。 * Reduce函数 把所有相同的URL的值合并,并且输出一个成对的(URL,总个数)。 * 参考:http://labs.google.com/papers/mapreduce.html */ var mapReduceJob = { map:function(/ ...
鹤惊昆仑 评论(2) 有1432人浏览 2009-06-07 23:28

总结

  最初发在了Blogspot上,从Blogspot导入的时候没有导入本篇,所以手工发了 ============================= 2009年5月14日 星期四 今天做了一些工作,很杂。主要的时间花在了上网闲逛上~~~~。下面把闲逛的一些内容作一下总结吧。 1 开始尝试做一个web2.0网络用户。以前可以说自己不算是一个web2.0的网络用户,尝试着去发现stumble, ...
noar 评论(0) 有676人浏览 2009-05-31 22:53

Hadoop源代码分析(MapTask)

接下来我们来分析Task的两个子类,MapTask和ReduceTask。MapTask的相关类图如下:   MapTask其实不是很复杂,复杂的是支持MapTask工作的一些辅助类。MapTask ...
caibinbupt 评论(0) 有6376人浏览 2009-05-29 09:49

Nutch中MapReduce的分析

出处: http://www.hadoop.org.cn/mapreduce/nutch-mapreduce/Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generat ...
billy_zh 评论(1) 有1989人浏览 2009-05-26 14:08

Nutch-0.9源代码:Injector类

出处:http://hi.baidu.com/shirdrn/blog/item/5d24ef2298e3eca24623e887.html在对Nutch抓取工作流程分析中,已经简单地提及到了inject操作,如下所示: inject操作调用的是nutch的核心包之一crawl包中的类org.apache.nutch.crawl.Injector。它执行的结果是:crawldb数据库内 ...
billy_zh 评论(0) 有1292人浏览 2009-05-26 12:41

Hadoop源代码分析(类Task)

有了前面的基础,我们可以来分析类Task了。Task是一个虚基类,它有两个子类:MapTask,ReduceTask,分别对应着Map和Reduce。先从成员变量开始: 首先是和作业任务相关的信息,包括jobFile,作业的配置文件;taskId,任务ID,从中可以获取作业ID;partition,Job内ID;taskStatus,任务状态。jobCleanup,jobSetup和taskCle ...
caibinbupt 评论(0) 有5225人浏览 2009-05-25 15:49

Nutch Crawler工作流程

Nutch Crawler工作流程及文件格式详细分析 Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。一、总体介绍:    1、先注入种子urls到crawldb    2、循环: generate 从crawldb中生成一个url的子集用于抓取 ...
nhy520 评论(0) 有1548人浏览 2009-05-24 09:41

Windows 下运行Nutch批处理脚本

Windows 下运行Nutch批处理脚本 日期:2007-08-03   点击: <script src="/plus/count.php?view=yes&amp;aid=39"></script> 403   作者:不会游泳的鱼   来源:   字体:[ 大 中 小 ] <script ty ...
nhy520 评论(0) 有1468人浏览 2009-05-23 13:33

Nutch-0.9源代码:Injector类

在对Nutch抓取工作流程分析中,已经简单地提及到了inject操作,如下所示: inject操作调用的是nutch的核心包之一crawl包中的类org.apache.nutch.crawl.Injector。它执行的结果是:crawldb数据库内容得到更新,包括URL及其状态。 inject操作主要作用可以从下面3方面来说明: (1) 将URL集合进行格式化和过滤,消除其中的非法URL,并设定UR ...
nhy520 评论(0) 有1306人浏览 2009-05-23 11:13

hive的编译模块设计

很少在博客里写翻译的东西, 这次例外. 原文在这儿 . 译文掺杂了些自己的表述。 解析器(Parser) 解析器 由antlr生成, 文法定义在Hive.g文件中。它的功能是将查询字符串翻译成抽象语法树(Abstract Syntax Tree, 简称AST). 语法分析器(Semantic Analyzer) 语法分析器将AST转换成内部查询形式,此形式为查询块(Query Bloc ...
coderplay 评论(0) 有3748人浏览 2009-05-22 15:39

Google的核心技术

听了一遍李开复对云计算的演讲 ,提到Google的核心技术并非搜索,搜索只是在这个核心技术之上的一个应用。那他的核心技术是什么呢? ---基于普通pc的海量存储、海量计算能力,以及管理这些海量存储、计算能力的Cluster软件,所有这些构成的遍布世界的Google数据中心,这才是Google的核心技术,也是云计算的基础。具体的技术就是:MapReduce 、GFS 、BigTale 演 ...
iame 评论(0) 有2581人浏览 2009-05-19 22:04

开发基于 Nutch 的集群式搜索引擎

文档选项 <script type="text/javascript"></script> 打印本页 <noscript></noscript>
nhy520 评论(0) 有1607人浏览 2009-05-12 09:54

Nutch-0.9源代码:NutchConfiguration类

org.apache.nutch.util.NutchConfiguration类是Nutch爬虫的配置类,其中包括爬虫的初始化配置和运行时配置。说到NutchConfiguration类,我认为有必要提到Hadoop的Configuration类,即org.apache.hadoop.conf.Configuration。在Nutch早期开发版本中,Hadoop是Nutch项目的一部分,其中Had ...
nhy520 评论(0) 有1284人浏览 2009-05-10 22:51

Hadoop分布式应用框架

    (1)HDFS实现google的文件系统(2)并实现google的mapreduce系统。 作为Hadoop程序员,他要做的事情就是:1、定义Mapper,处理输入的Key-Value对,输出中间结果。2、定义Reducer,可选,对中间结果进行规约,输出最终结果。3、定义InputFormat 和OutputFormat,可选,InputFormat将每行输入文件的内容转换为Java ...
poson 评论(0) 有943人浏览 2008-10-05 16:44

最近博客热门TAG

浏览器(34332) Blog(32212) Google(26471) 网络应用(23512) IE(21696) 互联网(13881) QQ(11035) Firefox(9275) 网络协议(9099) 搜索引擎(8705) 百度(7940) BBS(4716) Gmail(3793) 防火墙(3687) Chrome(3205) 360(3012) 云计算(2849) 腾讯(2715) Yahoo(2236) WordPress(2094)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics