本月博客排行
-
第1名
龙儿筝 -
第2名
johnsmith9th -
第3名
wy_19921005 - zysnba
- sgqt
- lemonhandsome
- sichunli_030
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- benladeng5225
- wy_19921005
- fantaxy025025
- e_e
- zysnba
- ssydxa219
- sam123456gz
- javashop
- arpenker
- tanling8334
- kaizi1992
- xpenxpen
- wiseboyloves
- xiangjie88
- ranbuijj
- ganxueyun
- sichunli_030
- xyuma
- wangchen.ily
- jh108020
- lemonhandsome
- zxq_2017
- jbosscn
- Xeden
- johnsmith9th
- luxurioust
- lzyfn123
- zhanjia
- forestqqqq
- ajinn
- nychen2000
- wjianwei666
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
- jveqi
- java-007
- sunj
最新文章列表
Yahoo Doug Cutting:MapReduce和Hadoop的未来
Hadoop是一个开源的分布式计算平台,它主要由MapReduce的算法执行和一个分布式的文件系统等两部分组成。InfoQ曾经刊登过一篇Jeremy Zawodny写的有关Hadoop速度提升的综述性文章。这次InfoQ的资深Java编辑Scott Delap和Hadoop项目负责人Doug Cutting进行了一次专访。在这次InfoQ的专访中,Cutting论述了Hadoop是如何在Yahoo中 ...
Map Reduce:The Free Lunch is not over!
微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开 ...
Map/Reduce-javascript版
/**
* URL访问频率统计
* map函数 处理webpag请求和应答(URL,1)的log。
* Reduce函数 把所有相同的URL的值合并,并且输出一个成对的(URL,总个数)。
* 参考:http://labs.google.com/papers/mapreduce.html
*/
var mapReduceJob = {
map:function(/ ...
Hadoop源代码分析(MapTask)
接下来我们来分析Task的两个子类,MapTask和ReduceTask。MapTask的相关类图如下:
MapTask其实不是很复杂,复杂的是支持MapTask工作的一些辅助类。MapTask ...
Hadoop源代码分析(类Task)
有了前面的基础,我们可以来分析类Task了。Task是一个虚基类,它有两个子类:MapTask,ReduceTask,分别对应着Map和Reduce。先从成员变量开始:
首先是和作业任务相关的信息,包括jobFile,作业的配置文件;taskId,任务ID,从中可以获取作业ID;partition,Job内ID;taskStatus,任务状态。jobCleanup,jobSetup和taskCle ...
Windows 下运行Nutch批处理脚本
Windows 下运行Nutch批处理脚本
日期:2007-08-03 点击:
<script src="/plus/count.php?view=yes&aid=39"></script>
403 作者:不会游泳的鱼 来源: 字体:[ 大 中 小 ]
<script ty ...
Nutch-0.9源代码:NutchConfiguration类
org.apache.nutch.util.NutchConfiguration类是Nutch爬虫的配置类,其中包括爬虫的初始化配置和运行时配置。说到NutchConfiguration类,我认为有必要提到Hadoop的Configuration类,即org.apache.hadoop.conf.Configuration。在Nutch早期开发版本中,Hadoop是Nutch项目的一部分,其中Had ...