本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
Nutch开源搜索引擎的crawl日志分析及工作目录说明
看了nutch关于crawl的源码后,我将crawl的日志分析了一下,主要是熟悉一下整个下载、分析、索引的过程。nutch在整个过程中都是通过Hadoop的MapReduce来实现的。
可以通过nutch来深入学习Hadoop编程,都是比较横的代码。这一块待以后研究完毕后,blog出来。
crawl通过nutch-default.xml参数来控制运行过程,另外需要修改crawl-urlfilter ...
基于本体的在线地理信息服务平台(~~~~~~~~~~~~~~)
基于本体的在线地理信息服务平台
----张恒才
一数据基础-<o:p></o:p>
(组织合理包含知识+语义地理信息数据库)<o:p></o:p>
<o:p> </o:p>
(1)本体库<o:p></o:p>
(2)地理信息数据库<o:p></o:p>
(3) ...
研究Nutch开源搜索引擎心得记录
---------------20080828------------
下载源码,初步研究
--------------20080829-------------
http://blog.csdn.net/lianqiang198505/archive/2007/04/18/1569680.aspx
前两天试用了nutch目前的最新版本。这个版本是完全建立在hadoop基础上的,也就是一个分布式的 ...
深入了解Hadoop
-----------------------20080827-------------------
深入了解hadoop
http://www.blogjava.net/killme2008/archive/2008/06/05/206043.html
一、前提和设计目标
1、硬件错误是常态,而非异 ...
研究hadoop分布式计算平台及三台服务器的实现
--------------------20080819------------
参考文章
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop2/index.html
http://ww ...
Hadoop--海量文件的分布式计算处理方案
作者:江南白衣,原文出处:http://www.blogjava.net/calvin/archive/2007/02/08/98688.html,转载请保留。
Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, Map ...
第一个MapReduce任务
前两天在公司内网上搭了个2个节点hadoop集群,暂时没有多大实际意义,仅用作自己的测试。遇到的问题在阿里巴巴这位仁兄的《Hadoop集群配置和使用技巧
》都有提到的。也遇到了reduce任务卡住的问题,只需要在每个节点的/etc/hosts将集群中的机器都配置上即可解决。
今天将一个日志统计任务用Hadoop
MapReduce框架重新实现了一次,数据量并不大,每天分析一个2G多 ...