论坛首页 Java企业应用论坛

nutch的基本工作流程理解

浏览 12636 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-11-27  
diddyrock 写道
复杂太多了,有个别人的代码很漂亮但是看起来很费神。现在联抓取都支持单站点恒定连接数了,实在是太复杂了,好在plugin写起来不是很困难,但是想要高效还是有点复杂。nutch对于硬件没有太多要求,一台个人pc就可以了,硬盘最好企业级。关键是网络的稳定,而且nutch有内存泄漏的bug,建议你等下一个稳定版本,或者直接trunk。

如果我们想抓取的网站仅仅限于有限多个网站的内容,而不像GOOGLE那样是全网抓取,那么有可能对存储的要求比较低,事实上我们也仅仅只需要这样的搜索引擎
0 请登录后投票
   发表时间:2009-11-27  
在nutch中如何配置多个url,知道的麻烦说下。
抓取什么内容,主要看业务的方向。大部分的貌似都是网页中的部分内容。
0 请登录后投票
   发表时间:2009-12-26  
同楼上,比如说我只想抓取40个网站的内容,这些URL是如何配置到NUTCH中去的呢?
0 请登录后投票
   发表时间:2009-12-26  
这个问题我已经弄明白了,同样的不管有多少的url,都写在url.txt中就行,nutch 在启动的时候自然的就会找到url.txt中这些url了。
0 请登录后投票
   发表时间:2009-12-27  
p_x1984 写道
这个问题我已经弄明白了,同样的不管有多少的url,都写在url.txt中就行,nutch 在启动的时候自然的就会找到url.txt中这些url了。

还有个问题,如果要抓取多个URL的话,NUTCH的工作线程是怎么安排的呢?
0 请登录后投票
   发表时间:2009-12-27  
你看nutch的源码了?在fetch.java类中有说明,具体的我还得看下源码。
0 请登录后投票
   发表时间:2009-12-29   最后修改:2009-12-29
另外,你们用的是什么版本的呢? 听说好像最新的版本不如老版本的好呢?
0 请登录后投票
   发表时间:2009-12-29  
现在比较稳定还是nutch-1.0吧!
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics