锁定老帖子 主题:nutch的基本工作流程理解
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2009-11-27
diddyrock 写道 复杂太多了,有个别人的代码很漂亮但是看起来很费神。现在联抓取都支持单站点恒定连接数了,实在是太复杂了,好在plugin写起来不是很困难,但是想要高效还是有点复杂。nutch对于硬件没有太多要求,一台个人pc就可以了,硬盘最好企业级。关键是网络的稳定,而且nutch有内存泄漏的bug,建议你等下一个稳定版本,或者直接trunk。 如果我们想抓取的网站仅仅限于有限多个网站的内容,而不像GOOGLE那样是全网抓取,那么有可能对存储的要求比较低,事实上我们也仅仅只需要这样的搜索引擎 |
|
返回顶楼 | |
发表时间:2009-11-27
在nutch中如何配置多个url,知道的麻烦说下。
抓取什么内容,主要看业务的方向。大部分的貌似都是网页中的部分内容。 |
|
返回顶楼 | |
发表时间:2009-12-26
同楼上,比如说我只想抓取40个网站的内容,这些URL是如何配置到NUTCH中去的呢?
|
|
返回顶楼 | |
发表时间:2009-12-26
这个问题我已经弄明白了,同样的不管有多少的url,都写在url.txt中就行,nutch 在启动的时候自然的就会找到url.txt中这些url了。
|
|
返回顶楼 | |
发表时间:2009-12-27
p_x1984 写道 这个问题我已经弄明白了,同样的不管有多少的url,都写在url.txt中就行,nutch 在启动的时候自然的就会找到url.txt中这些url了。 还有个问题,如果要抓取多个URL的话,NUTCH的工作线程是怎么安排的呢? |
|
返回顶楼 | |
发表时间:2009-12-27
你看nutch的源码了?在fetch.java类中有说明,具体的我还得看下源码。
|
|
返回顶楼 | |
发表时间:2009-12-29
最后修改:2009-12-29
另外,你们用的是什么版本的呢? 听说好像最新的版本不如老版本的好呢?
|
|
返回顶楼 | |
发表时间:2009-12-29
现在比较稳定还是nutch-1.0吧!
|
|
返回顶楼 | |