nutch的基本工作流程理解

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 12636 次

锁定老帖子主题：nutch的基本工作流程理解精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
comsci 等级: 性别: 文章: 989 积分: 2110 来自: 成都	发表时间：2009-11-27 diddyrock 写道复杂太多了，有个别人的代码很漂亮但是看起来很费神。现在联抓取都支持单站点恒定连接数了，实在是太复杂了，好在plugin写起来不是很困难，但是想要高效还是有点复杂。nutch对于硬件没有太多要求，一台个人pc就可以了，硬盘最好企业级。关键是网络的稳定，而且nutch有内存泄漏的bug，建议你等下一个稳定版本，或者直接trunk。如果我们想抓取的网站仅仅限于有限多个网站的内容，而不像GOOGLE那样是全网抓取，那么有可能对存储的要求比较低，事实上我们也仅仅只需要这样的搜索引擎
返回顶楼	回帖地址 0 0 请登录后投票

p_x1984 等级: 性别: 文章: 207 积分: 850 来自: 北京	发表时间：2009-11-27 在nutch中如何配置多个url，知道的麻烦说下。抓取什么内容，主要看业务的方向。大部分的貌似都是网页中的部分内容。
返回顶楼	回帖地址 0 0 请登录后投票

comsci 等级: 性别: 文章: 989 积分: 2110 来自: 成都	发表时间：2009-12-26 同楼上，比如说我只想抓取40个网站的内容，这些URL是如何配置到NUTCH中去的呢？
返回顶楼	回帖地址 0 0 请登录后投票

p_x1984 等级: 性别: 文章: 207 积分: 850 来自: 北京	发表时间：2009-12-26 这个问题我已经弄明白了，同样的不管有多少的url，都写在url.txt中就行，nutch 在启动的时候自然的就会找到url.txt中这些url了。
返回顶楼	回帖地址 0 0 请登录后投票

comsci 等级: 性别: 文章: 989 积分: 2110 来自: 成都	发表时间：2009-12-27 p_x1984 写道这个问题我已经弄明白了，同样的不管有多少的url，都写在url.txt中就行，nutch 在启动的时候自然的就会找到url.txt中这些url了。还有个问题，如果要抓取多个URL的话，NUTCH的工作线程是怎么安排的呢？
返回顶楼	回帖地址 0 0 请登录后投票

p_x1984 等级: 性别: 文章: 207 积分: 850 来自: 北京	发表时间：2009-12-27 你看nutch的源码了？在fetch.java类中有说明，具体的我还得看下源码。
返回顶楼	回帖地址 0 0 请登录后投票

comsci 等级: 性别: 文章: 989 积分: 2110 来自: 成都	发表时间：2009-12-29 最后修改：2009-12-29 另外，你们用的是什么版本的呢？听说好像最新的版本不如老版本的好呢？
返回顶楼	回帖地址 0 0 请登录后投票

p_x1984 等级: 性别: 文章: 207 积分: 850 来自: 北京	发表时间：2009-12-29 现在比较稳定还是nutch-1.0吧！
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: