锁定老帖子 主题:nutch的基本工作流程理解
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
||||
---|---|---|---|---|
作者 | 正文 | |||
发表时间:2009-11-21
(一):Nutch的工作流程:
声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
||||
返回顶楼 | ||||
发表时间:2009-11-21
想咨询下楼主,如果我用n台机器搭建一个NUTCH服务器整列,那么NUTCH是否支持这种集群工作方式呢》
|
||||
返回顶楼 | ||||
发表时间:2009-11-23
nutch基于hadoop,支持分布式的
|
||||
返回顶楼 | ||||
发表时间:2009-11-24
chenlinping 写道 nutch基于hadoop,支持分布式的 谢谢。。。我还想了解下NUTCH具体的分布式应用方式 |
||||
返回顶楼 | ||||
发表时间:2009-11-24
nutch越搞越复杂了
|
||||
返回顶楼 | ||||
发表时间:2009-11-24
nutch不算复杂的。comsci nutch在hadoop上运行,只要hadoop分布式部署了,nutch就可以分布式爬取
|
||||
返回顶楼 | ||||
发表时间:2009-11-24
有点膨胀。
|
||||
返回顶楼 | ||||
发表时间:2009-11-25
javaeyes 写道 nutch不算复杂的。comsci nutch在hadoop上运行,只要hadoop分布式部署了,nutch就可以分布式爬取
单机运行NUTCH和多机并行运行NUTCH,在搜索效率和存储空间上面有什么比较显著的区别吗? |
||||
返回顶楼 | ||||
发表时间:2009-11-26
另外有个问题想了解下,如果一个小企业或者个人实验室(person lab)要搭建一个基于NUTCH的搜索引擎整列出来,对系统硬件要求是怎么样的?
|
||||
返回顶楼 | ||||
发表时间:2009-11-26
复杂太多了,有个别人的代码很漂亮但是看起来很费神。现在联抓取都支持单站点恒定连接数了,实在是太复杂了,好在plugin写起来不是很困难,但是想要高效还是有点复杂。nutch对于硬件没有太多要求,一台个人pc就可以了,硬盘最好企业级。关键是网络的稳定,而且nutch有内存泄漏的bug,建议你等下一个稳定版本,或者直接trunk。
|
||||
返回顶楼 | ||||