论坛首页 综合技术论坛

中国宁波网爬虫抓取效果

浏览 2424 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-08-03  

在宁波,中国宁波网是宁波日报旗下的网站,我经常去上面看新闻,但久而久之,我发觉竟然没有整站搜索的功能,今天我用nutch试了一下,发现效果还可以,注意搜索时候的技巧:

技巧 写道
数据的关键词系统会自动分词,如果不是你想要的搜索结果,请使用""将其引起来
搜索结果只包括含有 所有查询词的网页.
使用双引号将相邻的词作为短语包含起来, 例如, "New Zealand".
英文单词之间的符号会触发短语匹配. 因此搜索http://www.apache.org/ 等同于搜索"http www apache org".
搜索英文单词不区分大小写
你可以在一个词前面加减号丛而禁止它出现在搜索结果中, 例如, 搜索football -nfl 会找到讨论football, 但不出现"nfl"的网页.
可使用+符号,将多个搜索词AND进来,如宁波+北仑将搜索所有既包含宁波又包含北仑的结果

 

在线体验:http://cnnb.faqee.com/

 

论坛首页 综合技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics