浏览 2424 次
锁定老帖子 主题:中国宁波网爬虫抓取效果
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2009-08-03
在宁波,中国宁波网是宁波日报旗下的网站,我经常去上面看新闻,但久而久之,我发觉竟然没有整站搜索的功能,今天我用nutch试了一下,发现效果还可以,注意搜索时候的技巧: 技巧 写道
数据的关键词系统会自动分词,如果不是你想要的搜索结果,请使用""将其引起来
搜索结果只包括含有 所有查询词的网页. 使用双引号将相邻的词作为短语包含起来, 例如, "New Zealand". 英文单词之间的符号会触发短语匹配. 因此搜索http://www.apache.org/ 等同于搜索"http www apache org". 搜索英文单词不区分大小写 你可以在一个词前面加减号丛而禁止它出现在搜索结果中, 例如, 搜索football -nfl 会找到讨论football, 但不出现"nfl"的网页. 可使用+符号,将多个搜索词AND进来,如宁波+北仑将搜索所有既包含宁波又包含北仑的结果
声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |