天地一MADAO

浏览: 1532 次

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2014-03 ( 1)
更多存档...

MSpider爬虫搜索

博客分类：

基于词频密度过滤、利用百度、谷歌、搜搜、360搜索4个引擎为种子来源的多线程爬虫，结果存入mysql。用到了jsoup和webclient。

算法搜索引擎数据结构多线程 java

这是我自己做的一个爬虫，是基于词频密度过滤、利用百度、谷歌、搜搜、360搜索4个引擎为种子来源的多线程爬虫，结果存入mysql。用到了jsoup和webclient。 github:https://github.com/wo4li2wang/MSpider 写这个纯是个人兴趣做的，因为我参加过数学建模，我一直想把数学模型用到程序里，所以尝试着写了这个东东，但好多功能没办法实现。希望大家能提供一些指导或改进的想法。 - 原理**** 1. 过滤算法　　过滤关联度不大的网址，避免爬虫盲目搜索。目前只用到词频密度对网址和域名进行打分，在任务堆积较多(超过总队列长度90%)时，过滤

2014-03-26 11:26
浏览 1532
评论(1)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

MSpider爬虫搜索

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

MSpider爬虫搜索

最近访客更多访客>>