文章列表
这是我自己做的一个爬虫,是基于词频密度过滤、利用百度、谷歌、搜搜、360搜索4个引擎为种子来源的多线程爬虫,结果存入mysql。用到了jsoup和webclient。
github:https://github.com/wo4li2wang/MSpider
写这个纯是个人兴趣做的,因为我参加过数学建模,我一直想把数学模型用到程序里,所以尝试着写了这个东东,但好多功能没办法实现。希望大家能提供一些指导或改进的想法。
- 原理****
1. 过滤算法
过滤关联度不大的网址,避免爬虫盲目搜索。目前只用到词频密度对网址和域名进行打分,在任务堆积较多(超过总队列长度90%)时,过滤