关于使用网络爬虫爬数据的问题？请各位老师进

0 0

关于使用网络爬虫爬数据的问题？请各位老师进5

我要做一个通用搜索引擎，但是这个通用搜索引擎是只关心宁波地区的所有信息的。我先在有一个网站：http://www.sosoj.net/so/index.html里面列出了很多关于宁波的网站，我打算用heritrix爬虫去爬这个网站，但是我有一个问题，就是如何定制爬虫，使他不要爬到宁波信息以外的链接，因为一不小心爬到其他的链接，就很有可能停不下来了，本人还是个新手，希望有经验的老师能给学生多提点意见和思路，学生不胜感激！

问题补充：

AngelAndAngel 写道

这个很简单思路是这样的：
你在每次爬取的时候不是会得到地址或者域名吗，把这个域名获得后，用HttpClient连接到http://www.ip138.com/这样的类似网站的表单，会返回给你一个ip，然后把这个ip跟你宁波的Ip比对，在宁波ip以外的直接就不考虑。别忘记采纳哦也可以站内聊，我目前也做了个类似功能的。

非常感谢您给的这样新颖的建议，我会去尝试的！！！实际上在看到你的回帖前我就用了一个更笨的方法，我找了一个宁波网址导航（http://www.jzptt.com/NingBo_City/NingBo_Jiaoyou.htm），里面有很多关于宁波各方面的网址，我可以认为这些网址里面的全部信息加起来就囊括了宁波的所有信息。于是我把各个分类里面的各项Url全部搜集起来打算放到heritrix的seeds里面，也就是作为heritrix的种子url（不过这种子url确实有点多），这样heritrix爬取数据的来源可以说解决了，当然我相信，您给的方法一定能更好，更彻底的爬到宁波的所有信息。但是AngelAndAngel如果仔细看我的问题会发现，我问题的侧重点不在“应该从什么地方爬去数据？”，而是在如何以尽量全面的得到宁波的信息，并且方便制作索引为目的，来”定制“heritrix，使得存在本地的镜像文件不至于很复杂，所以最后我想问的是，针对”定制“这个问题，能否提供一个思路？

问题补充：

AngelAndAngel 写道

你说话客气了。你刚才说的我真的没太大思路，感觉太困难。我只是感觉有个死办法，一般ip都是有格式的比如 156.134.120.105这样的，而比如说我们湖北的网段是一定的是218.199.128.1 - 218.199.143.255 ，然后你每个.之间的数字取随机数，只要在你网段内的，都去模拟访问。

等我解决了这个问题，在找你，嘎嘎！

搜索引擎