- 浏览: 22501 次
- 性别:
- 来自: 杭州
-
最新评论
-
bevis.cn:
我也找了蛮久了,才找到
GAE原来有Eclipse 3.5的插件
文章列表
一直在看Google官方GAE的教程,也就傻傻地认为Google只提供Eclipse 3.3 (Europa) 和 Eclipse 3.4 (Ganymede)的开发插件 。
偶然间发现Google Code上update site
Google Code 写道
Eclipse 3.6 (Helios) http://dl.google.com/eclipse/plugin/3.6 Eclipse 3.5 (Galileo) http://dl.google.com/eclipse/plugin/3.5 Eclipse 3.4 (Ganymede) http://dl.google. ...
Robots.txt是一种用于限制网络爬虫的文件,如果在构建网站时,在站点内放置一个Robots.txt文件,在其中可以声明不希望搜索引擎访问的部分。然而,这也是Heritrix爬虫在抓取网页时花费过多的时间去判断该Robots.txt文件是否存在。。。好在这个协议本身是一种附加协议,完全可以不遵守。
在Heritrix的org.archive.crawler.prefetch.PreconditionEnforcer类中定义了获取Robots.txt的方法,我的选择是无论Robots.txt是否存在,都返回不存在,修改方法如下
private boole ...