- 浏览: 854756 次
- 性别:
- 来自: 上海
最新评论
-
greemranqq:
at com.sun.tools.javac.api.Java ...
Eclipse中运行Sqoop诡异问题解决 -
louningfeng:
大神,请教一个问题,Hertrix 和 Nutch 有没有提供 ...
Heritrix3.1.1 新特性,新功能 -
tianyuxxx:
endy219 写道起步学习,资料的确比较少,谢谢分享!
准备跟大家分享下我Heritrix(机器爬虫)的经验 -
keylab:
我勒个去,加个群还需要支付费用才能加,这个境界简直无敌!!!
Hive源码分析(二) Eclipse调试Hive源码报does not have a scheme错误解决 -
不要叫我杨过:
期待后续佳作。。。
Heritrix3.0教程(六) 载入种子的四种方式
文章列表
本博客属原创文章,欢迎转载!但转载请务必注明出处:http://guoyunsky.iteye.com/blog/613249欢迎加入Heritrix群(QQ):109148319 之前说过要分享下我的爬虫经验,但一直找不到突破口,现在才感觉写点东西真的很难,所以大家真的要感谢那些无私的前辈们,在网上留下的一篇篇可以指点迷津的文章。想了很久,还是先从Heritrix的包开始说起,然后再说类,最后讲下如何加工Heritrix,也就是将其打造成自己想要的爬虫,这里补充下,我用的版本是1.14.3. 同时欢迎加入我建的Heritrix爬虫群一起讨论学习: 10447185
...
Heritrix是我真正意义上读的第一套开源框架源代码,直到今天才对其庐山真面目有点眉目,以前通过百度和GOOGLE等搜索引擎、csdn、javaeye去获取关于它的学习资料,但大部分是入门级的,只能教你怎么使用它,有一点的源码剖析也只是出于结构上大致的给你讲解下。不过这些对我们入门还是有用的,最起码你可以让其运行,然后花时间花精力去学习它。 不过由于我做的是垂直搜索引擎,由于Heritrix在抓取上通常是一次性将全站抓取,还没发做到垂直搜索引擎对爬虫的要求(像酷讯那样跟踪监视它需要抓取的网站,该网站一有新的内容就抓取过来),所以目前我正在将其进行改造,也通过xml配置种子URL ...
开始在javaeye上写博客了
- 博客分类:
- 程序人生
以前一直通过别人的博客、帖子来学习一些东西,从今天开始自己也要开始写些东西,一来记录下生活的点滴,二来希望也能给一些人一些帮助。
更多文章、感悟、分享、勾搭,请用微信扫描: