`
yiihsia
  • 浏览: 67922 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

介绍一本搜索引擎爬虫方面的好书

阅读更多

这学期去图书馆借书,无意间看到一本书《网络机器人Java编程指南》。看了下感觉如获至宝。
市面上讲爬虫的书可以说是没有,基本上只有在搜索引擎类的书里有提到,而且只是讲个思想,没有可以用的代码。
而《网络机器人Java编程指南》是彻头彻尾讲解web爬虫的书籍,2002年出版的,目前已绝版。此书可说是非常珍贵
这是china-pub的链接http://www.china-pub.com/6565




进了作者Jeff Heaton的博客http://www.jeffheaton.com/,下到了源代码,作者一直在更新,所以源代码可以在JDK6.0上正常运行。速度很快。
相比如其他几款开源爬虫,本书的bot程序无疑更加简单,灵活,快速。


heritrix太复杂,设计的比较乱。当时自己配置了很久。
nutch自己的定制性不够好,url以二进制形式保存,管理起来很不方便。


书中的bot通过实现IWorkloadStorable接口的类来管理url链接,书中也给出了两个实例SpiderSQLWorkload和SpiderInternalWorkload,一个在数据库中管理url,另一个在内存中管理url。
另外书中的爬虫设计上也更好,自己画了张类图




很佩服作者,那时还没有HTML Parsers,所以作者自己写了个实现。如果现在自己用的话,可以做个小小的修改,用更好的开源html解析工具。。
另外书中也提到了基于表单、https、Cookies的爬虫,大开眼界。以前自己也写过很多爬虫,但在设计中总是缺少扩展性。
书中的bot程序也可以放在Hadoop运行,变成更加强大的分布式爬虫。比如:基于ProActive的分布式并行Web Spider的设计与实现
看这本书的时候也发现自己学的网络知识终于派上了用场,多线程也显得很重要,需要有更多的考虑,而不是一味的run。
本书更像是通过编写网络爬虫来提高自己的编程技术和相关知识,不管是不是搜索方面的开发者,都值得一读。

 

我的CSDN原帖地址:介绍一本搜索引擎爬虫方面的好书

  • 大小: 29.6 KB
  • 大小: 129.2 KB
分享到:
评论
4 楼 yiihsia 2010-12-03  
SeanHe 写道
哈哈,这本书当年我在学校的时候也看过,当时书里的基础支持对我帮助还是挺大,基于此我还写了一个爬虫,不过现在看来只是个玩具而已。

里面有很多基础知识,读大学的时候看看不错,知道学哪些课程有什么用
3 楼 SeanHe 2010-12-01  
哈哈,这本书当年我在学校的时候也看过,当时书里的基础支持对我帮助还是挺大,基于此我还写了一个爬虫,不过现在看来只是个玩具而已。
2 楼 yiihsia 2010-11-25  
xl515331 写道
原书的名称 是什么 ?
搜搜有没有电子书 学习下


谢谢 了 先

原版不记得了,你可以关注下作者的博客http://www.jeffheaton.com/
1 楼 xl515331 2010-11-25  
原书的名称 是什么 ?
搜搜有没有电子书 学习下


谢谢 了 先

相关推荐

    论文研究-基于图书搜索引擎爬虫系统的关键技术研究和实现 .pdf

    本文的研究重点是基于图书领域的垂直搜索引擎爬虫系统,整合了学校图书馆的图书搜索服务,提出了一个集中的图书搜索入口。网络爬虫作为搜索引擎的基础,对于搜集互联网上的图书信息至关重要。本文深入探讨了设计和...

    一本讲搜索引擎原理的书

    ### 搜索引擎原理、技术...综上所述,《搜索引擎:原理、技术与系统》是一本全面介绍搜索引擎相关知识的优秀书籍,无论是在理论层面还是实践层面上都极具价值。无论是对于学生还是专业人员来说,阅读本书都将大有裨益。

    爬虫搜索引擎实例有兴趣的朋友可以研究一哈

    我这里所说的爬虫就是传统的搜索引擎,因为我们一度把YAHOO一类的目录也称作搜索引擎,所以这个概念已经有些混乱了。 搜索引擎:也叫 "蜘蛛"或 "网络爬虫",为了能产生web页的目录册,搜索引擎持续不停的访问...

    走进搜索引擎.pdf

    《走进搜索引擎》是一本搜索引擎原理与技术的入门书籍,面向那些有志从事搜索引擎行业的青年学生、需要完整理解并优化搜索引擎的专业技术人员、搜索引擎的营销人员,以及网站的负责人等,是从事搜索引擎开发的工程...

    分享一本搜索引擎的电子书

    《搜索引擎原理技术与系统》是一本深入探讨搜索引擎技术的专业书籍,涵盖了从基础概念到高级算法的广泛内容。这本书对于理解互联网信息检索的核心机制至关重要,无论是对计算机科学的学生、研究人员还是IT行业的专业...

    搜索引擎书籍

    《搜索引擎书籍》是一本深入探讨搜索引擎技术的专业读物,尤其关注了开源全文搜索引擎库Lucene。这本书籍旨在帮助读者理解搜索引擎的基本原理,并提供实践Lucene进行搜索应用开发的方法和技巧。 搜索引擎是互联网...

    搜索引擎相关图书

    首先,《自己动手写爬虫》是一本非常适合初学者的书籍,它引导读者从零开始构建一个简单的网络爬虫。通过阅读这本书,你可以了解到网络爬虫的基本概念,如HTTP协议、网页抓取、数据解析和存储等。爬虫是搜索引擎的...

    搜索引擎的实现原理-一本结合实例讲解SE的书

    通过以上几个方面的详细介绍,《搜索引擎:原理、技术与系统》不仅为读者提供了全面的搜索引擎基础知识,还涵盖了构建和优化大规模搜索引擎所需的先进技术。无论是计算机科学领域的学生还是从事网络技术研发的专业...

    搜索引擎原理、实践与应用

    《搜索引擎原理、实践与应用》是一本深入探讨搜索引擎技术的权威资料,涵盖了从基础理论到实际操作的全方位知识。在互联网信息爆炸的时代,搜索引擎作为获取信息的重要工具,其工作原理和优化策略对于开发者、研究...

    搜索引擎优化高级编程PHP版

    8. **日志分析与监控**:学习如何使用PHP解析搜索引擎爬虫的日志,以追踪优化效果并持续改进。 9. **SEO工具与库**:介绍一些PHP相关的SEO工具和库,帮助开发者更高效地实施优化工作。 10. **实战案例**:通过实际...

    搜索引擎-信息检索实践

    《搜索引擎-信息检索实践》是一本深入探讨搜索引擎技术与信息检索理论的专业书籍,由W. Bruce Croft等作者撰写。这本书对于理解搜索引擎的工作原理、优化信息检索系统以及提高搜索引擎性能具有重要的参考价值。标签...

    搜索引擎优化魔法书下载

    《搜索引擎优化魔法书》是一本深入探讨如何提升网站在搜索引擎排名的专业书籍。它涵盖了SEO(Search Engine Optimization)的各个方面,旨在帮助网站所有者、在线营销人员以及对SEO感兴趣的人士理解并实施有效的优化...

Global site tag (gtag.js) - Google Analytics