这学期去图书馆借书,无意间看到一本书《网络机器人Java编程指南》。看了下感觉如获至宝。
市面上讲爬虫的书可以说是没有,基本上只有在搜索引擎类的书里有提到,而且只是讲个思想,没有可以用的代码。
而《网络机器人Java编程指南》是彻头彻尾讲解web爬虫的书籍,2002年出版的,目前已绝版。此书可说是非常珍贵
这是china-pub的链接http://www.china-pub.com/6565
进了作者Jeff Heaton的博客http://www.jeffheaton.com/,下到了源代码,作者一直在更新,所以源代码可以在JDK6.0上正常运行。速度很快。
相比如其他几款开源爬虫,本书的bot程序无疑更加简单,灵活,快速。
heritrix太复杂,设计的比较乱。当时自己配置了很久。
nutch自己的定制性不够好,url以二进制形式保存,管理起来很不方便。
书中的bot通过实现IWorkloadStorable接口的类来管理url链接,书中也给出了两个实例SpiderSQLWorkload和SpiderInternalWorkload,一个在数据库中管理url,另一个在内存中管理url。
另外书中的爬虫设计上也更好,自己画了张类图
很佩服作者,那时还没有HTML Parsers,所以作者自己写了个实现。如果现在自己用的话,可以做个小小的修改,用更好的开源html解析工具。。
另外书中也提到了基于表单、https、Cookies的爬虫,大开眼界。以前自己也写过很多爬虫,但在设计中总是缺少扩展性。
书中的bot程序也可以放在Hadoop运行,变成更加强大的分布式爬虫。比如:基于ProActive的分布式并行Web Spider的设计与实现
看这本书的时候也发现自己学的网络知识终于派上了用场,多线程也显得很重要,需要有更多的考虑,而不是一味的run。
本书更像是通过编写网络爬虫来提高自己的编程技术和相关知识,不管是不是搜索方面的开发者,都值得一读。
我的CSDN原帖地址:介绍一本搜索引擎爬虫方面的好书
- 大小: 29.6 KB
- 大小: 129.2 KB
分享到:
相关推荐
本文的研究重点是基于图书领域的垂直搜索引擎爬虫系统,整合了学校图书馆的图书搜索服务,提出了一个集中的图书搜索入口。网络爬虫作为搜索引擎的基础,对于搜集互联网上的图书信息至关重要。本文深入探讨了设计和...
### 搜索引擎原理、技术...综上所述,《搜索引擎:原理、技术与系统》是一本全面介绍搜索引擎相关知识的优秀书籍,无论是在理论层面还是实践层面上都极具价值。无论是对于学生还是专业人员来说,阅读本书都将大有裨益。
我这里所说的爬虫就是传统的搜索引擎,因为我们一度把YAHOO一类的目录也称作搜索引擎,所以这个概念已经有些混乱了。 搜索引擎:也叫 "蜘蛛"或 "网络爬虫",为了能产生web页的目录册,搜索引擎持续不停的访问...
《走进搜索引擎》是一本搜索引擎原理与技术的入门书籍,面向那些有志从事搜索引擎行业的青年学生、需要完整理解并优化搜索引擎的专业技术人员、搜索引擎的营销人员,以及网站的负责人等,是从事搜索引擎开发的工程...
《搜索引擎原理技术与系统》是一本深入探讨搜索引擎技术的专业书籍,涵盖了从基础概念到高级算法的广泛内容。这本书对于理解互联网信息检索的核心机制至关重要,无论是对计算机科学的学生、研究人员还是IT行业的专业...
《搜索引擎书籍》是一本深入探讨搜索引擎技术的专业读物,尤其关注了开源全文搜索引擎库Lucene。这本书籍旨在帮助读者理解搜索引擎的基本原理,并提供实践Lucene进行搜索应用开发的方法和技巧。 搜索引擎是互联网...
首先,《自己动手写爬虫》是一本非常适合初学者的书籍,它引导读者从零开始构建一个简单的网络爬虫。通过阅读这本书,你可以了解到网络爬虫的基本概念,如HTTP协议、网页抓取、数据解析和存储等。爬虫是搜索引擎的...
通过以上几个方面的详细介绍,《搜索引擎:原理、技术与系统》不仅为读者提供了全面的搜索引擎基础知识,还涵盖了构建和优化大规模搜索引擎所需的先进技术。无论是计算机科学领域的学生还是从事网络技术研发的专业...
《搜索引擎原理、实践与应用》是一本深入探讨搜索引擎技术的权威资料,涵盖了从基础理论到实际操作的全方位知识。在互联网信息爆炸的时代,搜索引擎作为获取信息的重要工具,其工作原理和优化策略对于开发者、研究...
8. **日志分析与监控**:学习如何使用PHP解析搜索引擎爬虫的日志,以追踪优化效果并持续改进。 9. **SEO工具与库**:介绍一些PHP相关的SEO工具和库,帮助开发者更高效地实施优化工作。 10. **实战案例**:通过实际...
《搜索引擎-信息检索实践》是一本深入探讨搜索引擎技术与信息检索理论的专业书籍,由W. Bruce Croft等作者撰写。这本书对于理解搜索引擎的工作原理、优化信息检索系统以及提高搜索引擎性能具有重要的参考价值。标签...
《搜索引擎优化魔法书》是一本深入探讨如何提升网站在搜索引擎排名的专业书籍。它涵盖了SEO(Search Engine Optimization)的各个方面,旨在帮助网站所有者、在线营销人员以及对SEO感兴趣的人士理解并实施有效的优化...
- **2.2.3 Lucene全文检索引擎**:Lucene是一个高性能、全功能的文本搜索引擎库,本节详细介绍其特性和用法。 - **2.2.4 Nutch网络搜索软件**:Nutch是一款开源的网络爬虫项目,用于抓取网页并构建索引,本节介绍...
总的来说,《这就是搜索引擎-核心技术详解》是一本全面介绍搜索引擎工作原理和技术实现的电子书籍,它不仅对搜索引擎的关键技术进行了深入的剖析,还可能涉及到了与搜索引擎相关的网络资源分享和网络安全等方面的...
这里我们关注的是基于开源项目Lucene 2.0和Heritrix的一本书——《开发自己的搜索引擎》的源码资料。Lucene是一个高性能、全文本搜索库,而Heritrix则是一个强大的网页抓取工具,它们共同构成了搜索引擎的基础架构。...
《搜索引擎优化宝典__第2版》是一本深入探讨如何提升网站在搜索引擎排名中的关键书籍。这本宝典详尽地介绍了如何通过一系列技术、策略和最佳实践来优化网站,以便在Google、Bing等主要搜索引擎中获得更高的可见度。...