`
yiihsia
  • 浏览: 68238 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

介绍一本搜索引擎爬虫方面的好书

阅读更多

这学期去图书馆借书,无意间看到一本书《网络机器人Java编程指南》。看了下感觉如获至宝。
市面上讲爬虫的书可以说是没有,基本上只有在搜索引擎类的书里有提到,而且只是讲个思想,没有可以用的代码。
而《网络机器人Java编程指南》是彻头彻尾讲解web爬虫的书籍,2002年出版的,目前已绝版。此书可说是非常珍贵
这是china-pub的链接http://www.china-pub.com/6565




进了作者Jeff Heaton的博客http://www.jeffheaton.com/,下到了源代码,作者一直在更新,所以源代码可以在JDK6.0上正常运行。速度很快。
相比如其他几款开源爬虫,本书的bot程序无疑更加简单,灵活,快速。


heritrix太复杂,设计的比较乱。当时自己配置了很久。
nutch自己的定制性不够好,url以二进制形式保存,管理起来很不方便。


书中的bot通过实现IWorkloadStorable接口的类来管理url链接,书中也给出了两个实例SpiderSQLWorkload和SpiderInternalWorkload,一个在数据库中管理url,另一个在内存中管理url。
另外书中的爬虫设计上也更好,自己画了张类图




很佩服作者,那时还没有HTML Parsers,所以作者自己写了个实现。如果现在自己用的话,可以做个小小的修改,用更好的开源html解析工具。。
另外书中也提到了基于表单、https、Cookies的爬虫,大开眼界。以前自己也写过很多爬虫,但在设计中总是缺少扩展性。
书中的bot程序也可以放在Hadoop运行,变成更加强大的分布式爬虫。比如:基于ProActive的分布式并行Web Spider的设计与实现
看这本书的时候也发现自己学的网络知识终于派上了用场,多线程也显得很重要,需要有更多的考虑,而不是一味的run。
本书更像是通过编写网络爬虫来提高自己的编程技术和相关知识,不管是不是搜索方面的开发者,都值得一读。

 

我的CSDN原帖地址:介绍一本搜索引擎爬虫方面的好书

  • 大小: 29.6 KB
  • 大小: 129.2 KB
分享到:
评论
4 楼 yiihsia 2010-12-03  
SeanHe 写道
哈哈,这本书当年我在学校的时候也看过,当时书里的基础支持对我帮助还是挺大,基于此我还写了一个爬虫,不过现在看来只是个玩具而已。

里面有很多基础知识,读大学的时候看看不错,知道学哪些课程有什么用
3 楼 SeanHe 2010-12-01  
哈哈,这本书当年我在学校的时候也看过,当时书里的基础支持对我帮助还是挺大,基于此我还写了一个爬虫,不过现在看来只是个玩具而已。
2 楼 yiihsia 2010-11-25  
xl515331 写道
原书的名称 是什么 ?
搜搜有没有电子书 学习下


谢谢 了 先

原版不记得了,你可以关注下作者的博客http://www.jeffheaton.com/
1 楼 xl515331 2010-11-25  
原书的名称 是什么 ?
搜搜有没有电子书 学习下


谢谢 了 先

相关推荐

    论文研究-基于图书搜索引擎爬虫系统的关键技术研究和实现 .pdf

    本文的研究重点是基于图书领域的垂直搜索引擎爬虫系统,整合了学校图书馆的图书搜索服务,提出了一个集中的图书搜索入口。网络爬虫作为搜索引擎的基础,对于搜集互联网上的图书信息至关重要。本文深入探讨了设计和...

    一本讲搜索引擎原理的书

    ### 搜索引擎原理、技术...综上所述,《搜索引擎:原理、技术与系统》是一本全面介绍搜索引擎相关知识的优秀书籍,无论是在理论层面还是实践层面上都极具价值。无论是对于学生还是专业人员来说,阅读本书都将大有裨益。

    爬虫搜索引擎实例有兴趣的朋友可以研究一哈

    我这里所说的爬虫就是传统的搜索引擎,因为我们一度把YAHOO一类的目录也称作搜索引擎,所以这个概念已经有些混乱了。 搜索引擎:也叫 "蜘蛛"或 "网络爬虫",为了能产生web页的目录册,搜索引擎持续不停的访问...

    走进搜索引擎.pdf

    《走进搜索引擎》是一本搜索引擎原理与技术的入门书籍,面向那些有志从事搜索引擎行业的青年学生、需要完整理解并优化搜索引擎的专业技术人员、搜索引擎的营销人员,以及网站的负责人等,是从事搜索引擎开发的工程...

    分享一本搜索引擎的电子书

    《搜索引擎原理技术与系统》是一本深入探讨搜索引擎技术的专业书籍,涵盖了从基础概念到高级算法的广泛内容。这本书对于理解互联网信息检索的核心机制至关重要,无论是对计算机科学的学生、研究人员还是IT行业的专业...

    搜索引擎书籍

    《搜索引擎书籍》是一本深入探讨搜索引擎技术的专业读物,尤其关注了开源全文搜索引擎库Lucene。这本书籍旨在帮助读者理解搜索引擎的基本原理,并提供实践Lucene进行搜索应用开发的方法和技巧。 搜索引擎是互联网...

    搜索引擎相关图书

    首先,《自己动手写爬虫》是一本非常适合初学者的书籍,它引导读者从零开始构建一个简单的网络爬虫。通过阅读这本书,你可以了解到网络爬虫的基本概念,如HTTP协议、网页抓取、数据解析和存储等。爬虫是搜索引擎的...

    搜索引擎的实现原理-一本结合实例讲解SE的书

    通过以上几个方面的详细介绍,《搜索引擎:原理、技术与系统》不仅为读者提供了全面的搜索引擎基础知识,还涵盖了构建和优化大规模搜索引擎所需的先进技术。无论是计算机科学领域的学生还是从事网络技术研发的专业...

    搜索引擎原理、实践与应用

    《搜索引擎原理、实践与应用》是一本深入探讨搜索引擎技术的权威资料,涵盖了从基础理论到实际操作的全方位知识。在互联网信息爆炸的时代,搜索引擎作为获取信息的重要工具,其工作原理和优化策略对于开发者、研究...

    搜索引擎优化高级编程PHP版

    8. **日志分析与监控**:学习如何使用PHP解析搜索引擎爬虫的日志,以追踪优化效果并持续改进。 9. **SEO工具与库**:介绍一些PHP相关的SEO工具和库,帮助开发者更高效地实施优化工作。 10. **实战案例**:通过实际...

    搜索引擎-信息检索实践

    《搜索引擎-信息检索实践》是一本深入探讨搜索引擎技术与信息检索理论的专业书籍,由W. Bruce Croft等作者撰写。这本书对于理解搜索引擎的工作原理、优化信息检索系统以及提高搜索引擎性能具有重要的参考价值。标签...

    搜索引擎优化魔法书下载

    《搜索引擎优化魔法书》是一本深入探讨如何提升网站在搜索引擎排名的专业书籍。它涵盖了SEO(Search Engine Optimization)的各个方面,旨在帮助网站所有者、在线营销人员以及对SEO感兴趣的人士理解并实施有效的优化...

    高清彩版 自己动手写搜索引擎

    - **2.2.3 Lucene全文检索引擎**:Lucene是一个高性能、全功能的文本搜索引擎库,本节详细介绍其特性和用法。 - **2.2.4 Nutch网络搜索软件**:Nutch是一款开源的网络爬虫项目,用于抓取网页并构建索引,本节介绍...

    这就是搜索引擎-核心技术详解.pdf

    总的来说,《这就是搜索引擎-核心技术详解》是一本全面介绍搜索引擎工作原理和技术实现的电子书籍,它不仅对搜索引擎的关键技术进行了深入的剖析,还可能涉及到了与搜索引擎相关的网络资源分享和网络安全等方面的...

    开发自己的搜索引擎《lucene2.0+heritrix》一书对应的源码资料

    这里我们关注的是基于开源项目Lucene 2.0和Heritrix的一本书——《开发自己的搜索引擎》的源码资料。Lucene是一个高性能、全文本搜索库,而Heritrix则是一个强大的网页抓取工具,它们共同构成了搜索引擎的基础架构。...

    搜索引擎优化宝典__第2版

    《搜索引擎优化宝典__第2版》是一本深入探讨如何提升网站在搜索引擎排名中的关键书籍。这本宝典详尽地介绍了如何通过一系列技术、策略和最佳实践来优化网站,以便在Google、Bing等主要搜索引擎中获得更高的可见度。...

Global site tag (gtag.js) - Google Analytics