`
923080512
  • 浏览: 190839 次
  • 性别: Icon_minigender_1
  • 来自: 商丘
社区版块
存档分类
最新评论

java爬虫技术

    博客分类:
  • java
阅读更多

htmlparse

jsoup

http://playfish.iteye.com/blog/150126

Heritrix

Nutch


java 抓取网页内容


爬虫

java 爬虫比较

Nutch

开发语言:Java

http://lucene.apache.org/nutch/

简介:

Apache的子项目之一,属于Lucene项目下的子项目。

Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。

Larbin

开发语言: C++

http://larbin.sourceforge.net/index-eng.html

简介

  larbin是一种开源的网络爬虫 /网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。

  Larbin只是一个爬虫 ,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。

  latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看到,一个简单的larbin的爬虫 可以每天获取500万的网页,非常高效。

Heritrix

开发语言:Java

http://crawler.archive.org/

简介

与Nutch比较

和 Nutch。二者均为Java开源框架,Heritrix  是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫 /蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地,使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成本地文件及相应的日志信息等。

Heritrix  是个 “archival crawler” — 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫 通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。

二者的差异:

Nutch 只获取并保存可索引的内容。Heritrix 则是照单全收。力求保存页面原貌

Nutch 可以修剪内容,或者对内容格式进行转换。

Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix  是添加(追加)新的内容。

Nutch 从命令行运行、控制。Heritrix  有 Web 控制管理界面。

Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix  可控制的参数更多。

Heritrix 提供的功能没有nutch多,有点整站下载的味道。既没有索引又没有解析,甚至对于重复爬取URL都处理不是很好。

Heritrix 的功能强大 但是配置起来却有点麻烦。

其他网络爬虫 介绍:

 

WebLech 
WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。
http://weblech.sourceforge.net/
Arale 
Arale主要为个人使用而设计,而没有像其它爬虫 一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。
http://web.tiscali.it/_flat/arale.jsp.html

J-Spider 
J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查,分析网站的结构(可创建一个网站地图),下载整个Web站点,你还可以写一个JSpider插件来扩展你所需要的功能。
http://j-spider.sourceforge.net/

spindle 
spindle 是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜 索功能。
http://www.bitmechanic.com/projects/spindle/

Arachnid 
Arachnid: 是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。
http://arachnid.sourceforge.net/

LARM 
LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件,数据库表格建立索引的方法和为Web站点建索引的爬虫
http://larm.sourceforge.net/

JoBo 
JoBo 是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。JoBo还有灵活的 下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。
http://www.matuschek.net/software/jobo/index.html

snoics-reptile 
snoics -reptile是用纯Java开发的,用来进行网站镜像抓取的工具,可以使用配制文件中提供的URL入口,把这个网站所有的能用浏览器通过GET的方式 获取到的资源全部抓取到本地,包括网页和各种类型的文件,如:图片、flash、mp3、zip、rar、exe等文件。可以将整个网站完整地下传至硬盘 内,并能保持原有的网站结构精确不变。只需要把抓取下来的网站放到web服务器(如:Apache)中,就可以实现完整的网站镜像。
http://www.blogjava.net/snoics

Web-Harvest 
Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。
http://web-harvest.sourceforge.net

spiderpy
spiderpy是一个基于Python编码的一个开源web爬虫 工具,允许用户收集文件和搜索网站,并有一个可配置的界面。
http://pyspider.sourceforge.net/

The Spider Web Network Xoops Mod Team 
pider Web Network Xoops Mod是一个Xoops下的模块,完全由PHP语言实现。
http://www.tswn.com/

HiSpider is a fast and high performance spider with high speed

严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载, 支持网站定向下载(需要配置hispiderd.ini whitelist ).

分享到:
评论

相关推荐

    Java爬虫技术,无视频,图文教程

    Java爬虫技术是一种在互联网上自动获取网页信息的程序,它是大数据时代的重要工具之一,尤其在数据分析、信息抓取和搜索引擎优化等领域具有广泛的应用。在这个无视频、图文教程中,我们将深入探讨Java语言如何用于...

    基于Java爬虫技术的豆瓣Top250电影、音乐、图书信息展示设计源码

    该项目为Java爬虫技术驱动的豆瓣Top250电影、音乐、图书信息展示系统源码,整合了66个文件,涵盖18个Java源文件、10个HTML文件、10个映射文件、8个CSS样式文件、6个XML配置文件、5个JavaScript文件、3个JPEG图片文件...

    JAVA 爬虫技术爬取网页内指定链接和图片

    JAVA 爬虫技术爬取网页内指定链接和图片。JAVA 爬虫技术爬取网页内指定链接和图片。JAVA 爬虫技术爬取网页内指定链接和图片。JAVA 爬虫技术爬取网页内指定链接和图片。

    Java爬虫技术分享:CSDN文章批量抓取方法.zip

    Java爬虫技术是一种用于自动化网络数据获取的编程技术,它能帮助我们从互联网上大量、高效地抓取信息。在本案例中,我们讨论的是如何使用Java实现对CSDN(China Software Developer Network)网站上的文章进行批量...

    Java爬虫详细完整源码实例

    Java爬虫技术是一种在互联网上自动获取网页信息的程序,它是大数据分析、搜索引擎优化和内容监控等领域的基础工具。在这个“Java爬虫详细完整源码实例”中,我们可以深入理解如何利用Java语言来构建一个功能完备的...

    Java爬虫代码示例.rar

    Java爬虫技术是一种利用编程语言(在这个例子中是Java)自动抓取互联网上信息的工具。这个"Java爬虫代码示例.rar"压缩包显然包含了用于教学目的的Java爬虫程序,适合初学者学习和理解爬虫的基本原理与实现方法。下面...

    WebCrawler Java爬虫

    【Java爬虫技术详解】 Java爬虫是一种使用Java编程语言实现的网络爬虫,它能够自动地遍历互联网上的网页,抓取所需信息。在Java中实现爬虫,主要涉及网络编程、HTML解析和数据存储等多个领域。下面将详细介绍这些...

    Java爬虫,信息抓取的实现 完整实例源码

    Java爬虫技术是一种用于自动化获取互联网信息的编程技术,它能高效地遍历网页,提取所需数据。在这个“Java爬虫,信息抓取的实现 完整实例源码”中,我们将深入探讨如何使用Java来编写爬虫,尤其是通过jsoup库进行...

    网络爬虫技术获取王者荣耀英雄图片及英雄详情(java爬虫技术).md

    利用java技术实现爬虫技术获取数据进行数据分析及为云计算或大数据,人工智能服务,实现了爬取图片资源关键字爬取,个人信息爬取

    Java爬虫。。。。。

    Java爬虫技术是一种利用编程语言(本例中是Java)编写程序来自动化地抓取互联网上的数据的方法。这种技术在数据分析、市场研究、网站维护等多个领域都有广泛应用。Java作为一门面向对象的语言,提供了丰富的库和工具...

    java爬虫爬取数据

    Java爬虫技术是一种用于自动化获取网络数据的编程方式,它能够高效地遍历网页、解析HTML,从而提取所需的信息。在本案例中,我们将重点讨论如何利用HTML工具、多线程、消息队列以及模拟浏览器来实现数据爬取。 首先...

    JAVA爬虫批量下载网页文件

    该爬虫代码可将一个多页面含有多条文件的下载地址截取到,然后将下载地址放到linux系统里在控制台输入一条命令就可以进行批量下载(还可以直接调用浏览器的接口直接下载,这个可以自行修改),代码有注释具体目的...

    Java毕业设计——基于网络爬虫技术的网络新闻分析(论文+答辩PPT+源代码+数据库).zip

    这个项目包含了从设计思路、技术选型、代码实现到最终答辩的完整流程,对于学习Java和网络爬虫技术的学生来说具有很高的参考价值。 首先,网络爬虫是互联网信息抓取的重要工具,它能自动化地遍历网页,提取所需信息...

    java爬虫漫爬,微博爬虫

    Java爬虫技术是一种使用编程语言(在这个例子中是Java)来自动抓取互联网上信息的技术。在Java中,实现爬虫通常涉及到网络请求、HTML解析、数据提取等多个环节。本教程将深入探讨如何构建一个Java微博爬虫,帮助你...

    Java爬虫Jsoup+httpclient获取动态生成的数据

    在Web开发和数据抓取领域,Java爬虫技术是实现网页自动化信息提取的重要手段。本文主要讲述如何利用Java编程语言中的Jsoup库和HttpClient工具包来获取和解析动态生成的数据,特别是那些通过JavaScript动态加载的数据...

    java爬虫资料 pdf 文档 视频 源码 都有

    Java爬虫技术是一种用于自动化获取互联网数据的程序,它能够模拟人类浏览器的行为,遍历网页,提取所需信息。本资源包包含丰富的学习材料,包括PDF文档、视频教程以及源代码,旨在帮助初学者和进阶者全面掌握Java...

    java爬虫项目实战源码.rar

    Java爬虫项目实战源码是针对想要学习或深入理解Java爬虫技术的开发者提供的一份实践性极强的学习资源。这个压缩包包含了完整的项目代码,可以让学习者通过实际操作来了解和掌握网络爬虫的开发过程。以下是这个项目中...

Global site tag (gtag.js) - Google Analytics