开源JAVA爬虫(Spider/Crawler)一览 - rcyl2003 - ITeye博客

`

rcyl2003

浏览: 237395 次
性别:
来自: 北京

最近访客更多访客>>

97wgl

meihua

sh18697161667

yudalang

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (187)

社区版块

存档分类

最新评论

lliiqiang：程序实例是指同一个程序不能运行2次?怎么判断同一个程序?其实你 ...
让你的Java程序只有一个进程实例在运行
noahweb：你好！这篇文章让我获益匪浅；同时我有个问题想要问您：http ...
JAVA界面设计大全----JTabbedPane,JScroolPane,JScrolBa的使用
meteormatt：引用所以当你是用equals方法判断对象的内容是否相等，请不要 ...
"=="和equals方法究竟有什么区别？
zhhui_syist： ...
监听整理----JTable

开源JAVA爬虫(Spider/Crawler)一览

Java Web lucene 搜索引擎框架

阅读更多

Heritrix Heritrix是一个开源，可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

WebSPHINX WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成：爬虫工作平台和WebSPHINX类包。

WebLech WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

Arale主要为个人使用而设计，而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。

J-Spider J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查，分析网站的结构(可创建一个网站地图),下载整个Web站点，你还可以写一个JSpider插件来扩展你所需要的功能。

spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。

Arachnid Arachnid:是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。

LARM LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件，数据库表格建立索引的方法和为Web站点建索引的爬虫。

JoBo JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如：自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如：通过网页的URL，大小，MIME类型等)来限制下载。

Heritrix Heritrix是一个开源，可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

WebSPHINX WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成：爬虫工作平台和WebSPHINX类包。

WebLech WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

Arale主要为个人使用而设计，而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。

J-Spider J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查，分析网站的结构(可创建一个网站地图),下载整个Web站点，你还可以写一个JSpider插件来扩展你所需要的功能。

spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。

Arachnid Arachnid:是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。

LARM LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件，数据库表格建立索引的方法和为Web站点建索引的爬虫。

JoBo JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如：自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如：通过网页的URL，大小，MIME类型等)来限制下载。

v

分享到：

PHP 的搜索引擎技术 | 爬虫/蜘蛛程序的制作[大体制作过程]

2007-09-21 13:03
浏览 4956
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Java-Web-crawler-spider.rar_JAVA web 爬虫_Java spider_crawler_spid: Java Web 爬虫，又称为Java Spider或Crawler，是一种自动抓取互联网信息的程序。在Java领域，实现Web爬虫技术可以帮助开发者获取大量网页数据，进行数据分析、搜索引擎优化、市场研究等多种用途。本资源"Java-Web-...

基于Java的强力爬虫Spiderman设计源码: 本项目是基于Java的强力爬虫Spiderman设计源码，包含223个文件，其中114个Java文件，93个XML文件，6个gitignore文件，3个Properties文件，1个LICENSE文件，1个Markdown文件，1个bak2文件，1个YAML文件，1个EXE文件和...

强力 Java 爬虫spiderman-master.zip: 在"强力 Java 爬虫spiderman-master.zip"这个压缩包中，我们很可能找到了一个名为"spiderman-master"的项目源码，这通常是一个Java爬虫项目的根目录。该项目可能包含了实现爬虫功能的各种组件和配置，帮助开发者构建...

Spider_java.zip_Java spider_java 爬虫_spider_搜索引擎爬虫_网络爬虫: 【标题】"Spider_java.zip" 是一个包含Java实现的网络爬虫项目的压缩包，主要针对搜索引擎数据抓取。这个项目的核心在于使用Java编程语言来构建一个能够自动化浏览网页、解析HTML内容并收集所需信息的程序。网络爬虫...

java爬虫spider: Java爬虫，通常被称为Spider，是一种使用编程语言（如Java）编写的应用程序，用于自动抓取互联网上的信息。Java作为一款强大的、跨平台的编程语言，非常适合开发爬虫项目。在本篇中，我们将深入探讨Java爬虫的相关...

Java编写spider网络爬虫程序源码: Java编写Spider网络爬虫程序是IT领域中一种常见的技术实践，它主要用来自动化地抓取互联网上的信息。在这个源码中，我们可以学习到如何利用Java实现一个基础的网络爬虫，以便于下载指定域名范围内的网页内容，甚至...

crawler spider web爬虫: 【标题】"Crawler Spider Web爬虫"是一个基于C++实现的网络爬虫项目，它旨在高效地抓取和处理互联网上的网页数据。在互联网的世界里，爬虫是一种自动化程序，能够按照一定的规则遍历网站，收集所需信息，是数据分析...

用java写的crawler（spider）网络爬虫源代码: ### Java编写的网络爬虫(Crawler/Spider)关键知识点解析 #### 一、网络爬虫(Crawler/Spider)概述网络爬虫（Web Crawler），也称为网页蜘蛛、网络机器人等，是一种按照一定的规则自动抓取万维网信息的程序或者脚本...

网络爬虫 C++ Crawler Spider: 网络爬虫，也被称为Web Spider或Crawler，是自动化浏览互联网并抓取信息的一种程序。在C++中实现网络爬虫是一项技术性很强的任务，它涉及到HTTP协议、HTML解析、数据存储等多个领域的知识。本节将深入探讨这些关键点...

基于webmagic + springboot + mybatis的Java爬虫，使用Echarts进行数据可视化分析+源代码+: *爬虫模块环境准备：** ...hupuspider通过URL请求的方式运行，在浏览器中键入 **localhost:8080/**（默认端口为8080，如果遇到端口冲突，可以在配置文件 [`hupu-spider/src/main/resources/application.yml`]...

81个Python爬虫源代码+九款开源爬虫工具.doc: 以下是一些关于Python爬虫的知识点，以及提到的一些开源爬虫工具： 1. **Python爬虫源代码**： - Python爬虫源代码通常涉及到requests库用于发送HTTP请求，BeautifulSoup或lxml库解析HTML或XML文档，可能还会使用...

开源网络蜘蛛(Spider)一览: 开源网络蜘蛛介绍开源网络蜘蛛介绍开源网络蜘蛛介绍开源网络蜘蛛介绍

java爬虫项目，webmagic源码 java开发爬虫项目: Java爬虫项目是利用编程语言来自动化收集互联网信息的一种技术，WebMagic是一个开源的Java爬虫框架，专注于简单、快速地实现网页数据抓取。在这个项目中，我们主要探讨WebMagic的源码以及如何利用Java进行爬虫开发。...

开源网络爬虫代码: 【开源网络爬虫代码】是基于C++编程语言实现的一款Web Spider程序，它主要用于自动抓取互联网上的信息，实现高效的数据采集。网络爬虫在信息技术领域扮演着重要角色，尤其在大数据分析、搜索引擎构建、市场研究等...

QQ Groups Spider（QQ 群爬虫）.zip: QQ Groups Spider，正如其名，是一个专门用于抓取QQ群信息的爬虫程序。这个压缩包文件包含了实现这一功能的相关代码资源，对于想要学习或利用QQ群数据进行分析的用户来说，具有很高的实用价值。爬虫技术是互联网数据...

Spiderman2 java爬虫 v1.0: **Spiderman2 Java爬虫 v1.0** 是一款基于Java开发的网页抓取和解析工具，其设计目的是为了高效地从互联网上抓取并处理网页数据。这款爬虫工具以其简洁的架构和易于扩展的特性，使得用户能够快速地进行网页内容的...

Java爬虫【一篇文章精通系列-案例开发-巨细】HttpClient5 + jsoup + WebMagic + spider: 接下来，WebMagic是一个开源的Java爬虫框架，它基于Jsoup并提供了更高级别的抽象。WebMagic简化了爬虫开发流程，支持自动化的URL发现、页面解析和数据提取。学习WebMagic，你需要熟悉其核心组件如Page、Site、...

Java网络爬虫(蜘蛛)源码.zip: Java网络爬虫（也称为蜘蛛）是一段用于自动抓取互联网上的数据并进行分析处理的程序代码。这些爬虫通常用于搜索引擎索引、数据挖掘、市场研究或任何需要从大量网页中提取有用信息的场景。在Java中，编写网络爬虫...

强力 Java 爬虫，列表分页、详细页分页、ajax、微内核高扩展、配置灵活: 在名为"spiderman-master"的压缩包中，很可能是包含了这个Java爬虫项目的源代码。开发者可以通过阅读代码、运行示例以及查阅文档来深入了解其工作原理和如何自定义配置。此外，理解这个项目的结构和设计模式可以帮助...

Global site tag (gtag.js) - Google Analytics