`
rcyl2003
  • 浏览: 237395 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

开源JAVA爬虫(Spider/Crawler)一览

阅读更多

图片点击可在新窗口打开查看 Heritrix Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

 

图片点击可在新窗口打开查看 WebSPHINX WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包。

图片点击可在新窗口打开查看 WebLech WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

 

图片点击可在新窗口打开查看 Arale

Arale主要为个人使用而设计,而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。

图片点击可在新窗口打开查看 J-Spider J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查,分析网站的结构(可创建一个网站地图),下载整个Web站点,你还可以写一个JSpider插件来扩展你所需要的功能。

 

图片点击可在新窗口打开查看 spindle

spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。

图片点击可在新窗口打开查看 Arachnid Arachnid:是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。

 

图片点击可在新窗口打开查看 LARM LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件,数据库表格建立索引的方法和为Web站点建索引的爬虫。

图片点击可在新窗口打开查看 JoBo JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。

 

 

 

图片点击可在新窗口打开查看 Heritrix Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

 

图片点击可在新窗口打开查看 WebSPHINX WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包。

图片点击可在新窗口打开查看 WebLech WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

 

图片点击可在新窗口打开查看 Arale

Arale主要为个人使用而设计,而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。

图片点击可在新窗口打开查看 J-Spider J-Spider:是一个完全可配置和定制的Web Spider引擎.你可以利用它来检查网站的错误(内在的服务器错误等),网站内外部链接检查,分析网站的结构(可创建一个网站地图),下载整个Web站点,你还可以写一个JSpider插件来扩展你所需要的功能。

 

图片点击可在新窗口打开查看 spindle

spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。

图片点击可在新窗口打开查看 Arachnid Arachnid:是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并能够在Web站上的每个页面被解析之后增加几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。

 

图片点击可在新窗口打开查看 LARM LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件,数据库表格建立索引的方法和为Web站点建索引的爬虫。

图片点击可在新窗口打开查看 JoBo JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。JoBo还有灵活的下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。

 

 

 

分享到:
评论

相关推荐

    Java-Web-crawler-spider.rar_JAVA web 爬虫_Java spider_crawler_spid

    Java Web 爬虫,又称为Java Spider或Crawler,是一种自动抓取互联网信息的程序。在Java领域,实现Web爬虫技术可以帮助开发者获取大量网页数据,进行数据分析、搜索引擎优化、市场研究等多种用途。本资源"Java-Web-...

    基于Java的强力爬虫Spiderman设计源码

    本项目是基于Java的强力爬虫Spiderman设计源码,包含223个文件,其中114个Java文件,93个XML文件,6个gitignore文件,3个Properties文件,1个LICENSE文件,1个Markdown文件,1个bak2文件,1个YAML文件,1个EXE文件和...

    强力 Java 爬虫spiderman-master.zip

    在"强力 Java 爬虫spiderman-master.zip"这个压缩包中,我们很可能找到了一个名为"spiderman-master"的项目源码,这通常是一个Java爬虫项目的根目录。该项目可能包含了实现爬虫功能的各种组件和配置,帮助开发者构建...

    Spider_java.zip_Java spider_java 爬虫_spider_搜索引擎 爬虫_网络爬虫

    【标题】"Spider_java.zip" 是一个包含Java实现的网络爬虫项目的压缩包,主要针对搜索引擎数据抓取。这个项目的核心在于使用Java编程语言来构建一个能够自动化浏览网页、解析HTML内容并收集所需信息的程序。网络爬虫...

    java爬虫spider

    Java爬虫,通常被称为Spider,是一种使用编程语言(如Java)编写的应用程序,用于自动抓取互联网上的信息。Java作为一款强大的、跨平台的编程语言,非常适合开发爬虫项目。在本篇中,我们将深入探讨Java爬虫的相关...

    Java编写spider网络爬虫程序源码

    Java编写Spider网络爬虫程序是IT领域中一种常见的技术实践,它主要用来自动化地抓取互联网上的信息。在这个源码中,我们可以学习到如何利用Java实现一个基础的网络爬虫,以便于下载指定域名范围内的网页内容,甚至...

    crawler spider web爬虫

    【标题】"Crawler Spider Web爬虫"是一个基于C++实现的网络爬虫项目,它旨在高效地抓取和处理互联网上的网页数据。在互联网的世界里,爬虫是一种自动化程序,能够按照一定的规则遍历网站,收集所需信息,是数据分析...

    用java写的crawler(spider)网络爬虫 源代码

    ### Java编写的网络爬虫(Crawler/Spider)关键知识点解析 #### 一、网络爬虫(Crawler/Spider)概述 网络爬虫(Web Crawler),也称为网页蜘蛛、网络机器人等,是一种按照一定的规则自动抓取万维网信息的程序或者脚本...

    网络爬虫 C++ Crawler Spider

    网络爬虫,也被称为Web Spider或Crawler,是自动化浏览互联网并抓取信息的一种程序。在C++中实现网络爬虫是一项技术性很强的任务,它涉及到HTTP协议、HTML解析、数据存储等多个领域的知识。本节将深入探讨这些关键点...

    基于webmagic + springboot + mybatis的Java爬虫,使用Echarts进行数据可视化分析+源代码+

    *爬虫模块环境准备:** ...hupuspider通过URL请求的方式运行,在浏览器中键入 **localhost:8080/**(默认端口为8080,如果遇到端口冲突,可以在配置文件 [`hupu-spider/src/main/resources/application.yml`]...

    81个Python爬虫源代码+九款开源爬虫工具.doc

    以下是一些关于Python爬虫的知识点,以及提到的一些开源爬虫工具: 1. **Python爬虫源代码**: - Python爬虫源代码通常涉及到requests库用于发送HTTP请求,BeautifulSoup或lxml库解析HTML或XML文档,可能还会使用...

    开源网络蜘蛛(Spider)一览

    开源网络蜘蛛介绍 开源网络蜘蛛介绍 开源网络蜘蛛介绍 开源网络蜘蛛介绍

    java爬虫项目,webmagic源码 java开发爬虫项目

    Java爬虫项目是利用编程语言来自动化收集互联网信息的一种技术,WebMagic是一个开源的Java爬虫框架,专注于简单、快速地实现网页数据抓取。在这个项目中,我们主要探讨WebMagic的源码以及如何利用Java进行爬虫开发。...

    开源网络爬虫代码

    【开源网络爬虫代码】是基于C++编程语言实现的一款Web Spider程序,它主要用于自动抓取互联网上的信息,实现高效的数据采集。网络爬虫在信息技术领域扮演着重要角色,尤其在大数据分析、搜索引擎构建、市场研究等...

    QQ Groups Spider(QQ 群爬虫).zip

    QQ Groups Spider,正如其名,是一个专门用于抓取QQ群信息的爬虫程序。这个压缩包文件包含了实现这一功能的相关代码资源,对于想要学习或利用QQ群数据进行分析的用户来说,具有很高的实用价值。爬虫技术是互联网数据...

    Spiderman2 java爬虫 v1.0

    **Spiderman2 Java爬虫 v1.0** 是一款基于Java开发的网页抓取和解析工具,其设计目的是为了高效地从互联网上抓取并处理网页数据。这款爬虫工具以其简洁的架构和易于扩展的特性,使得用户能够快速地进行网页内容的...

    Java爬虫【一篇文章精通系列-案例开发-巨细】HttpClient5 + jsoup + WebMagic + spider

    接下来,WebMagic是一个开源的Java爬虫框架,它基于Jsoup并提供了更高级别的抽象。WebMagic简化了爬虫开发流程,支持自动化的URL发现、页面解析和数据提取。学习WebMagic,你需要熟悉其核心组件如Page、Site、...

    Java网络爬虫(蜘蛛)源码.zip

    Java网络爬虫(也称为蜘蛛)是一段用于自动抓取互联网上的数据并进行分析处理的程序代码。这些爬虫通常用于搜索引擎索引、数据挖掘、市场研究或任何需要从大量网页中提取有用信息的场景。 在Java中,编写网络爬虫...

    强力 Java 爬虫,列表分页、详细页分页、ajax、微内核高扩展、配置灵活

    在名为"spiderman-master"的压缩包中,很可能是包含了这个Java爬虫项目的源代码。开发者可以通过阅读代码、运行示例以及查阅文档来深入了解其工作原理和如何自定义配置。此外,理解这个项目的结构和设计模式可以帮助...

Global site tag (gtag.js) - Google Analytics