WebCollector主页:
https://github.com/CrawlScript/WebCollector
下载:webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。
接下来看demo
package org.spider.myspider;
import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;
public class MySpider {
public static void main(String[] args) throws Exception {
BreadthCrawler breadthCrawler = new BreadthCrawler();
breadthCrawler.addSeed("http://www.cmbchina.com/");/*爬取的目标地址*/
breadthCrawler.addRegex("http://www.cmbchina.com/.*");/*抓取规则,住区该网站下的所有文件*/
breadthCrawler.setRoot("download");/* html、jsp网页、图片、文件被存储在项目中的download文件夹中 */
breadthCrawler.start(3);/* 进行深度为3的爬取 ,这个深度直接写入值即可*/
}
}
分享到:
相关推荐
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...
试题爬取通过WebCollector爬虫框架网上爬取试题,通过Lucene全文搜索试题,通过遗传算法生成试卷 ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合...
这是一个基于SSM(Spring、SpringMVC和MyBatis)框架开发的招聘考试系统,它利用WebCollector爬虫框架从互联网上抓取试题数据,并采用Lucene进行索引和搜索。下面将详细介绍这个系统的组成部分和相关技术。 1. **...
#WebCollector WebCollector爬虫框架原始码WebCollector是基于Java的开源Web爬网程序框架。它提供了一些用于爬网的简单界面,您可以在不到5分钟的时间内设置多线程Web爬网程序。 ## Homehttps ## Document ##安装...
WebCollector是一款基于Java开发的网页抓取框架,用于高效、智能地从互联网上抓取信息。这个框架的设计理念是易用、灵活和可扩展,使得开发者可以快速构建自己的网络爬虫项目,而无需从零开始编写复杂的网络请求和...
包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】...
WebCollector是一个专为Java开发者设计的开源网络爬虫框架,它的主要目的是简化网页抓取的过程,使得开发者可以更高效地构建自己的网络数据采集系统。这个框架的核心特性在于它提供了易于使用的API,允许开发者专注...
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行...
WebCollector是一个无须配置、便于二次开发的Java爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。WebCollector...
WebCollector是一个强大的网络爬虫框架,它允许开发者定制爬虫策略,以自动化地从互联网上抓取所需的数据。在RecruitSystem中,WebCollector被用来抓取各种在线试题资源,这些资源可能来自教育网站、专业论坛或者...
Java爬虫WebCollector是一款基于Java开发的网络爬虫框架,专为数据抓取和处理而设计。这个开源项目,WebCollector-master.zip,包含了完整的源代码,使得开发者可以深入理解其工作原理并根据需要进行定制。以下是对...
WebCollector是基于Java的开源Web爬网程序框架。它提供了一些用于爬网的简单界面,您可以在不到5分钟的时间内设置多线程Web爬网程序。 除了通用的搜寻器框架外,WebCollector还集成了CEPF ,这是Wu等人提出的一种...
WebCollector是一款基于Java开发的开源网络爬虫框架,它的2.x版本提供了更加完善的爬虫功能和性能优化。这款工具主要用于从互联网上自动化地抓取数据,适用于数据分析、学术研究、市场监控等多种场景。以下是关于...
综上所述,WebCollector是一个基于Java的爬虫框架,依赖于一系列强大的库,如Spring、Avro、Jackson和C3P0等,用于数据采集、序列化、数据库交互以及性能优化。它提供了一个方便的接口和工具,使得开发者可以轻松地...
WebCollector是一个基于Java的网页爬虫框架,它使得开发者能够方便地构建自己的网络爬虫程序。在Eclipse中配置和使用WebCollector非常直观,无需复杂的额外设置,只需要添加相应的jar包到项目的类路径中。 首先,你...
**webCrawler:基于WebCollector爬虫框架的Java爬虫** 在互联网大数据时代,网络爬虫作为一种自动获取网页信息的工具,被广泛应用于数据分析、搜索引擎优化、市场研究等领域。Java作为一门面向对象的编程语言,提供...
总的来说,WebCollector最新稳定版提供了一个完整的框架,让开发者能够快速构建和运行网络爬虫,实现大规模网页数据的抓取。无论你是数据分析爱好者,还是在进行学术研究,或是希望自动化收集网络信息,WebCollector...
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次...
webCollector是一个强大的JAVA爬虫框架,它提供了一套完整的解决方案,用于快速构建网络数据采集系统。webCollector支持多线程爬取,可以处理复杂的网页结构,同时提供了丰富的中间件插件机制,便于开发者定制自己的...
WebCollector是一个强大的网页爬虫框架,它允许开发者自定义规则来收集网络上的信息。在本话题中,重点是确保WebCollector的运行需要的所有JAR依赖已经正确配置,这样用户就可以直接下载并进行无修改的使用。此外,...