java的WebCollector爬虫框架 - 赵子龙||zbb - ITeye博客

`

oloz

浏览: 87017 次
性别:
来自: 北京

最近访客更多访客>>

hcqenjoy

dasongshu

jw1314

hizhengfu

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

qii404：推荐另一个Redis可视化客户端，开源并且跨平台支持，性能可以 ...
redis可视化工具RedisClient使用

java的WebCollector爬虫框架

博客分类：

爬虫

阅读更多

WebCollector主页：https://github.com/CrawlScript/WebCollector

下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。

接下来看demo

package org.spider.myspider;

import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;

public class MySpider {

	public static void main(String[] args) throws Exception {
		
		BreadthCrawler breadthCrawler = new BreadthCrawler();
		
		breadthCrawler.addSeed("http://www.cmbchina.com/");/*爬取的目标地址*/
		breadthCrawler.addRegex("http://www.cmbchina.com/.*");/*抓取规则，住区该网站下的所有文件*/
		
		breadthCrawler.setRoot("download");/* html、jsp网页、图片、文件被存储在项目中的download文件夹中 */
		breadthCrawler.start(3);/* 进行深度为3的爬取 ,这个深度直接写入值即可*/
	}

}

分享到：

大访问量高并发 | 生成公钥和私钥

2014-09-05 17:04
浏览 1655
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

使用Java的WebCollector爬虫框架采集网易云音乐5亿首歌.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

基于SSM实现的招聘考试系统试题爬取通过WebCollector爬虫框架网上爬取试题+源代码+文档说明: 试题爬取通过WebCollector爬虫框架网上爬取试题，通过Lucene全文搜索试题，通过遗传算法生成试卷 ## 项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合...

考试类精品--基于SSM实现的招聘考试系统。试题爬取通过WebCollector爬虫框架网上爬取试题，通过Lucen.zip: 这是一个基于SSM（Spring、SpringMVC和MyBatis）框架开发的招聘考试系统，它利用WebCollector爬虫框架从互联网上抓取试题数据，并采用Lucene进行索引和搜索。下面将详细介绍这个系统的组成部分和相关技术。 1. **...

WebCollector:WebCollector爬虫框架原始码: #WebCollector WebCollector爬虫框架原始码WebCollector是基于Java的开源Web爬网程序框架。它提供了一些用于爬网的简单界面，您可以在不到5分钟的时间内设置多线程Web爬网程序。 ## Homehttps ## Document ＃＃安装...

WebCollector 爬虫: WebCollector是一款基于Java开发的网页抓取框架，用于高效、智能地从互联网上抓取信息。这个框架的设计理念是易用、灵活和可扩展，使得开发者可以快速构建自己的网络爬虫项目，而无需从零开始编写复杂的网络请求和...

WebCollector:WebCollector是一个基于Java的开源网络爬虫框架，提供了一些简单的网页爬取接口: WebCollector是一个专为Java开发者设计的开源网络爬虫框架，它的主要目的是简化网页抓取的过程，使得开发者可以更高效地构建自己的网络数据采集系统。这个框架的核心特性在于它提供了易于使用的API，允许开发者专注...

WebCollector+Selenium+Phantomjs: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。爬虫内核： WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行...

WebCollector网络爬虫框架-其他: WebCollector是一个无须配置、便于二次开发的Java爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本，支持分布式爬取。WebCollector...

RecruitSystem:基于SSM实现的招聘考试系统。试题爬取通过WebCollector爬虫框架网上爬取试题，通过Lucene全文搜索试题，通过遗传算法生成试卷: WebCollector是一个强大的网络爬虫框架，它允许开发者定制爬虫策略，以自动化地从互联网上抓取所需的数据。在RecruitSystem中，WebCollector被用来抓取各种在线试题资源，这些资源可能来自教育网站、专业论坛或者...

java爬虫webCollection: Java爬虫WebCollector是一款基于Java开发的网络爬虫框架，专为数据抓取和处理而设计。这个开源项目，WebCollector-master.zip，包含了完整的源代码，使得开发者可以深入理解其工作原理并根据需要进行定制。以下是对...

WebCollector：WebCollector是基于Java的开源Web爬虫框架。它提供了一些用于爬网的简单界面，您可以在不到5分钟的时间内设置多线程Web爬虫。: WebCollector是基于Java的开源Web爬网程序框架。它提供了一些用于爬网的简单界面，您可以在不到5分钟的时间内设置多线程Web爬网程序。除了通用的搜寻器框架外，WebCollector还集成了CEPF ，这是Wu等人提出的一种...

webcollector 开源爬虫源码包2.x版: WebCollector是一款基于Java开发的开源网络爬虫框架，它的2.x版本提供了更加完善的爬虫功能和性能优化。这款工具主要用于从互联网上自动化地抓取数据，适用于数据分析、学术研究、市场监控等多种场景。以下是关于...

webcollector: 综上所述，WebCollector是一个基于Java的爬虫框架，依赖于一系列强大的库，如Spring、Avro、Jackson和C3P0等，用于数据采集、序列化、数据库交互以及性能优化。它提供了一个方便的接口和工具，使得开发者可以轻松地...

WebCollector教程: WebCollector是一个基于Java的网页爬虫框架，它使得开发者能够方便地构建自己的网络爬虫程序。在Eclipse中配置和使用WebCollector非常直观，无需复杂的额外设置，只需要添加相应的jar包到项目的类路径中。首先，你...

webCrawller:基于webcollerctor爬虫框架的java爬虫: **webCrawler:基于WebCollector爬虫框架的Java爬虫** 在互联网大数据时代，网络爬虫作为一种自动获取网页信息的工具，被广泛应用于数据分析、搜索引擎优化、市场研究等领域。Java作为一门面向对象的编程语言，提供...

WebCollector最新稳定版（含jar包、源码、JavaAPI）: 总的来说，WebCollector最新稳定版提供了一个完整的框架，让开发者能够快速构建和运行网络爬虫，实现大规模网页数据的抓取。无论你是数据分析爱好者，还是在进行学术研究，或是希望自动化收集网络信息，WebCollector...

网络爬虫webcollector: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。 WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行灵活的二次...

JAVA基于webCollector实现的爬去网络种子(磁力链接,迅雷资源),你懂得- -: webCollector是一个强大的JAVA爬虫框架，它提供了一套完整的解决方案，用于快速构建网络数据采集系统。webCollector支持多线程爬取，可以处理复杂的网页结构，同时提供了丰富的中间件插件机制，便于开发者定制自己的...

webcollector的wavenJAR依赖: WebCollector是一个强大的网页爬虫框架，它允许开发者自定义规则来收集网络上的信息。在本话题中，重点是确保WebCollector的运行需要的所有JAR依赖已经正确配置，这样用户就可以直接下载并进行无修改的使用。此外，...

WebCollector-2.71.jar: WebCollector所使用的jar包，WebCollector-2.71.jar。WebCollector 是一个无须配置、便于二次开发的 JAVA 爬虫框架（内核），提供精简的的 API，只需少量代码即可实现一个功能强大的爬虫。

Global site tag (gtag.js) - Google Analytics