`

jim8757

浏览: 145849 次
性别:
来自: 广州

最近访客更多访客>>

世界杯2009

tangyaham

fengfantasy

examine5191

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

春天好：推荐一个免费好用的云端爬虫开发平台不需要安装环境，云上运行爬虫 ...
网络爬虫反爬虫

JAVA爬虫 WebCollector

博客分类：

网络爬虫

阅读更多

https://github.com/CrawlScript/WebCollector

WebCollector

爬虫简介

WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。

爬虫内核：

WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行灵活的二次开发。内核具有很强的扩展性，用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup，可进行精准的网页解析。

DEMO：

用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫（JAVA）

public class ZhihuCrawler extends BreadthCrawler{

    /*visit函数定制访问每个页面时所需进行的操作*/
    @Override
    public void visit(Page page) {
        String question_regex="^http://www.zhihu.com/question/[0-9]+";
        if(Pattern.matches(question_regex, page.url)){
            System.out.println("正在抽取"+page.url);
            /*抽取标题*/
            String title=page.doc.title();
            System.out.println(title);
            /*抽取提问内容*/
            String question=page.doc.select("div[id=zh-question-detail]").text();
            System.out.println(question);

        }
    }

    /*启动爬虫*/
    public static void main(String[] args) throws IOException{  
        ZhihuCrawler crawler=new ZhihuCrawler();
        crawler.addSeed("http://www.zhihu.com/question/21003086");
        crawler.start(5);  
    }


}

分享到：

JAVA程序设计中经常犯的低级错误 | Google开源基于Deep Learning的word2vec工 ...

2014-07-29 15:24
浏览 1745
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java爬虫webCollection: Java爬虫WebCollector是一款基于Java开发的网络爬虫框架，专为数据抓取和处理而设计。这个开源项目，WebCollector-master.zip，包含了完整的源代码，使得开发者可以深入理解其工作原理并根据需要进行定制。以下是对...

使用Java的WebCollector爬虫框架采集网易云音乐5亿首歌.zip: 爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

WebCollector+Selenium+Phantomjs: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。爬虫内核： WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行...

网络爬虫webcollector: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。 WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行灵活的二次...

WebCollector 爬虫: WebCollector是一款基于Java开发的网页抓取框架，用于高效、智能地从互联网上抓取信息。这个框架的设计理念是易用、灵活和可扩展，使得开发者可以快速构建自己的网络爬虫项目，而无需从零开始编写复杂的网络请求和...

JAVA基于webCollector实现的爬去网络种子(磁力链接,迅雷资源),你懂得- -: webCollector是一个强大的JAVA爬虫框架，它提供了一套完整的解决方案，用于快速构建网络数据采集系统。webCollector支持多线程爬取，可以处理复杂的网页结构，同时提供了丰富的中间件插件机制，便于开发者定制自己的...

WebCollector最新稳定版（含jar包、源码、JavaAPI）: WebCollector是一款强大的网页数据采集工具，它基于Java开发，提供了高效、灵活的网络爬虫功能。这个最新的稳定版包含了WebCollector的核心组件，如jar包、源码、Java API以及测试程序，为开发者提供了完整的开发...

webcollector: 【标签】"爬虫jar包"进一步确认了WebCollector是一个Java爬虫库，它的主要功能是为开发者提供爬虫服务，通过jar包的形式便于Java项目集成。下面是压缩包中包含的子文件及其关联的知识点： 1. **je-5.0.73.jar**：...

webcollector 开源爬虫源码包2.x版: WebCollector是一款基于Java开发的开源网络爬虫框架，它的2.x版本提供了更加完善的爬虫功能和性能优化。这款工具主要用于从互联网上自动化地抓取数据，适用于数据分析、学术研究、市场监控等多种场景。以下是关于...

WebCollector:WebCollector是一个基于Java的开源网络爬虫框架，提供了一些简单的网页爬取接口: WebCollector是一个专为Java开发者设计的开源网络爬虫框架，它的主要目的是简化网页抓取的过程，使得开发者可以更高效地构建自己的网络数据采集系统。这个框架的核心特性在于它提供了易于使用的API，允许开发者专注...

Webcollector demo: WebCollector 采集代码

81个Python爬虫源代码+九款开源爬虫工具.doc: - Gecco是一款Java爬虫框架，整合了多个库如jsoup、httpclient、fastjson等，允许开发者使用jQuery风格的选择器编写爬虫，具有优秀的可扩展性和基于开闭原则的设计。 3. **WebCollector**： - WebCollector是基于...

WebCollector：WebCollector是基于Java的开源Web爬虫框架。它提供了一些用于爬网的简单界面，您可以在不到5分钟的时间内设置多线程Web爬虫。: WebCollector是基于Java的开源Web爬网程序框架。它提供了一些用于爬网的简单界面，您可以在不到5分钟的时间内设置多线程Web爬网程序。除了通用的搜寻器框架外，WebCollector还集成了CEPF ，这是Wu等人提出的一种...

WebCollector教程: WebCollector是一个基于Java的网页爬虫框架，它使得开发者能够方便地构建自己的网络爬虫程序。在Eclipse中配置和使用WebCollector非常直观，无需复杂的额外设置，只需要添加相应的jar包到项目的类路径中。首先，你...

webcollector源码2.26: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本，支持分布式爬取。本资源是2.26...

webCrawller:基于webcollerctor爬虫框架的java爬虫: **webCrawler:基于WebCollector爬虫框架的Java爬虫** 在互联网大数据时代，网络爬虫作为一种自动获取网页信息的工具，被广泛应用于数据分析、搜索引擎优化、市场研究等领域。Java作为一门面向对象的编程语言，提供...

webcollector的wavenJAR依赖: WebCollector是一个强大的网页爬虫框架，它允许开发者自定义规则来收集网络上的信息。在本话题中，重点是确保WebCollector的运行需要的所有JAR依赖已经正确配置，这样用户就可以直接下载并进行无修改的使用。此外，...

爬虫所用jar包: 总的来说，WebCollector是一个强大且灵活的Java爬虫框架，适用于多种类型的网页爬取任务，特别是针对微博这样的社交平台，可以用来获取用户信息、帖子、评论等大量数据。理解并熟练使用这些JAR文件，将有助于我们...

WebCollector-2.71.jar: WebCollector所使用的jar包，WebCollector-2.71.jar。WebCollector 是一个无须配置、便于二次开发的 JAVA 爬虫框架（内核），提供精简的的 API，只需少量代码即可实现一个功能强大的爬虫。

WebCollector-2.12的Jar包: WebCollector是一个广泛应用于数据抓取和网络爬虫的Java框架，尤其在大数据处理和信息挖掘领域中占有重要地位。这个框架的设计目标是提供一个高效、灵活且易于使用的工具，使得开发者能够快速构建复杂的网络爬虫系统...

Global site tag (gtag.js) - Google Analytics