`
ldd600
  • 浏览: 103581 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
47bb354f-8b5f-3ea6-a206-c7ead38c741c
Hyperic插件开发不完...
浏览量:11255
社区版块
存档分类
最新评论

Java爬虫框架(三)--模块设计之二

 
阅读更多

 6.      Filter

Filter可以对解析好的新Task,进行过滤。



 

7.      Handler

Handler对解析好的内容进行进一步处理,异步化处理和爬取解析。处理主要是将爬取的数据入库和索引。

 

一、        Task队列

Task队列,存放还没有被处理的新任务。



 

二、        Visited

Visited表的判断其实是TaskFilter的一种,只是TaskFilter用了VisitedTable来存储已经爬取过的任务。



 

VisitedTaskFilter:判断Task是否已经被处理过

VisitedTable:存储已经被爬取过的任务

  • 大小: 9.3 KB
  • 大小: 17.5 KB
  • 大小: 15.9 KB
  • 大小: 25.3 KB
分享到:
评论
3 楼 u011506498 2017-06-26  
楼主,能否求源码,924393541@qq.com,多谢!
2 楼 xpf123fly 2015-12-18  
楼主,能否求源码,593829792@qq.com,多谢!
1 楼 haitaohehe 2011-08-18  
期待楼主后续文章...

相关推荐

    Java爬虫框架设计-针对电商网站进行数据爬取、分析、存储、索引的分析与设计.pdf

    6模块.........................6 6.1Scheduler..................6 6.2TaskMaster.................7 6.3Fetcher....................9 6.4Worker.....................10 6.5Parser.....................10 6.6...

    面向对象的分布式爬虫框架xxl-crawler

    总结起来,XXL-Crawler 是一个强大的Java开发的分布式爬虫框架,它通过面向对象的设计思路,将爬虫任务的各个部分模块化,方便用户定制和扩展。同时,其分布式特性使其能处理大规模的爬取任务,提高数据抓取的效率和...

    爬虫项目-Java垂直爬虫框架

    webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。 本项目的主要特色: 完全...

    java爬虫框架之webMagic

    Java爬虫框架WebMagic是一个强大的、模块化设计的开源爬虫框架,专为简化网络爬虫的开发而设计。在本文中,我们将深入探讨WebMagic的核心概念、主要组件、使用方法以及如何通过示例项目spider_demo来实现一个简单的...

    Java爬虫实例完整源码

    在这个Java爬虫实例中,我们将深入探讨其核心概念和技术,帮助你理解如何使用Java来编写一个完整的爬虫框架。 首先,Java爬虫的基础是HTTP协议,它允许我们向服务器发送请求并接收响应。在Java中,我们可以使用`...

    WebCrawler Java爬虫

    6. **爬虫框架**:在Java世界中,有一些现成的爬虫框架可以帮助开发者快速搭建爬虫项目,例如WebMagic、Colly和Jsoup-Crawler。这些框架提供了更高级的功能,如自动跟踪链接、断点续爬、异常处理等,降低了开发难度...

    Java爬虫。。。。。

    6. **爬虫框架**:有一些成熟的Java爬虫框架,如WebMagic、Colt和Crawler4j,它们提供了一套完整的爬虫解决方案,简化了开发过程。 7. **视频教程与源码**:题目中提到的"有视频有源码"可能是指提供了一套教学资源...

    WebMagic (Java爬虫框架).zip

    总的来说,WebMagic提供了一个强大且易于上手的Java爬虫框架,结合扎实的Java基础和爬虫知识,开发者可以高效地构建自己的网络爬虫项目,处理各种网页抓取需求。通过不断学习和实践,可以提升对WebMagic的理解和运用...

    WebMagic(Java爬虫框架) v0.7.2

    WebMagic是一个专为Java开发者设计的爬虫框架,版本号为v0.7.2。这个框架具有高度的模块化,使得开发人员可以方便地构建自己的网络数据抓取项目。在深入探讨WebMagic之前,先要理解爬虫的基本概念:爬虫是一种自动化...

    Java爬虫源码Java爬虫源码

    以下将详细讲解Java爬虫的核心知识点,并结合Python爬虫进行对比。 1. **网络请求库**: - Java中,`HttpURLConnection`和`Apache HttpClient`是常见的HTTP请求库。`HttpURLConnection`是Java标准库的一部分,简单...

    基于java的一款webmagic开源的Java垂直爬虫框架

    webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发 webmagic的核心 webmagic的主要特色: 完全模块化的设计,强大的可扩展性。 核心简单但是涵盖爬虫的全部流程,灵活...

    Java网络爬虫(蜘蛛)源码-zhizhu-project

    - **爬虫框架**:"zhizhu-project"可能使用了如Jsoup、WebMagic、Colly等Java爬虫框架,它们提供了更高级别的API,简化了爬虫开发。 - **异常处理**:处理各种可能出现的网络问题,如超时、重定向、验证码等。 - ...

    爬虫框架是什么?常见的Python爬虫框架有哪些?.pdf

    9. Cola:Cola 是一个分布式爬虫框架,项目整体设计有点糟,模块间耦合度较高。 爬虫框架的选择取决于爬虫的需求,如果你需要爬取简单的页面内容,可以选择 Scrapy 或者 Crawley。如果你需要爬取新闻或者文章,可以...

    爬虫框架是什么?常见的Python爬虫框架有哪些?.docx

    爬虫框架是指为了满足爬虫需求而设计的软件框架,它可以帮助爬虫开发者快速构建爬虫应用程序,提高爬虫的效率和可维护性。常见的 Python 爬虫框架有很多,下面我们将对它们进行详细的介绍。 1. Scrapy 框架 Scrapy...

    基于Java的爬虫框架WebMagic.zip

    WebMagic是一个开源的Java爬虫框架,它设计的目标是简单易用、可扩展性强,能够帮助开发者快速构建自己的网络爬虫项目。WebMagic的核心组件包括四个部分:PageFetcher(页面抓取)、PageProcessor(页面处理)、...

    计算机毕业设计 Java网络爬虫(蜘蛛)源码-zhizhu开发文档说明 软件/插件 模板 JAVA程序源码

    - **WebMagic**:一个简单易用的Java爬虫框架,支持多线程、分布式爬取,内置了PageModel和Pipeline机制,便于数据处理和存储。 - **Colt**:更复杂的爬虫框架,支持大规模爬取,提供了强大的中间件和扩展功能。 ...

    分享一个简单的java爬虫框架

    本文将介绍一个简单的Java爬虫框架的设计和实现。 爬虫框架的组成部分 一个爬虫框架通常由以下几个部分组成: 1. 请求模块:负责向目标网站发送请求并获取响应的HTML页面。 2. 解析模块:负责解析获取的HTML页面...

    一个可扩展的Java网络爬虫框架

    Java网络爬虫框架是用于自动化抓取互联网信息的程序,WebMagic是一个优秀的开源实现,它以其高度可扩展性而受到开发者们的青睐。本框架旨在简化爬虫开发过程,让开发者可以专注于数据抓取和处理的核心任务,而无需...

Global site tag (gtag.js) - Google Analytics