`
stephen80
  • 浏览: 103866 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

crawler 的工作备忘

阅读更多
1.   JMX ,java management extension

基本认为可以作为 的可管理部分 的基础架构



a.       sun 的缺省实现,基本可以满足需要

b.       jmx 被广泛认可





2. 学习 osgi 在 crawler 架构上的使用可行性

  

目前的进展,搜索到 两个相关项目

   a. SMILA

http://wiki.eclipse.org/SMILA/Architecture_Overview



   b. Aperture
http://aperture.wiki.sourceforge.net/ApertureInOSGi



初步认识:

a.       osgi 是个不错的方向。
分享到:
评论

相关推荐

    crawler4j-4.0

    这个压缩包包含了`crawler4j`的源代码,这对于学习和理解爬虫的工作原理以及进行定制化开发非常有帮助。以下是对`crawler4j`框架的详细介绍及其主要知识点: 1. **网页爬虫基础**: 网页爬虫是一种自动遍历和抓取...

    TK-crawler.pyTK-crawler.pyTK-crawler.py

    TK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_...

    crawler-master_crawler_

    【标题】"crawler-master_crawler_" 指的可能是一个关于网络爬虫的项目,其中 "master" 通常表示这是项目的主要分支或者是最完整的版本。"crawler" 是这个项目的关键词,意味着它涉及到互联网数据抓取的技术,即网络...

    ex-crawler

    Ex-Crawler 是一款基于 Java 开发的网页抓取工具,专为高效且灵活的数据采集而设计。这款爬虫软件分为两个主要...通过熟练掌握 Ex-Crawler 的使用,开发者和数据分析师可以有效地自动化网络数据采集,提高工作效率。

    爬虫crawler4j源码+实例

    **正文** `crawler4j` 是一个开源的Java库,...通过学习并理解其核心组件和工作原理,开发者可以快速构建出高效、可控的爬虫应用。在`crawler4j-master`压缩包中提供的源码和实例,将帮助你更好地理解和应用这个工具。

    appcrawler自动化测试实践.pdf

    【appcrawler自动化测试实践】 appcrawler是一款用于移动应用自动化测试的工具,尤其适用于进行稳定性测试。它基于Scala编程语言,并运行在Java虚拟机(JVM)上,利用“UI遍历”的理念,对应用程序的界面元素进行...

    WebCrawler

    WebCrawler是一个基于Java开发的爬虫框架,它主要用于网络数据的抓取和处理。作为一个高级的爬虫工具,WebCrawler具备了多种特性和功能,使得开发者能够更精细、定向地进行网络爬取任务。 1. **Java爬虫技术**: ...

    Crawler4j-3.5

    1、对应Crawler4j的版本应该是3.5。 2、http://code.google.com/p/crawler4j -> Source -> Checkout上用Git Clone失败。 3、采用最笨的方法从 Source -> Browse上把文件一个一个拷贝下来,自己新建的Java项目,包...

    Crawler_crawler_

    标题"Crawler_crawler_"暗示了我们讨论的主题是关于网络爬虫(Crawler)的一个项目或者实现,这通常涉及从互联网上自动抓取信息的技术。在这个描述中,“可以指定内容的简单爬虫”意味着该爬虫被设计成可以针对特定...

    Crawler

    【标题】"Crawler"指的是一个网络爬虫项目,它是一个用于自动抓取网页信息的程序。网络爬虫是互联网信息搜集的重要工具,通过模拟浏览器的行为,遍历和下载网页,进而实现对互联网数据的抓取和分析。 【描述】"一个...

    crawler4j源码

    【标题】"crawler4j源码" 是一个用于网络爬虫开发的开源库,它为Java开发者提供了一种简单易用的方式来实现网页抓取。这个库由Ahmet Alp Balkan和Ali Sol编写,旨在简化网页抓取过程,使得开发者可以专注于业务逻辑...

    crawler spider web爬虫

    同时,“希望对你有用”表明这个项目不仅是一个工作原型,而且具备实用性,可以为其他开发者提供参考或作为基础框架。 【标签】"crawler"和"spider"进一步明确了主题,"crawler"是网络爬虫的英文术语,而"spider...

    happy-crawler.rar

    happy-crawler.rar

    Java-Web-crawler-spider.rar_JAVA web 爬虫_Java spider_crawler_spid

    首先,我们要理解Web爬虫的基本工作原理。Web爬虫通过模拟浏览器向服务器发送HTTP请求,获取网页HTML内容,然后解析HTML提取所需信息,再按照一定的规则处理这些信息,如存储到数据库或者继续跟踪网页中的链接,抓取...

    Focused Crawler 聚焦爬虫

    ### Focused Crawler (聚焦爬虫):一种基于本体的聚焦爬虫方法 #### 摘要 本文介绍了一种新型的聚焦爬虫构建方法。聚焦爬虫的主要目标是有效地识别与预定义主题相关的网页,并下载这些页面,而不考虑它们在网络中...

    Android遍历测试appcrawler 2.1.3Jar包

    在Android开发过程中,自动化测试是不可或缺的一环,它能够有效地提高测试效率,减少手动测试的工作量,确保软件质量。本文将详细介绍"Android遍历测试appcrawler 2.1.3 Jar包"及其在自动化测试中的应用。 首先,...

    Crawler(网络爬虫)

    **网络爬虫(Crawler)基础** 网络爬虫是一种自动遍历互联网的程序,它能够按照一定的规则抓取网页信息并存储起来。在信息技术领域,爬虫被广泛应用于数据分析、搜索引擎索引、市场研究和自动化测试等多个场景。...

    Crawler通用爬虫.zip

    《通用爬虫技术详解——基于"Crawler通用爬虫.zip"》 爬虫技术是网络信息获取的重要手段,它能够自动化地遍历网页,提取所需的数据。"Crawler通用爬虫.zip"是一个强大的自定义模板爬虫工具,适用于任何可以通过...

Global site tag (gtag.js) - Google Analytics