crawler 的工作备忘 - 云计算_java 架构_开发管理 - ITeye博客

`

stephen80

浏览: 108639 次
性别:
来自: 北京

最近访客更多访客>>

wu1239

范泽添

guotufu

a1473321851

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

ansjsun：看了你的文章..做的东西..很让人兴奋啊...
今天设计了hadoop job tracker fault tolerant
jianyemaycry： ...
a java map reduce framework
stephen80：是的。我的代码有问题。引出程序设计的原则：1.不要尽可能的利用 ...
java SynchronousQueue 似乎有的一个bug

crawler 的工作备忘

博客分类：

search engine

工作 OSGI Eclipse 项目管理 SUN

阅读更多

1．   JMX ，java management extension

基本认为可以作为的可管理部分的基础架构

a.       sun 的缺省实现，基本可以满足需要

b.       jmx 被广泛认可

2. 学习 osgi 在 crawler 架构上的使用可行性



目前的进展，搜索到两个相关项目

   a. SMILA

http://wiki.eclipse.org/SMILA/Architecture_Overview

   b. Aperture
http://aperture.wiki.sourceforge.net/ApertureInOSGi

初步认识：

a.       osgi 是个不错的方向。

分享到：

hadoop 学习过程 | factorybean

2008-10-27 18:10
浏览 899
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

爬虫crawler4j源码+实例: **正文** `crawler4j` 是一个开源的Java库，...通过学习并理解其核心组件和工作原理，开发者可以快速构建出高效、可控的爬虫应用。在`crawler4j-master`压缩包中提供的源码和实例，将帮助你更好地理解和应用这个工具。

crawler4j-4.0: 这个压缩包包含了`crawler4j`的源代码，这对于学习和理解爬虫的工作原理以及进行定制化开发非常有帮助。以下是对`crawler4j`框架的详细介绍及其主要知识点： 1. **网页爬虫基础**：网页爬虫是一种自动遍历和抓取...

crawler-master_crawler_: 【标题】"crawler-master_crawler_" 指的可能是一个关于网络爬虫的项目，其中 "master" 通常表示这是项目的主要分支或者是最完整的版本。"crawler" 是这个项目的关键词，意味着它涉及到互联网数据抓取的技术，即网络...

ex-crawler: Ex-Crawler 是一款基于 Java 开发的网页抓取工具，专为高效且灵活的数据采集而设计。这款爬虫软件分为两个主要...通过熟练掌握 Ex-Crawler 的使用，开发者和数据分析师可以有效地自动化网络数据采集，提高工作效率。

appcrawler自动化测试实践.pdf: 【appcrawler自动化测试实践】 appcrawler是一款用于移动应用自动化测试的工具，尤其适用于进行稳定性测试。它基于Scala编程语言，并运行在Java虚拟机（JVM）上，利用“UI遍历”的理念，对应用程序的界面元素进行...

WebCrawler: WebCrawler是一个基于Java开发的爬虫框架，它主要用于网络数据的抓取和处理。作为一个高级的爬虫工具，WebCrawler具备了多种特性和功能，使得开发者能够更精细、定向地进行网络爬取任务。 1. **Java爬虫技术**： ...

Crawler_crawler_: 标题"Crawler_crawler_"暗示了我们讨论的主题是关于网络爬虫（Crawler）的一个项目或者实现，这通常涉及从互联网上自动抓取信息的技术。在这个描述中，“可以指定内容的简单爬虫”意味着该爬虫被设计成可以针对特定...

TK-crawler.pyTK-crawler.pyTK-crawler.py: TK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_...

Crawler: 【标题】"Crawler"指的是一个网络爬虫项目，它是一个用于自动抓取网页信息的程序。网络爬虫是互联网信息搜集的重要工具，通过模拟浏览器的行为，遍历和下载网页，进而实现对互联网数据的抓取和分析。【描述】"一个...

crawler4j源码: 【标题】"crawler4j源码" 是一个用于网络爬虫开发的开源库，它为Java开发者提供了一种简单易用的方式来实现网页抓取。这个库由Ahmet Alp Balkan和Ali Sol编写，旨在简化网页抓取过程，使得开发者可以专注于业务逻辑...

crawler spider web爬虫: 同时，“希望对你有用”表明这个项目不仅是一个工作原型，而且具备实用性，可以为其他开发者提供参考或作为基础框架。【标签】"crawler"和"spider"进一步明确了主题，"crawler"是网络爬虫的英文术语，而"spider...

Java-Web-crawler-spider.rar_JAVA web 爬虫_Java spider_crawler_spid: 首先，我们要理解Web爬虫的基本工作原理。Web爬虫通过模拟浏览器向服务器发送HTTP请求，获取网页HTML内容，然后解析HTML提取所需信息，再按照一定的规则处理这些信息，如存储到数据库或者继续跟踪网页中的链接，抓取...

Focused Crawler 聚焦爬虫: ### Focused Crawler (聚焦爬虫)：一种基于本体的聚焦爬虫方法 #### 摘要本文介绍了一种新型的聚焦爬虫构建方法。聚焦爬虫的主要目标是有效地识别与预定义主题相关的网页，并下载这些页面，而不考虑它们在网络中...

Android遍历测试appcrawler 2.1.3Jar包: 在Android开发过程中，自动化测试是不可或缺的一环，它能够有效地提高测试效率，减少手动测试的工作量，确保软件质量。本文将详细介绍"Android遍历测试appcrawler 2.1.3 Jar包"及其在自动化测试中的应用。首先，...

Crawler（网络爬虫）: **网络爬虫（Crawler）基础** 网络爬虫是一种自动遍历互联网的程序，它能够按照一定的规则抓取网页信息并存储起来。在信息技术领域，爬虫被广泛应用于数据分析、搜索引擎索引、市场研究和自动化测试等多个场景。...

Crawler通用爬虫.zip: 《通用爬虫技术详解——基于"Crawler通用爬虫.zip"》爬虫技术是网络信息获取的重要手段，它能够自动化地遍历网页，提取所需的数据。"Crawler通用爬虫.zip"是一个强大的自定义模板爬虫工具，适用于任何可以通过...

crawler4j所有依赖包: 开源爬虫项目crawler4j所有依赖包

Laravel开发-laravel-crawler: 3. **分布式爬虫**：laravel-crawler利用分布式策略，可以将爬取任务分配到多个节点上，每个节点独立工作并处理一部分任务，从而实现大规模网站的高效抓取。这通常涉及到任务调度、数据同步和错误处理等复杂问题，...

Global site tag (gtag.js) - Google Analytics