1、controller.getFetchChain().process(curi,this);
1.1、org.archive.crawler.prefetch.Preselector,
1.2、org.archive.crawler.prefetch.PreconditionEnforcer,
1.3、org.archive.modules.fetcher.FetchDNS,
//httpclient
1.4、org.archive.modules.fetcher.FetchHTTP,
1.5、org.archive.modules.extractor.ExtractorHTTP,
1.6、org.archive.modules.extractor.ExtractorHTML,
1.7、org.archive.modules.extractor.ExtractorCSS,
1.8、org.archive.modules.extractor.ExtractorJS,
1.9、org.archive.modules.extractor.ExtractorSWF
2、controller.getFrontier().beginDisposition(curi);
BdbFrontier.beginDisposition(curi)
3、controller.getDispositionChain().process(curi,this);
3.1、org.archive.modules.writer.MirrorWriterProcessor
//getCandidateChain().process(prereq, null);//add seeds
3.2、org.archive.crawler.postprocessor.CandidatesProcessor
//run isInScope(curi)
3.2.1、org.archive.crawler.prefetch.CandidateScoper
3.2.2、org.archive.crawler.prefetch.FrontierPreparer
// set schedulingDirective
3.2.2.1、curi.setSchedulingDirective(getSchedulingDirective(curi));
// set canonicalized version
3.2.2.2、curi.setCanonicalString(canonicalize(curi));
// set queue key
3.2.2.3、curi.setClassKey(getClassKey(curi));
// set cost
3.2.2.4、curi.setHolderCost(getCost(curi));
// set URI precedence
3.2.2.5、getUriPrecedencePolicy().uriScheduled(curi);
3.3、org.archive.crawler.postprocessor.DispositionProcessor
分享到:
相关推荐
11. `org.archive.crawler.framework`:Heritrix的框架包,定义了核心类如CrawlController(爬虫控制器)和Frontier(调度器),是整个系统架构的基础。 12. `org.archive.crawler.framework.exceptions`:框架异常...
- **`org.archive.crawler.framework`**:Heritrix的核心框架包,包含关键类如`CrawlController`(爬虫控制器)和`Frontier`(调度器)等。 - **`org.archive.crawler.framework.exceptions`**:定义Heritrix框架...
TK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_...
- 选择Post Processors,依次选择`org.archive.crawler.postprocessor.CrawlStateUpdater`、`org.archive.crawler.postprocessor.LinksScoper`和`my.postprocessor.FrontierSchedulerTaobaoKongtiao`。 4. 设置其他...
Wechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zip
app自动化测试工具,能够自动点击ui界面实行测试分析,是移动测试的利器
**Node.js-baha-crawler.js 爬虫模块详解** `Node.js-baha-crawler.js` 是一个专门针对巴哈姆特(Bahamut)各板块数据进行抓取的爬虫模块,它利用了Node.js的特性,为开发者提供了一个方便、高效的工具,用于获取...
压缩包"antivanov-js-crawler-c60b879"可能包含了js-crawler的源代码,版本c60b879,用户可以查看源码了解其具体实现细节,也可以根据项目需求进行定制和扩展。如果你打算使用js-crawler,记得先阅读官方文档,了解...
crawler.crawl({ url: 'http://example.com', callback: function(error, response, done) { if (!error && response.statusCode === 200) { console.log(response.body); } } }); ``` 在这个例子中,`crawl`...
在给定的标题和描述中,我们关注的是一个名为`ptt-crawler.js`的模块,这是一个专门用于爬取台湾知名论坛批踢踢(Ptt)数据的爬虫工具。 批踢踢(Ptt)是台湾最大的网络论坛,拥有众多讨论版块,涵盖了各种话题。`...
总结起来,"html-crawler.zip_in_org.jsoup.Jsoup"是一个基于Jsoup库的Java实现的HTML爬虫项目,它利用Jsoup的强大功能解析HTML文档,提取所需信息。在开发这样的爬虫时,我们需要熟悉Jsoup的API,理解HTML结构,...
文本处理(text_processing.py)、文本挖掘(text_mining.py)、新闻爬取(crawler_cnstock.py,crawler_jrj.py,crawler_nbd.py,crawler_sina.py,crawler_stcn.py)、Tushare数据提取(crawler_tushare.py) ...
标题中的"PyPI 官网下载 | crawler_framework-0.3.2.tar.gz"表明了这是一个在Python Package Index(PyPI)上发布的软件包,名为`crawler_framework`,其版本号为0.3.2,且是以tar.gz格式压缩的。PyPI是Python开发者...
- `org.archive.crawler`: 这是核心爬虫模块,实现了爬虫的基本逻辑,包括URL队列管理、爬取策略、重试机制等。 - `org.archive.net`: 提供HTTP和HTTPS协议的支持,处理网络连接和请求响应。 - `org.archive.io`:...
A scalable web crawler framework for Java.
1、对应Crawler4j的版本应该是3.5。 2、http://code.google.com/p/crawler4j -> Source -> Checkout上用Git Clone失败。 3、采用最笨的方法从 Source -> Browse上把文件一个一个拷贝下来,自己新建的Java项目,包...
simil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_...
安装环境 Git NodeJS + NPM 安装方法 git clone https://github.com/i-c0112/playground.nodejs.node-crawler.git crawl && cd crawl npm install 执行方法 npm test 输出结果 output/<itemID>.html
在本文中,我们将深入探讨如何使用JavaFX框架开发一个基于crawler4j的图形化网络爬虫,以及如何自定义XPath表达式来提取网页内容,并将其存储到MySQL数据库中。这是一项涉及多方面技术的综合性任务,包括前端界面...