nutch学习笔记1.crawl - Programme Experience - ITeye博客

`

peigang

浏览: 172425 次
性别:
来自: 北京

最近访客更多访客>>

yxmzhg

yexiaoshunfeier

wd1282988143

the12thwolf

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

小桔子： u 棒棒哒！按照你的搞定了，之前搞了好久！u 棒棒哒！！！ ...
Ubuntu为Tomcat启用80端口
u011938035：我用的是nutch1.7，org.apache.nutch.n ...
nutch1.4 URLNormalizers 详解
peigang：试试跟踪一下脚本，应该是环境变量的问题。
nutch1.4：爬虫定时抓取设置
zhangmj10：你好，看这帖子是好久以前的，不知道你能不能看到。不知道能不能帮 ...
nutch1.4：爬虫定时抓取设置
shinide1989：楼主你好，我正需要修改html的解析，并想把结果存为其他格 ...
nutch1.4插件开发

nutch学习笔记1.crawl

博客分类：

nutch

阅读更多

org.apache.nutch.crawl.crawl 类为nutch抓取封装类，引入并整合了如下几部分：

Injector injector = new Injector(conf); ///URL注入器对象；数据下载入口
Generator generator = new Generator(conf); ////生成器；生成待下载URL列表
Fetcher fetcher = new Fetcher(conf); //抓取器；按照HTTP协议访问互联网，获取网页数据具体内容。下载过程由下载列表和操作参数控制，直到下载完毕。
ParseSegment parseSegment = new ParseSegment(conf); //解析数据段；数据段（Segment）存放网络爬虫每一次抓取使用的待下载列表、已经获得的网页内容和本次内容的索引。
CrawlDb crawlDbTool = new CrawlDb(conf); //抓取数据库工具
LinkDb linkDbTool = new LinkDb(conf); //链接库工具

DeleteDuplicates dedup = new DeleteDuplicates(conf); //删除重复链接的对象

Indexer indexer = new Indexer(conf); //索引器

IndexMerger merger = new IndexMerger(conf); //索引器合并

在linux环境下执crawl.sh脚步会同时启动并顺序执行以上代码，直到索引器合并后完成一次抓取。抓取的时间和复杂度决定于原始抓取列表和抓取参数。

分享到：

nutch学习笔记2.Injector 数据下载入口 | ORACLE 最大连接

2012-02-10 13:30
浏览 883
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Nutch入门.rar: 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置........

nutch2.2.1安装步骤.docx: 4. 执行抓取周期：`bin/nutch crawl -i crawl` 注意，你需要根据实际的数据库连接信息更新 `gora.properties` 文件，例如设置 `db.url`、`db.driver`、`db.username` 和 `db.password`。在 Nutch 进行抓取时，...

nutch 初学文档教材: 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. ...

Lucene+Nutch搜索引擎开发.王学松源代码: 1. 学习Nutch的配置与启动，理解其工作流程，如如何设置爬虫规则，如何定义抓取间隔等。 2. 理解Lucene的索引构建过程，包括如何创建索引，如何进行关键词分析，以及如何优化索引性能。 3. 掌握搜索功能的实现，包括...

Nutch中文教程nutcher.zip: nutcher致力于为nutch提供一个较新的中文教程和文档，供开发者学习。 github地址： https://github.com/CrawlScript/nutcher 目录： Nutch教程——导入Nutch工程，执行完整爬取 ...

apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz: Apache Nutch 是一个开源的网络爬虫项目，用于抓取互联网上的网页并建立索引，以便进行全文搜索。Nutch 1.3 是该项目的一个稳定版本...无论是用于学术研究还是实际项目开发，Nutch 1.3 都是值得学习和探索的优秀工具。

nutch配置nutch-default.xml: nutch配置nutch-default.xml

nutch学习笔记之第一天初学: ### Nutch 学习笔记之第一天初学在IT领域，特别是搜索引擎开发和技术研究方向，Apache Nutch无疑是一个值得关注的开源项目。Nutch是Apache软件基金会的一个子项目，旨在为开发者提供一个高度可扩展且可定制化的...

Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx: 新建一个Java Application，主类设为`org.apache.nutch.crawl.Crawl`。在Program Arguments中输入`urls -dir crawl -depth 3 -topN 50`，VM Arguments中输入`-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log`。...

windows下nutch的安装.pdf: bin/nutch org.apache.nutch.searcher.NutchBean -searcher.dir /path/to/searcher /path/to/queryfile ``` 整个Nutch安装和运行过程涉及很多命令和参数，文档中还提到一些配置文件和参数的详细配置，包括但不限于：...

apache-nutch-2.3.1-src.tar.gz: Apache Nutch 是一个开源的网络爬虫项目，用于抓取互联网上的网页并建立索引，以便于搜索引擎进行高效检索。...通过深入学习和理解 Apache Nutch，你可以掌握网络爬虫的原理和实践，从而开发出适合自己需求的爬虫系统。

Linux下Nutch分布式配置和使用.rar: 这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档，但该文档适合所有Linux系统和目前各版本的nutch。目录介绍 ............................................................... 2 0 集群...

nutch爬虫系统分析.doc: Nutch爬虫系统分析 Nutch是一款开源的网络爬虫系统，能够高效地抓取网页内容并将其存储在数据库中。本文将对Nutch爬虫系统进行详细的分析，包括Nutch的体系结构、抓取部分、配置文件分析等方面。一、Nutch简介 ...

Lucene+nutch搜索引擎开发.part1.rar: Lucene nutch 搜索引擎开发 Part1

nutch入门实例教程.pdf: - **教育价值**: 学习 Nutch 可以帮助人们深入了解大型分布式搜索引擎的工作机制。 - **灵活性与可定制性**: Nutch 支持高度定制化，允许用户根据需求调整搜索结果展示方式。 - **目标**: - **高吞吐量**: 每月...

Nutch 1.3 学习笔记: ### Nutch 1.3 学习笔记：深入解析与应用 #### 一、Nutch 1.3：概述与核心功能 Nutch 1.3 是一款强大的、开源的网页抓取工具，专为大规模互联网数据抓取设计。它不仅能够收集网页数据，还能进一步分析、构建索引，...

Nutch 0.8笔记NUTCHNUTCH: 1. **文档阅读**：深入了解 Nutch 需要阅读官方提供的文档，如 "Introduction to Nutch, Part 1 Crawling" 和 "Introduction to Nutch, Part 2 Searching"，以及源代码。Nutch 的源码结构清晰，便于理解和学习。 2....

lucene2.4+nutch学习笔记三：lucene　在多个文本文档里找出包含一些关键字的文档: 《Lucene 2.4与Nutch学习笔记：在多文档中搜索关键词》 Lucene是一个高性能、全文检索库，而Nutch则是一个开源的网络爬虫项目，两者结合使用，能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...

nutch 搜索模块流程.doc: 首先，Nutch 的搜索模块位于 `nutch.searcher` 包下，它包含了实现搜索功能的所有类和接口。在实际应用中，通常会通过一个简单的 Java 主程序或 Web 应用来调用这些功能。文档中提到的 `nutchjsp` 可能是指一个简单...

Global site tag (gtag.js) - Google Analytics