`
peigang
  • 浏览: 170616 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch学习笔记1.crawl

 
阅读更多

org.apache.nutch.crawl.crawl 类为nutch抓取封装类,引入并整合了如下几部分:

Injector injector = new Injector(conf); ///URL注入器对象;数据下载入口
Generator generator = new Generator(conf); ////生成器;生成待下载URL列表
Fetcher fetcher = new Fetcher(conf); //抓取器;按照HTTP协议访问互联网,获取网页数据具体内容。下载过程由下载列表和操作参数控制,直到下载完毕。
ParseSegment parseSegment = new ParseSegment(conf); //解析数据段;数据段(Segment)存放网络爬虫每一次抓取使用的待下载列表、已经获得的网页内容和本次内容的索引。
CrawlDb crawlDbTool = new CrawlDb(conf); //抓取数据库工具
LinkDb linkDbTool = new LinkDb(conf); //链接库工具

DeleteDuplicates dedup = new DeleteDuplicates(conf); //删除重复链接的对象

Indexer indexer = new Indexer(conf);    //索引器

IndexMerger merger = new IndexMerger(conf);        //索引器合并

在linux环境下执crawl.sh脚步会同时启动并顺序执行以上代码,直到索引器合并后完成一次抓取。抓取的时间和复杂度决定于原始抓取列表和抓取参数。

 

分享到:
评论

相关推荐

    Nutch入门.rar

    1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置........

    nutch2.2.1安装步骤.docx

    4. 执行抓取周期:`bin/nutch crawl -i crawl` 注意,你需要根据实际的数据库连接信息更新 `gora.properties` 文件,例如设置 `db.url`、`db.driver`、`db.username` 和 `db.password`。 在 Nutch 进行抓取时,...

    nutch 初学文档教材

    1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. ...

    Lucene+Nutch搜索引擎开发.王学松源代码

    1. 学习Nutch的配置与启动,理解其工作流程,如如何设置爬虫规则,如何定义抓取间隔等。 2. 理解Lucene的索引构建过程,包括如何创建索引,如何进行关键词分析,以及如何优化索引性能。 3. 掌握搜索功能的实现,包括...

    Nutch中文教程nutcher.zip

    nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: https://github.com/CrawlScript/nutcher 目录: Nutch教程——导入Nutch工程,执行完整爬取 ...

    apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 1.3 是该项目的一个稳定版本...无论是用于学术研究还是实际项目开发,Nutch 1.3 都是值得学习和探索的优秀工具。

    nutch配置nutch-default.xml

    nutch配置nutch-default.xml

    nutch学习笔记之第一天初学

    ### Nutch 学习笔记之第一天初学 在IT领域,特别是搜索引擎开发和技术研究方向,Apache Nutch无疑是一个值得关注的开源项目。Nutch是Apache软件基金会的一个子项目,旨在为开发者提供一个高度可扩展且可定制化的...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    新建一个Java Application,主类设为`org.apache.nutch.crawl.Crawl`。在Program Arguments中输入`urls -dir crawl -depth 3 -topN 50`,VM Arguments中输入`-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log`。...

    windows下nutch的安装.pdf

    bin/nutch org.apache.nutch.searcher.NutchBean -searcher.dir /path/to/searcher /path/to/queryfile ``` 整个Nutch安装和运行过程涉及很多命令和参数,文档中还提到一些配置文件和参数的详细配置,包括但不限于:...

    apache-nutch-2.3.1-src.tar.gz

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效检索。...通过深入学习和理解 Apache Nutch,你可以掌握网络爬虫的原理和实践,从而开发出适合自己需求的爬虫系统。

    Linux下Nutch分布式配置和使用.rar

    这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。 目 录 介绍 ............................................................... 2 0 集群...

    nutch爬虫系统分析.doc

    Nutch爬虫系统分析 Nutch是一款开源的网络爬虫系统,能够高效地抓取网页内容并将其存储在数据库中。本文将对Nutch爬虫系统进行详细的分析,包括Nutch的体系结构、抓取部分、配置文件分析等方面。 一、Nutch简介 ...

    Lucene+nutch搜索引擎开发.part1.rar

    Lucene nutch 搜索引擎开发 Part1

    nutch入门实例教程.pdf

    - **教育价值**: 学习 Nutch 可以帮助人们深入了解大型分布式搜索引擎的工作机制。 - **灵活性与可定制性**: Nutch 支持高度定制化,允许用户根据需求调整搜索结果展示方式。 - **目标**: - **高吞吐量**: 每月...

    Nutch 1.3 学习笔记

    ### Nutch 1.3 学习笔记:深入解析与应用 #### 一、Nutch 1.3:概述与核心功能 Nutch 1.3 是一款强大的、开源的网页抓取工具,专为大规模互联网数据抓取设计。它不仅能够收集网页数据,还能进一步分析、构建索引,...

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    《Lucene 2.4与Nutch学习笔记:在多文档中搜索关键词》 Lucene是一个高性能、全文检索库,而Nutch则是一个开源的网络爬虫项目,两者结合使用,能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...

    nutch 搜索模块流程.doc

    首先,Nutch 的搜索模块位于 `nutch.searcher` 包下,它包含了实现搜索功能的所有类和接口。在实际应用中,通常会通过一个简单的 Java 主程序或 Web 应用来调用这些功能。文档中提到的 `nutchjsp` 可能是指一个简单...

    apache-nutch-1.7-src.tar.gz

    它通过跟踪网页中的链接来发现新的页面,这一过程由`src/java/org/apache/nutch/crawl`目录下的类负责,如`Fetcher`和`Injector`。 2. **解析(Parsing)**:抓取到的网页需要被解析以提取有用的信息。Nutch使用...

Global site tag (gtag.js) - Google Analytics