`
sharp-fcc
  • 浏览: 110425 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch crawler 解析 下

阅读更多

好,咱们继续。

parse

$bin/nutch parse $commonOptions $skipRecordsOptions $CRAWL_PATH/segments/$SEGMENT

CLASS=org.apache.nutch.parse.ParseSegment

这就是传说中的解析网页内容的操作。

map中:

首先只解析成功的内容,看上一步返回的状态码,如果不是成功的情况直接 return . 下一步又是通过插件来解析文本的,看来得重开一篇专门讲插件的, 干活都在插件中。 

 

updatedb

$bin/nutch updatedb $commonOptions $CRAWL_PATH/crawldb  $CRAWL_PATH/segments/$SEGMENT

CLASS=org.apache.nutch.crawl.CrawlDb

更新 crawlDb中的内容了。

map中:

万年不变的 urlfilter  urlNormalizers  这一步看吐了。

然后根据 segments 下面 fetch 和 parse 中的内容更新 crawlDB 。为下一轮抓取做一些准备。

 

下一个操作是invertlinks 跟抓取没有什么关系。暂时忽略吧。

分享到:
评论

相关推荐

    semantics:OWL本体描述BCube Nutch Crawler发现的Web服务

    标题中的“semantics:OWL本体描述BCube Nutch Crawler发现的Web服务”揭示了这个项目的核心内容,它涉及到语义网(Semantic Web)的一个关键组件——OWL(Web Ontology Language),以及如何利用Nutch爬虫在BCube...

    nutch帮助文档;nutch学习 入门

    Nutch是一个高度可扩展的开源搜索引擎,它提供了网页抓取、解析、过滤、索引和搜索等功能。Nutch最初设计的目标是创建一个与商业搜索引擎相媲美的开放源代码搜索解决方案,用于企业内部或特定领域的信息检索。 2. ...

    Apache Nutch v1.15

    Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。 大数据这个术语最早的引用可追溯到Nutch...

    开发基于 Nutch 的集群式搜索引擎

    Nutch的架构设计可以分为两个主要部分:抓取器(Crawler)和搜索器(Searcher)。抓取器负责抓取网页内容,而搜索器则负责处理用户的查询请求。具体来说: 1. **抓取器**:抓取器的工作流程如下: - 从一个或多个...

    nutch1.2源码

    这个过程涉及的文件包括`conf`目录下的配置文件,如`nutch-site.xml`,以及`bin`目录下的脚本文件,如`nutch crawl`命令。 总的来说,Apache Nutch 1.2是构建大规模搜索引擎或进行网络数据分析的理想工具,它与...

    Nutch design and tutorial

    2. **URL选择**:Nutch使用URL队列(如PriorityQueue)和调度算法(如BestFirst)来决定下一步抓取哪个URL。 3. **页面下载**:Fetcher组件负责下载选定的URL对应的页面。 4. **页面解析**:Parser组件将HTML内容...

    nutch爬虫+java+eclipse

    3.4 运行Nutch:在Eclipse中,可以直接运行Nutch的main方法,如org.apache.nutch.crawl.Crawler,来启动爬虫。也可以通过命令行执行bin/nutch命令。 3.5 监控和调试:Eclipse提供了强大的调试工具,可以帮助开发者...

    apache-nutch-1.4-src.tar.gz_nutch_搜索引擎

    1. **网络爬虫(Crawler)**:Nutch 的网络爬虫负责发现和下载互联网上的网页。它使用种子URL列表开始,通过页面上的链接进行深度遍历,生成待抓取队列。Nutch 使用了高效的URL管理机制,确保已抓取和待抓取的URL不...

    如何通过java程序获得Nutch中网页的详细信息

    例如,`org.apache.nutch.crawl.Crawler`类可以用于启动爬虫,而`org.apache.nutch.indexer.NutchIndexWriter`则用于写入索引。 2. **Segment Reader**:为了访问已分割的段,你需要使用`org.apache.nutch.segment....

    apache-nutch-1.13-src.zip_nutch_网络爬虫

    1. **抓取**:Nutch 使用种子URL开始,通过解析页面中的链接进行深度优先或广度优先的遍历,不断发现新的网页。它还支持反向链接分析,以提高抓取的效率和覆盖率。 2. **下载**:Nutch 可以下载抓取到的网页,并...

    apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

    1. **Crawler**: 负责按照预定的抓取策略,发现新的网页并跟踪网页链接。 2. **Fetcher**: 下载抓取队列中的网页内容。 3. **Parser**: 解析下载的HTML,提取有用的信息如文本、标题、链接等。 4. **Analyzer**: 对...

    Nutch环境搭建文档

    Nutch的发展历程中,它与Hadoop、Tika、Gora以及crawler-commons等技术紧密相关,不断优化其架构和功能,以支持大规模的Web数据处理和高效搜索。 Nutch的核心价值在于提供了一个透明且公正的搜索解决方案,与商业化...

    Nutch 安装ppt

    - **Nutch 爬虫(Nutch Crawler)**:负责从网站上抓取网页,并对抓取的网页进行解析。 - **Hadoop**:用于存储爬虫解析后的数据。Hadoop 同样是 Apache 的顶级项目之一,最初起源于 Nutch 项目。 - **Solr**:这是...

    Apache Nutch v2.3.1

    Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。大数据这个术语最早的引用可追溯到Nutch。...

    apache nutch 2.2 linux

    1. **Web Crawler**: Nutch 的主要功能是作为网络爬虫,它会遵循用户设定的种子 URL,按照一定的策略(如深度优先或广度优先)遍历互联网上的网页。 2. **URL管理器(URL Frontier)**: 负责管理待抓取和已抓取的 ...

    Nutch爬虫工作流程及文件格式详细分析

    Searcher使用Nutch生成的全局索引,通过Lucene的查询解析和排名算法,提供高效的搜索服务。 总的来说,Nutch爬虫的工作流程和文件格式设计旨在实现高效、分布式的网页抓取,并为后续的搜索服务提供基础。通过对...

    nutch0。9版本

    1. **Web 爬虫(Web Crawler)**:Nutch 的核心功能之一是其高效的 Web 爬虫,能够自动发现并抓取互联网上的网页。这个爬虫使用种子 URL 开始,通过解析 HTML 页面中的链接进行深度遍历,持续抓取新的页面。Nutch 的...

    windows下nutch的安装配置以及与tomcat的集成.doc

    - 在Cygwin中,执行`bin/nutch crawl urls-dir crawl-depth 5 threads 4 topN 50`,参数解析如下: - `urls-dir`:指定URL文件夹路径。 - `crawl-depth`:定义抓取深度,数字越大,抓取范围越广。 - `threads`:...

Global site tag (gtag.js) - Google Analytics