`

nutch对某个contentType文档进行解析的流程--html

 
阅读更多

经过上一遍contentType流程 介绍后,现在进入具体的针对html文档的解析过程介绍。

 

在ParseUtil#getParse()中,  当选定一种parser(  这里是HtmlParser)后,便 进入到对应 的getParse方法中。

大概步骤是:

1.猜测页面的最佳编码;

2.解析页面中特定的meta,如robots,base等元数据;

3.检查是否可以index或follow(fetch outlinks)

4.处理redir问题;

5.调用html pares filters进行对html的进一步过滤 。注意这个步骤是不太重要的,而且针对这个默认只有parse-js插件可用。当然还有parse-microformats,parse-creativecommons等可用。

6.检查页面是否可以cache。其实 这个就是在输出内容到页面时,是否打开快照的依据呀。

 

 

分享到:
评论

相关推荐

    nutch帮助文档;nutch学习 入门

    - **理解配置**:熟悉Nutch的配置文件,如`conf/nutch-site.xml`,了解其主要参数和用途。 - **编写种子列表**:定义初始的URL集合(种子),这是爬虫的起点。 - **运行Nutch流程**:执行`bin/nutch crawl`命令,...

    mp3文件信息解析-nutch使用

    Nutch的`parse-html`模块负责解析HTML文档,如果进行了定制,可能包含了针对MP3链接的特殊处理逻辑,例如提取链接的元数据,或者对嵌入在网页中的MP3进行处理。 在Nutch中,可以编写自定义解析器来处理特定类型的...

    分析Nutch的工作流程

    Nutch的工作流程是一个复杂但高效的过程,它通过一系列精心设计的步骤来完成对互联网内容的抓取、解析和索引。通过上述分析,我们可以看出每个步骤都至关重要,且相互之间紧密关联。从初始URL集合的构建到最终索引的...

    Nutch插件开发文档

    - **IndexingFilter**:负责对即将建立索引的文档字段进行过滤操作,以确保只有符合要求的内容被索引。 - **URLFilter**:用于过滤URL地址,例如排除不感兴趣的站点或路径。 - **HtmlParseFilter**:对页面解析后的...

    nutch1.4帮助文档

    nutch1.4帮助文档,学习nutch1.4必备,最新nutch1.4核心类解读!

    nutch 初学文档教材

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....

    Nutch简要文档

    此外,Nutch 的配置文件如 `nutch-site.xml` 是至关重要的,它定义了 Nutch 的各种参数,如抓取策略、解析器设置等,根据实际需求调整这些配置可以优化爬虫性能。 总的来说,Nutch 是一个强大的Web抓取和索引工具,...

    apache-nutch-2.3.1-src.tar.gz

    5. **配置文件**:如 `conf/nutch-default.xml` 和 `conf/nutch-site.xml`,分别包含 Nutch 的默认配置和用户自定义配置。 6. **抓取策略**:Nutch 支持基于链接的抓取策略,如 PR(PageRank)和 TF-IDF(Term ...

    apache-nutch-1.4

    - **配置文件**:Nutch的运行依赖于一系列配置文件,如`conf/nutch-site.xml`,用户可以通过修改这些文件来定制爬虫行为。 - **插件系统**:Nutch支持丰富的插件体系,如URL过滤器、解析器、索引器等,开发者可以...

    apache-nutch-1.16.rar 已编译好的版本,可以直接导入eclipse、idea

    1. **导入项目**:首先,你需要在Eclipse或IDEA中创建一个新的Java项目,然后将解压后的`apache-nutch-1.16`目录作为项目的根目录导入。在IDE中,这通常通过"Import Existing Project"或"Open Project"功能完成。 2...

    nutch1.2测试文档

    nutch1.2测试文档

    Nutch 安装与配置文档

    在实际使用中,根据具体需求可能还需要对Nutch的其他配置文件进行调整,如`conf/nutch-default.xml`和`conf/nutch-site.xml`,以便优化抓取策略和索引设置。同时,了解Nutch的抓取流程和原理,对于进行更高级的网络...

    nutch2.3.1安装文档教程

    <value>protocol-httpclient|urlfilter-regex|index-(basic|more)|query-(basic|site|url|lang)|indexer-solr|nutch-extensionpoints|protocol-httpclient|urlfilter-regex|parse-(text|html|msexcel|msword|...

    apach-nutch-1.9-bin.tar.gz

    4. **配置与部署**:解压 "apache-nutch-1.9" 文件后,需要根据你的环境配置`conf/nutch-site.xml`文件,设置包括抓取间隔、并发度、存储路径等参数。同时,可能还需要配置`conf/regex-urlfilter.txt`和`conf/...

    Nutch 解析器parse部分代码笔记

    通过对Nutch解析器中`parse`方法的深入分析,我们可以了解到该方法是如何高效地从原始HTML文档中抽取有价值的信息。这一过程不仅涉及到了DOM解析技术的应用,还涉及到状态管理和数据结构的设计等多个方面。对于...

    apache-nutch-1.4-bin.tar.gz

    在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...

    Nutch API帮助文档

    Nutch API帮助文档,学习Nutch必备

Global site tag (gtag.js) - Google Analytics