`
backsnow
  • 浏览: 131999 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

nutch的配置文件理解

阅读更多

nutch的配置文件我们可以从Crawl.java中看起,在main函数中, 首先加载配置类: Configuration conf = NutchConfiguration.createCrawlConfiguration();,其中createCrawlConfiguration()类为

  public static Configuration createCrawlConfiguration() {
    Configuration conf = new Configuration();
    addNutchResources(conf, true);
    return conf;
  }

 Configuration加载hadoop的配置文件,NutchResources加载nutch-default.xml,crawl-tool.xml和nutch-site.xml,越后面加载优先级越高。

 

  private static Configuration addNutchResources(Configuration conf,
                                                 boolean crawlConfiguration) {
    conf.addResource("nutch-default.xml");
    if (crawlConfiguration) {
      conf.addResource("crawl-tool.xml");
    }
    conf.addResource("nutch-site.xml");
    return conf;
  }

 在nutch-default.xml中有parse.plugin.file项,用来定义content-type和parsers的联系,映射到parse-plugin.xml文件。

 

parse-plugin.xml文件定义了contentType="text/html"和id parse-html对应,而parse-html的值为org.apache.nutch.parse.html.HtmlParser类,即利用这个类来处理html网页的解析。

分享到:
评论
1 楼 backsnow 2011-03-29  
Content content;
Content类中有一个成员变量byte[] content,不要混淆了。
在HtmlParser.java的主函数里,getParse传入参数content.content(byte[],即整个html网页内容),函数将content.content转化为InputSource对象,交给parse处理,parse->parseNeko->parse(Nekohtml的parse实现), NekoHtml将网页内容转化为XMLInputSource格式,传入xerces的XMLParserConfiguration.parse(inputSource)来处理

相关推荐

    Nutch_的配置文件

    Nutch 是一个开源的搜索引擎项目,它主要用于网络爬虫和网页索引。在Nutch的运行过程中,...总之,理解和熟练掌握Nutch的配置文件及其加载机制是有效利用Nutch的关键步骤,它有助于构建高效、定制化的网络爬虫系统。

    eclipse配置nutch,eclipse配置nutch

    通过右键点击项目名,选择“Properties > Java Build Path > Source”,然后点击“Add Folder”按钮,将“conf”文件夹添加进来,这是Nutch配置文件所在的位置,对于项目的运行至关重要。 #### 步骤3:处理依赖库 ...

    图解搜索引擎nutch配置

    ### 图解搜索引擎Nutch配置详解 #### 一、前言 Nutch 是一款开源的网络爬虫项目,它能够从互联网上抓取网页并构建索引。本文将通过图文结合的方式,详细介绍如何在Windows环境下配置Nutch搜索引擎。由于网上关于...

    搜索引擎nutch配置

    在开始Nutch配置之前,确保你已安装了Java运行环境(JRE)和Java开发工具(JDK),版本至少为1.8。同时,你需要一个支持Hadoop的环境,如Hadoop单机模式或伪分布式模式。如果你打算使用Solr或Elasticsearch作为检索...

    nutch 详细分析(包括配置文件等)

    在实际使用中,理解并调整这些配置文件对于优化Nutch的性能和满足特定需求至关重要。例如,调整抓取频率可以控制抓取速度,避免对目标网站造成过大压力;定制URL过滤规则可以确保只抓取感兴趣的内容;选择合适的解析...

    windows下的nutch配置总结

    - 提供的`.chm`和`.doc`文件很可能是Nutch配置的详细指南或教程,这些文档可以帮助理解配置过程中的细节,解决遇到的问题。 10. **扩展和优化**: - Nutch允许自定义插件来扩展其功能,例如解析特定格式的文件,...

    Nutch安装配置

    需要在Nutch配置文件中指定Hadoop的路径,确保Hadoop已经正确安装并启动。Nutch与Hadoop的集成涉及到修改`conf/nutch-site.xml`文件。 6. **配置Nutch**:修改`conf/nutch-site.xml`文件以设置抓取策略、存储位置、...

    nutch安装开发环境的配置

    在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...

    nutch使用&Nutch;入门教程

    三、Nutch配置与设置 在使用Nutch之前,你需要配置Nutch的运行环境,包括安装Java、设置Hadoop(如果需要分布式爬取)、下载和编译Nutch源代码。还需要配置Nutch的`conf/nutch-site.xml`文件,指定抓取策略、存储...

    nutch

    Nutch 的配置文件(如 `conf/nutch-site.xml`)需要根据实际需求进行调整,比如设置抓取策略、设置抓取间隔、调整抓取范围等。Nutch 还提供了命令行工具,如 `bin/nutch crawl`,用于启动爬虫流程。 **Nutch 入门...

    nutch2.2.1-src

    7. **配置文件**:Nutch的配置文件非常重要,它们定义了爬虫的行为、抓取策略、抓取间隔、存储路径等参数。开发者可以通过修改配置文件来调整Nutch的行为。 配合博客文章`...

    nutch爬虫资料

    例如,可能会讲解如何定制Nutch的配置文件以适应特定的抓取需求,如何避免重复抓取和IP封锁问题,以及如何调整抓取速度和深度。此外,还可能探讨Nutch与其他大数据工具如Solr或Elasticsearch的集成,用于构建全文...

    apache-nutch-1.6-src.tar.gz

    2. **配置文件**:在`conf`目录下,有默认的Nutch配置文件,如`nutch-site.xml`,定义了Nutch运行时的各种参数,如抓取间隔、抓取策略、存储路径等。用户可以根据实际需求修改这些配置。 3. **插件框架**:Nutch...

    Nutch 1.2源码阅读

    具体而言,会加载`nutch-default.xml`、`crawl-tool.xml`(可选)和`nutch-site.xml`这三个配置文件,分别代表默认配置、爬虫特有配置和用户自定义配置。这些配置文件对Nutch的行为和性能具有决定性的影响。 #### ...

    mp3文件信息解析-nutch使用

    5. **配置调整**:在Nutch的配置文件中,设置相应的解析优先级和处理策略。 压缩包子文件的文件名称列表中提到了"org",这可能是指Nutch相关的源代码包或类库。在实际操作中,开发者可能需要查看Nutch的源代码,...

    nutch2.2.1安装步骤.docx

    2. 配置 Nutch 的抓取配置文件,如 `conf/nutch-site.xml` 和 `conf/gora.properties`。 3. 添加种子 URL:`bin/nutch inject urls` 4. 执行抓取周期:`bin/nutch crawl -i crawl` 注意,你需要根据实际的数据库...

    Nutch入门教程 高清 带书签

    学习Nutch,需要熟悉其配置文件,如`conf/nutch-site.xml`,其中包含了各种参数设置,如抓取间隔、抓取策略、存储路径等。同时,还需要配置`conf/regex-urlfilter.txt`和`conf/fetcher.properties`等文件,以实现...

    nutch开发资料 搜索引擎

    这个开发资料压缩包包含了与Nutch相关的源代码和可能的配置文件,可以帮助开发者深入了解和学习Nutch的工作原理以及如何进行定制化开发。以下是对Nutch及其相关知识点的详细介绍: 1. **Nutch介绍**:Nutch是一个...

    windows下nutch的安装.pdf

    5. Nutch配置文件:如nutch-site.xml、nutch-default.xml等。 安装过程中,首先需要在Windows系统上安装Cygwin,安装完成后,需指定JDK的安装路径,这通常是在环境变量中设置NUTCH_JAVA_HOME。在Cygwin的终端中,...

    nutch的源码解读和nutch入门

    5. **配置与插件机制**:Nutch 具有丰富的配置选项,可以通过修改 `nutch-default.xml` 和 `nutch-site.xml` 文件进行定制。同时,Nutch 提供了插件系统,用户可以自定义 `Fetcher`、`Parser` 和 `Indexer` 等组件,...

Global site tag (gtag.js) - Google Analytics