`
phoenixfm
  • 浏览: 15484 次
  • 性别: Icon_minigender_1
  • 来自: 合肥
社区版块
存档分类
最新评论

nutch配置文件调用说明

阅读更多
org\apache\nutch\util下的NutchConfiguration.java在NUTCH中占有重要地位,他读取"nutch-default.xml"和"nutch-site.xml"两个配置文件。NUTCH的其他工具都有一个Configuration对象,这个读取就一般用NutchConfiguration实例化,从而获得该工具相应的配置参数。如URL过滤工具就会在nutch-default.xml寻找相关的配置文件regex-urlfilter.txt、automaton-urlfilter.txt、prefix-urlfilter.txt、suffix-urlfilter.txt从而获取相应的过滤规则。
另一关键点是:nutch-default.xml还通过plugin.includes属性找到需要的扩展插件(Extention),默认的插件是protocol-http|urlfilter-regex|parse-(text|html|js)|index-basic|query-(basic|site|url)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)(利用与正则表达式对插件进行过滤)
Extention在NUTCH中扮演重要角色,网页抓取、URL过滤功能都是通过插件实现的。
分享到:
评论

相关推荐

    Nutch_的配置文件

    在Nutch的运行过程中,配置文件起着至关重要的作用,它们定义了Nutch的行为方式和各种参数设置。Nutch的配置文件主要分为三类: 1. **Hadoop的配置文件**:包括`Hadoop-default.xml`和`Hadoop-site.xml`。`Hadoop-...

    Nutch程序运行环境配置

    4. **Nutch配置文件**: - Nutch运行还需要配置一系列的配置文件,如`conf/nutch-site.xml`、`conf/crawldb.xml`、`conf/regex-urlfilter.txt`等,这些文件定义了爬虫的行为,如抓取策略、存储位置、抓取间隔等。 ...

    Nutch 1.2源码阅读

    具体而言,会加载`nutch-default.xml`、`crawl-tool.xml`(可选)和`nutch-site.xml`这三个配置文件,分别代表默认配置、爬虫特有配置和用户自定义配置。这些配置文件对Nutch的行为和性能具有决定性的影响。 #### ...

    nutch的源码解读和nutch入门

    5. **配置与插件机制**:Nutch 具有丰富的配置选项,可以通过修改 `nutch-default.xml` 和 `nutch-site.xml` 文件进行定制。同时,Nutch 提供了插件系统,用户可以自定义 `Fetcher`、`Parser` 和 `Indexer` 等组件,...

    开发基于 Nutch 的集群式搜索引擎

    - 在Nutch配置文件中添加目标网站的URL。 - 运行Nutch爬虫任务。 - 观察抓取进度和结果。 4. **使用Nutch检索器API**: - 开发一个简单的用户界面,允许用户输入搜索关键词。 - 调用Nutch检索器API来获取搜索...

    nutch的插件机制

    要使用Nutch插件,开发者需要在`conf/nutch-site.xml`配置文件中添加插件的名称到`plugin.includes`列表中。每个插件都有一个`plugin.xml`文件,用于描述插件信息,以及一个`build.xml`文件,指导Ant构建工具如何...

    Nutch 0.8笔记NUTCHNUTCH

    Nutch 的日志信息现在被默认输出到 `/logs` 目录下,除非在配置文件中将 `fetcher.verbose` 设置为 `true`。Luke 工具对于查看和理解索引内容非常有用,而 Nutch 在 Windows 上运行需要借助 Cygwin。此外,Nutch 0.8...

    apache-nutch-1.16.rar 已编译好的版本,可以直接导入eclipse、idea

    4. **运行Nutch命令**:通过项目内的脚本或自定义的Java类,你可以调用Nutch的命令行工具执行爬取、索引和查询操作。例如,`bin/nutch crawl urls -dir crawl -depth 2 -topN 10`会启动一个深度为2的爬取,并返回前...

    nutch crawl代码解析

    接着,`conf.addDefaultResource("crawl-tool.xml")` 加载了 Nutch 的特定配置文件 `crawl-tool.xml`,这个文件定义了 Nutch 抓取工具的特定设置。 然后,`NutchJob(conf)` 被用来创建一个 `JobConf` 对象,这是 ...

    windows下nutch的安装配置以及与tomcat的集成.doc

    ### Windows下Nutch的安装配置与Tomcat集成详解 #### Nutch概述 Nutch是一款开源的搜索引擎框架,基于Java开发,旨在提供一个完整的搜索引擎解决方案。它由两大部分组成:抓取部分(Crawler),负责抓取网页数据并...

    nutch 搜索模块流程.doc

    `Query.parse(args[0], conf)` 创建一个 `Query` 对象,`args[0]` 是用户输入的查询关键词,`conf` 是配置对象,用于读取 Nutch 的配置信息。 2. 接下来,`bean.search(query, 10)` 执行实际的搜索操作,返回一个 `...

    Nutch源码研究

    1. **初始化**:根据配置文件启动`Fetcher`,创建指定数量的`FetcherThread`线程。 2. **抓取**:每个`FetcherThread`从`FetchList`中获取URL,调用相应的协议插件抓取页面。 3. **处理**:检查抓取结果,决定是否...

    网络爬虫教程

    #### 二、Nutch源码下载与IDE配置 1. **下载Nutch源码**: - 推荐使用Nutch 1.9版本,可以从官方下载地址获取:[http://mirrors.hust.edu.cn/apache/nutch/1.9/apache-nutch-1.9-src.zip]...

    langdetect-09-13-2011.zip

    1. **profiles**:这可能包含了一些预训练的模型或者配置文件,用于不同的语言检测任务。每个语言可能有一个对应的配置或模型文件,这些文件帮助langdetect识别特定的语言特征。 2. **nutch-plugin**:Nutch是一个...

    大数据简介

    其中Hadoop Common提供了运行环境中的基础服务,如配置工具、序列化机制、远程过程调用RPC、数据压缩与解压以及抽象文件系统等API。HDFS作为存储层,是整个Hadoop系统的基础。它设计有高容错性,能够存储PB级别的...

    everynote云笔记

    这个指南详细介绍了如何配置和部署Nutch 2.2.1版本,包括设置环境变量、修改配置文件、启动爬虫进程以及与其他组件(如Hadoop)集成的过程。 3. **详细讲解Java中的类加载器.html**:Java类加载器是JVM的重要组成...

    hadoop实战教程.doc

    2. 配置:包括修改Core-site.xml、Hdfs-site.xml、Mapred-site.xml等配置文件,设置环境变量。 3. 格式化NameNode:初始化HDFS。 4. 启动和停止:遵循特定的顺序启动和关闭Hadoop服务。 Hadoop的启动可以通过`start...

Global site tag (gtag.js) - Google Analytics