`

nutch 配置文件详解

 
阅读更多

下面来分析 一下,conf目录下各文件的作用是怎样的:

crawl-urlfiter.txt :此文件名在crawl-tool.xml中配置,属于crawl命令专有的配置,即分布式抓取 时不起作用。

regex-urlfilter.xml :此文件在分布式抓取时将代替crawl-filter.txt,see nutch-defulat.xml

--上述解析类见RegexURLFilter--

其中加载顺序为: nutch-default.xml->crawl-tool.xml->nutch-site.xml

 

automaton-urlfilter.txt:有限状态机处理,Finite-state automaton

 

prefix-urlfilter.txt & suffix-urlfilter.txt :对url进行前缀或后缀的过滤,使用nutch 中的trie tree 算法简介 处理

由于在regex-urlfilter.txt已经有过滤,而这二个是比它添加了更加多的过滤条件而已,所以可以将二个添加到plugin.includes中。

 

common-terms.utf8:作为n-gram索引时的common terms,即独立的token。应用于NutchDocumentAnalyzer#ContentAnalyzer.(我已经修改为highlight时才使用)

 

custom-fields.xml:当使用CustomFieldQueryFilter时定制的index处理机制。

 

domain-suffixes.xml:域名配置,由DomainSuffixes.java使用,供Generator中进行host/domain/ partition。

 

domain-urlfilter.txt:类urlfilter,就是进行域名过滤。利用这一点,可以进行特定站点的抓取,如只抓取com.

内容可以是ip,域名,二级域名(subbfix),hostname;used in DomainURLFilter

 

httpclient-auth.xml:当使用http client plugin时的配置文件。就是如果要使用到https来抓取或代理服务器来抓取时,可以使用这个plugin。

 

parse-plugins.xml :之前已经介绍过,即解析各种文件时的影射plugins配置。

 

regex-normalize.xml :用于将url进行norm,即url 替换。如去掉";jsessionid=x",去掉重复&&等。used by RegexURLNormalizer.

 

--- solr index/search related files(我没有使用solr来索引)

schema.xml:solr的index配置文件;

solrindex-mapping.xml:nutch中的index filed对solr的映射

----

tika-mimetypes.xml :tika mime type映射文件,比如根据url获取对应的content type .used by MimeUtil

 

subcollections.xml:对索引进分集(添加doc field以示区别),支持白名单/黑名单。比如,我想统计.com域名的page数,但我要过滤掉部分.com的urls,而且要匹配xx.com域名的urls.可以说,它提供了粒度很细的过滤统计功能。

 

 

--下面是运行的文件--

nutch-xx.jar:nutch core包;

nutch-xx.job:将nutch作crawl或search service时完整包;除了里面没有hadoop包外,其它的与nutch-xx/lib下的包一样。有点怪:)

nutch-xx.war:布署包,与job包类似,已经包含jar所有类及配置,和hadoop包。

 具体这些包问题可以在相应的build.xml中配置

 

----

以上红色部分是较重要的files.

 

 

 

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    eclipse配置nutch,eclipse配置nutch

    通过右键点击项目名,选择“Properties > Java Build Path > Source”,然后点击“Add Folder”按钮,将“conf”文件夹添加进来,这是Nutch配置文件所在的位置,对于项目的运行至关重要。 #### 步骤3:处理依赖库 ...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...

    搜索引擎nutch配置

    在开始Nutch配置之前,确保你已安装了Java运行环境(JRE)和Java开发工具(JDK),版本至少为1.8。同时,你需要一个支持Hadoop的环境,如Hadoop单机模式或伪分布式模式。如果你打算使用Solr或Elasticsearch作为检索...

    nutch配置与安装

    ### Nutch配置与安装知识点详解 #### 一、Nutch简介 Nutch是一款开源的Web爬虫项目,基于Apache Hadoop构建,能够抓取、处理和索引互联网上的信息。Nutch提供了高度可定制化的配置选项,使得用户可以根据自己的需求...

    Windows下配置nutch

    - 配置 Nutch 相关的配置文件,如上述方法。 5. **配置注意事项**: - 在 `nutch-site.xml` 中,`http.agent.name` 属性用于定义爬虫的用户代理名称,通常需要更改,避免被服务器识别为恶意爬虫。 - `crawl-...

    Linux下Nutch单机配置

    这时就需要进一步调整配置文件,比如在 `server.xml` 中增加编码配置。 总之,在Linux环境下配置Nutch涉及到多个步骤,包括环境搭建、JDK和Apache Tomcat的安装与配置,以及Nutch本身的配置和应用。通过以上详细的...

    Nutch配置[汇编].pdf

    ### Nutch配置详解 #### 一、Nutch简介与配置准备 **Nutch**是一款开源的Web爬虫项目,能够帮助用户抓取互联网上的网页数据并进行内容分析。本篇文章将详细解读《Nutch配置[汇编].pdf》文档中的关键步骤及知识点。...

    Nutch1.4_windows下eclipse配置图文详解.docx

    ### Nutch 1.4 在 Windows 下 Eclipse 配置图文详解 #### 一、环境准备与配置 **1.1 JDK 安装** - **版本选择**:文档中提到使用了 JDK1.6,官方下载地址为:[JDK6]...

    nutch使用&Nutch;入门教程

    三、Nutch配置与设置 在使用Nutch之前,你需要配置Nutch的运行环境,包括安装Java、设置Hadoop(如果需要分布式爬取)、下载和编译Nutch源代码。还需要配置Nutch的`conf/nutch-site.xml`文件,指定抓取策略、存储...

    nutch_1.4配置

    ### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...

    windows下安装nutch

    8. **Nutch的配置**:安装完成后,你需要根据需求配置Nutch的配置文件,通常位于`conf`目录下,如`nutch-site.xml`。这些配置包括爬虫的种子URL、抓取策略、存储位置等。 9. **测试Nutch**:在配置完成后,可以运行...

    nutch_1.4在windows下安装配置.pdf

    ### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...

    Nutch 1.2源码阅读

    具体而言,会加载`nutch-default.xml`、`crawl-tool.xml`(可选)和`nutch-site.xml`这三个配置文件,分别代表默认配置、爬虫特有配置和用户自定义配置。这些配置文件对Nutch的行为和性能具有决定性的影响。 #### ...

    nutch的安装方法,好用

    6. **修改Nutch配置文件**: - 打开 `nutch\conf\nutch-site.xml` 文件,在 `<configuration>` 标签内添加以下内容来配置目标站点: ```xml <name>http.robots.agents</name> <value>...

Global site tag (gtag.js) - Google Analytics