下面来分析 一下,conf目录下各文件的作用是怎样的:
crawl-urlfiter.txt
:此文件名在crawl-tool.xml中配置,属于crawl命令专有的配置,即分布式抓取 时不起作用。
regex-urlfilter.xml
:此文件在分布式抓取时将代替crawl-filter.txt,see nutch-defulat.xml
--上述解析类见RegexURLFilter--
其中加载顺序为: nutch-default.xml->crawl-tool.xml->nutch-site.xml
automaton-urlfilter.txt:有限状态机处理,Finite-state automaton
prefix-urlfilter.txt & suffix-urlfilter.txt
:对url进行前缀或后缀的过滤,使用nutch 中的trie tree 算法简介
处理
由于在regex-urlfilter.txt已经有过滤,而这二个是比它添加了更加多的过滤条件而已,所以可以将二个添加到plugin.includes中。
common-terms.utf8:作为n-gram索引时的common terms,即独立的token。应用于NutchDocumentAnalyzer#ContentAnalyzer.(我已经修改为highlight时才使用)
custom-fields.xml:当使用CustomFieldQueryFilter时定制的index处理机制。
domain-suffixes.xml:域名配置,由DomainSuffixes.java使用,供Generator中进行host/domain/ partition。
domain-urlfilter.txt:类urlfilter,就是进行域名过滤。利用这一点,可以进行特定站点的抓取,如只抓取com.
内容可以是ip,域名,二级域名(subbfix),hostname;used in DomainURLFilter
httpclient-auth.xml:当使用http client plugin时的配置文件。就是如果要使用到https来抓取或代理服务器来抓取时,可以使用这个plugin。
parse-plugins.xml
:之前已经介绍过,即解析各种文件时的影射plugins配置。
regex-normalize.xml
:用于将url进行norm,即url 替换。如去掉";jsessionid=x",去掉重复&&等。used by RegexURLNormalizer.
--- solr index/search related files(我没有使用solr来索引)
schema.xml:solr的index配置文件;
solrindex-mapping.xml:nutch中的index filed对solr的映射
----
tika-mimetypes.xml
:tika mime type映射文件,比如根据url获取对应的content type .used by MimeUtil
subcollections.xml:对索引进分集(添加doc field以示区别),支持白名单/黑名单。比如,我想统计.com域名的page数,但我要过滤掉部分.com的urls,而且要匹配xx.com域名的urls.可以说,它提供了粒度很细的过滤统计功能。
--下面是运行的文件--
nutch-xx.jar:nutch core包;
nutch-xx.job:将nutch作crawl或search service时完整包;除了里面没有hadoop包外,其它的与nutch-xx/lib下的包一样。有点怪:)
nutch-xx.war:布署包,与job包类似,已经包含jar所有类及配置,和hadoop包。
具体这些包问题可以在相应的build.xml中配置
----
以上红色部分是较重要的files.
分享到:
相关推荐
通过右键点击项目名,选择“Properties > Java Build Path > Source”,然后点击“Add Folder”按钮,将“conf”文件夹添加进来,这是Nutch配置文件所在的位置,对于项目的运行至关重要。 #### 步骤3:处理依赖库 ...
本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...
在开始Nutch配置之前,确保你已安装了Java运行环境(JRE)和Java开发工具(JDK),版本至少为1.8。同时,你需要一个支持Hadoop的环境,如Hadoop单机模式或伪分布式模式。如果你打算使用Solr或Elasticsearch作为检索...
### Nutch配置与安装知识点详解 #### 一、Nutch简介 Nutch是一款开源的Web爬虫项目,基于Apache Hadoop构建,能够抓取、处理和索引互联网上的信息。Nutch提供了高度可定制化的配置选项,使得用户可以根据自己的需求...
- 配置 Nutch 相关的配置文件,如上述方法。 5. **配置注意事项**: - 在 `nutch-site.xml` 中,`http.agent.name` 属性用于定义爬虫的用户代理名称,通常需要更改,避免被服务器识别为恶意爬虫。 - `crawl-...
### Nutch配置详解 #### 一、Nutch简介与配置准备 **Nutch**是一款开源的Web爬虫项目,能够帮助用户抓取互联网上的网页数据并进行内容分析。本篇文章将详细解读《Nutch配置[汇编].pdf》文档中的关键步骤及知识点。...
### Nutch 1.4 在 Windows 下 Eclipse 配置图文详解 #### 一、环境准备与配置 **1.1 JDK 安装** - **版本选择**:文档中提到使用了 JDK1.6,官方下载地址为:[JDK6]...
三、Nutch配置与设置 在使用Nutch之前,你需要配置Nutch的运行环境,包括安装Java、设置Hadoop(如果需要分布式爬取)、下载和编译Nutch源代码。还需要配置Nutch的`conf/nutch-site.xml`文件,指定抓取策略、存储...
### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...
8. **Nutch的配置**:安装完成后,你需要根据需求配置Nutch的配置文件,通常位于`conf`目录下,如`nutch-site.xml`。这些配置包括爬虫的种子URL、抓取策略、存储位置等。 9. **测试Nutch**:在配置完成后,可以运行...
### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...
具体而言,会加载`nutch-default.xml`、`crawl-tool.xml`(可选)和`nutch-site.xml`这三个配置文件,分别代表默认配置、爬虫特有配置和用户自定义配置。这些配置文件对Nutch的行为和性能具有决定性的影响。 #### ...
1. **数据库连接配置**:在Nutch的配置文件中,如`nutch-site.xml`,添加或修改数据库连接参数,包括数据库URL、用户名和密码。 2. **数据导出配置**:配置Nutch的输出模块,使其将数据导出到MySQL数据库。这通常...
6. **修改Nutch配置文件**: - 打开 `nutch\conf\nutch-site.xml` 文件,在 `<configuration>` 标签内添加以下内容来配置目标站点: ```xml <name>http.robots.agents</name> <value>...