nutch 配置文件详解

leibnitz

浏览: 288744 次
性别:
来自: 广州

最近访客更多访客>>

eternal1025

bneliao

adapterofcoms

caipeijun666

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

search
nutch

下面来分析一下，conf目录下各文件的作用是怎样的：

crawl-urlfiter.txt ：此文件名在crawl-tool.xml中配置，属于crawl命令专有的配置，即分布式抓取时不起作用。

regex-urlfilter.xml ：此文件在分布式抓取时将代替crawl-filter.txt，see nutch-defulat.xml

--上述解析类见RegexURLFilter--

其中加载顺序为： nutch-default.xml->crawl-tool.xml->nutch-site.xml

automaton-urlfilter.txt：有限状态机处理，Finite-state automaton

prefix-urlfilter.txt & suffix-urlfilter.txt ：对url进行前缀或后缀的过滤，使用nutch 中的trie tree 算法简介处理

由于在regex-urlfilter.txt已经有过滤，而这二个是比它添加了更加多的过滤条件而已，所以可以将二个添加到plugin.includes中。

common-terms.utf8：作为n-gram索引时的common terms，即独立的token。应用于NutchDocumentAnalyzer#ContentAnalyzer.(我已经修改为highlight时才使用）

custom-fields.xml：当使用CustomFieldQueryFilter时定制的index处理机制。

domain-suffixes.xml：域名配置，由DomainSuffixes.java使用，供Generator中进行host/domain/　partition。

domain-urlfilter.txt：类urlfilter,就是进行域名过滤。利用这一点，可以进行特定站点的抓取，如只抓取com.

内容可以是ip,域名，二级域名（subbfix)，hostname；used in DomainURLFilter

httpclient-auth.xml：当使用http client plugin时的配置文件。就是如果要使用到https来抓取或代理服务器来抓取时，可以使用这个plugin。

parse-plugins.xml ：之前已经介绍过，即解析各种文件时的影射plugins配置。

regex-normalize.xml ：用于将url进行norm，即url 替换。如去掉";jsessionid=x"，去掉重复&&等。used by RegexURLNormalizer.

--- solr index/search related files（我没有使用solr来索引）

schema.xml：solr的index配置文件；

solrindex-mapping.xml：nutch中的index filed对solr的映射

----

tika-mimetypes.xml ：tika mime type映射文件，比如根据url获取对应的content type .used by MimeUtil

subcollections.xml:对索引进分集（添加doc field以示区别),支持白名单／黑名单。比如，我想统计.com域名的page数，但我要过滤掉部分.com的urls，而且要匹配xx.com域名的urls.可以说，它提供了粒度很细的过滤统计功能。

-－下面是运行的文件－－

nutch-xx.jar：nutch core包；

nutch-xx.job：将nutch作crawl或search service时完整包；除了里面没有hadoop包外，其它的与nutch-xx/lib下的包一样。有点怪：）

nutch-xx.war：布署包，与job包类似，已经包含jar所有类及配置，和hadoop包。

具体这些包问题可以在相应的build.xml中配置

－－－－

以上红色部分是较重要的files.

分享到：

nutch 中的trie tree 算法简介 | nosql 大比拼

2011-11-17 16:58
浏览 2191
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论