nutch-JE分词

deepfuture

浏览: 4433247 次
性别:
来自: 湛江

最近访客更多访客>>

linxl2011

mars36

jccz_zys

zkm0309

博主相关

博客

微博

相册

留言

关于我

博客专栏

: SQLite源码剖析
浏览量：80403

: WIN32汇编语言学习应用...
浏览量：70870

: 神奇的perl
浏览量：104172

: lucene等搜索引擎解析...
浏览量：287704

: 深入lucene3.5源码...
浏览量：15172

: VB.NET并行与分布式编...
浏览量：68447

: silverlight 5...
浏览量：32607

: 算法下午茶系列
浏览量：46309

文章分类

社区版块

存档分类

博客分类：

搜索引擎

Ant Apache lucene Java Hadoop

先下载Nutch 1.0的源文件：

co http://svn.apache.org/repos/asf/lucene/nutch/tags/release-1.0 ./nutch-1.0

更改查询语法解析部分：

改变tokenize的方式（原来为中文单字识别）

modify “src/java/org/apache/nutch/analysis/NutchAnalysis.jj”

line 130:

| <SIGRAM: <CJK> >
change to:

| <SIGRAM: (<CJK>)+ >
run “javacc”

cd nutch-1.0/src/java/org/apache/nutch/analysis
/usr/local/javacc-3.2/bin/javacc NutchAnalysis.jj

3 files will be regenerated:

中文分析部分（查询和索引）：

将analyzer更换为JE中文分析器

a). copy “je-analysis-1.5.3.jar” to lib/

b). modify NutchDocumentAnalyzer.java

Index: src/java/org/apache/nutch/analysis/NutchDocumentAnalyzer.java
===================================================================
--- src/java/org/apache/nutch/analysis/NutchDocumentAnalyzer.java (revision 764668)
+++ src/java/org/apache/nutch/analysis/NutchDocumentAnalyzer.java (working copy)
@@ -27,6 +27,8 @@
import org.apache.lucene.analysis.Token;
import org.apache.hadoop.conf.Configuration;

+import jeasy.analysis.*;
+
/**
* The analyzer used for Nutch documents. Uses the JavaCC-defined lexical
* analyzer {@link NutchDocumentTokenizer}, with no stop list. This keeps it
@@ -65,8 +67,14 @@

/** Constructs a {@link NutchDocumentTokenizer}. */
public TokenStream tokenStream(String field, Reader reader) {
- return this.commonGrams.getFilter(new NutchDocumentTokenizer(reader),
- field);
+ if ("content".equals(field) || "title".equals(field) || "DEFAULT".equals(field)) {
+ MMAnalyzer analyzer=new MMAnalyzer();
+ return analyzer.tokenStream(field, reader);
+ }
+ else {
+ return this.commonGrams.getFilter(new NutchDocumentTokenizer(reader),
+ field);
+ }
}
}

重新编译Nutch:

在build.xml添加一条指令（在第195行的下面加入一行），使的编译war文件的时候加入je-analysis的jar文件。

build.xml

compile:

cd nutch-1.0
export ANT_HOME=/usr/local/apache-ant-1.7.1
/usr/local/apache-ant-1.7.1/bin/ant
/usr/local/apache-ant-1.7.1/bin/ant war

使用新生成的含中文分词功能的模块:

只用到刚才编译生成的下面三个文件，替换Nutch 1.0的tarball解压后的对应文件

分享到：

nutch-乱码解决 | Heritrix架构剖析

2009-12-23 19:39
浏览 1432
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

nutch-JE分词

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

nutch-JE分词

评论

发表评论

相关推荐

lucene3.5之Bits

lucene3.5之SmallFloat

lucene 3.5之SimpleStringInterner

lucene3.5之ToStringUtils

lucene3.5之StringHelper

lucene3.5之StringInterner

lucene的until包当前lucene的版本号

LucenePackage 包获取当前lucene包信息

linux下的简单中文分词器-dpSegmentation

搜狗实验室(Sogou Labs)

搜索引擎开发lucene-笔者博客的大部分lucene习作源码

搜索引擎中网络爬虫的设计分析(转)

lucene-内存索引、内存索引保存在硬盘、索引优化

lucene-索引的优化和索引过程查看

lucene-索引信息、索引删除、索引删除恢复、索引物理删除

lucene-内存索引、内存索引保存在硬盘、索引优化

lucene-索引文件格式

lucene-对每个字段指定分析器及较复杂搜索页面(对QQ国内新闻搜索)

lucene-使用lius解析html

lucene-使用lius解析pdf、ppt、rtf、txt、xml

最近访客更多访客>>