Lucene为不同字段指定不同分词器(转) -

itfafa

浏览: 201858 次

最近访客更多访客>>

my404694047

五音谷

欲穷三千界

maomaohou

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Lucene为不同字段指定不同分词器(转)

博客分类：

java
搜索引擎

lucene java

在lucene使用过程中，如果要对同一IndexWriter中不同 Document，不同Field中使用不同的analyzer，我们该如何实现呢？

通过对《lucene in action》的阅读，发现是可以解决这一问题的。lucene可以正对整个IndexWriter对象或者每一个document对象或者特定 Field使用不同的分析器。
Java代码复制代码

    Analyzer analyzer = new StandardAnalyzer();

    IndexWriter writer = new IndexWriter(direcotry, analyzer, true); //

    Document doc = new Document();

    doc.add(new Field("title", "this is title", Field.Store.COMPRESS,Field.Index.TOKENIZED,Field.TermVector.WITH_POSITIONS_OFFSETS));

    doc.add(new Field("content", "this is content", Field.Store.COMPRESS,Field.Index.TOKENIZED,Field.TermVector.WITH_POSITIONS_OFFSETS));

    writer.addDocument(doc); //这是大部分情况下使用的一个方法

其实还有另外一个方法，原型如下：
lucene自带文档写道
addDocument(Document doc, Analyzer analyzer)
Adds a document to this index, using the provided analyzer instead of the value of getAnalyzer().

所以我们还可以写成这样：
Java代码复制代码

    writer.addDocument(doc, analyzer);
    // 这里的analyzer是指另外一个你指定的analyzer，不同于上面的StandardAnalyzer

那么如何针对特定Field使用不同分析器呢，lucene包里面有个PerFieldAnalyzerWrapper类，解决了这一问题，这是 lucene的文档里面的一段话：
lucene自带文档写道
Example usage:

PerFieldAnalyzerWrapper aWrapper = new PerFieldAnalyzerWrapper(new StandardAnalyzer());
aWrapper.addAnalyzer("firstname", new KeywordAnalyzer());
aWrapper.addAnalyzer("lastname", new KeywordAnalyzer());

In this example, StandardAnalyzer will be used for all fields except "firstname" and "lastname", for which KeywordAnalyzer will be used.

A PerFieldAnalyzerWrapper can be used like any other analyzer, for both indexing and query parsing.

PreFieldAnalyzerWrapper类的构造函数中需要一个默认的分析器作为参数。为了给不同的Field指定不同的 analyzer，就需要调用该类的addAnalyzer()方法。上面的E文相信大家都能看懂的，就不需要我来翻译了，我的英语很差，着急啊，呵呵。

也就是说大家以前初始化分析器的时候用这一句:
Java代码复制代码

    Analyzer analyzer = new StandardAnalyzer();

现在可以改用
Java代码复制代码

    PerFieldAnalyzerWrapper analyzer = new PerFieldAnalyzerWrapper(new StandardAnalyzer());

然后如果需要特定域的分析器就调用addAnalyzer方法
Java代码复制代码

    analyzer.addAnalyzer("fieldname", new KeywordAnalyzer());

对了，最后说一下，PerFieldAnalyzerWrapper类也是在org.apache.lucene.analysis包下面的，只需要
Java代码复制代码

    import org.apache.lucene.analysis.PerFieldAnalyzerWrapper;

就行了

转:http://hi.baidu.com/lewutian/blog/item/42bf84ceeef3ba35b600c8e7.html

搜索引擎和网络爬虫技术群293961767欢迎志同道合的朋友加入！

分享到：

Java对数函数及Java对数运算 | .net发邮件【转】

2013-01-31 17:34
浏览 3504
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene为不同字段指定不同分词器(转)

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Lucene为不同字段指定不同分词器(转)

评论

发表评论

相关推荐

java实现动态切换上网IP (ADSL拨号上网) java开发

JAVA字符串处理函数

(转)Lucene打分规则与Similarity模块详解

Compass将lucene、Spring、Hibernate三者结合

Lucene3.0详解

Java Web 用户登陆示例代码

Java对数函数及Java对数运算

域名管理与解析原理 — 《Java邮件开发详解》读书笔记

优秀的Java工程师需要掌握的10项技能

Web开发入门不得不看

MVC框架的映射和解耦

JAVA发送EMAIL的例子

SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎

Lucene多字段搜索

lucene之sort

Nginx负载均衡

Lucene相关度排序的调整

HashSet重复元素判断

JAVA提高教程(2)-认识Set集合之HashSet

使用solr搭建你的全文检索

最近访客更多访客>>

SSH + Lucene + 分页 + 排序 + 高亮模拟简单新闻网站搜索引擎