solr英文应用的基本分词器和过滤器配置 -

kobe_hz

浏览: 99717 次
性别:
来自: 大连

最近访客更多访客>>

zhao103804

brandNewUser

asyuanbo

rl724

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

solr英文应用的基本分词器和过滤器配置

博客分类：

Solr

solr schema.xml filter

英文应用分词器和过滤器一般配置顺序

索引（index）：

    1：空格 WhitespaceTokenizer
    2：过滤词(停用词，如：on、of、a、an等) StopFilter
    3：拆字WordDelimiterFilter
    4：小写过滤LowerCaseFilter
    5：英文相近词EnglishPorterFilter
    6：去除重复词RemoveDuplicatesTokenFilter

查询(query)：（首先也是加入分词方法）

    1：查询同义词 SynonymFilter
    2：过滤词 StopFilter
    3：拆字 WordDelimiter
    4：小写过滤 LowerCaseFilter
    5：英文相近词 EnglishPorterFilter
    6：去除重复词 RemoveDuplicatesTokenFilter

示例配置如下：

<fieldtype name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>

<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
</fieldtype>

这样配置以后，字段类型为“text”的就会有以上的一些处理，如下，name就会有以上的处理了。

<field name="name" type="text" indexed="true" stored="true" multiValued="true"/>

更多的过滤器配置可以参照solr wiki：http://wiki.apache.org/solr/FrontPage

分享到：

solr 一些小问题记录（不断更新中） | Solr中新加项目的配置

2013-03-12 11:45
浏览 3055
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

solr英文应用的基本分词器和过滤器配置

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

solr英文应用的基本分词器和过滤器配置

评论

发表评论

相关推荐

Solr添加IKAnalysis中文分词

solr 一些小问题记录（不断更新中）

Solr中新加项目的配置

最近访客更多访客>>