solr 的分析器，分词器和分词过滤器（2） -

damoqingquan

浏览: 48919 次
性别:
来自: 广州

最近访客更多访客>>

milanello

wuxy919

xia552346

478527791

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

solr 的分析器，分词器和分词过滤器（2）

博客分类：

搜索引擎技术

Solr lucene Apache 算法 IBM

5. solr.HTMLStripWhitespaceTokenizerFactory

从结果中出去HTML标签，将结果交给WhitespaceTokenizer处理。

例子：

my <a href="www.foo.bar">link</a>	my link
<?xml?><br>hello<!--comment-->	hello
hello<script><-- f('<--internal--></script>'); --></script>	hello
if a<b then print a;	if a<b then print a;
hello <td height=22 nowrap align="left">	hello
a<b &#65 Alpha&Omega Ω	a<b A Alpha&Omega Ω

6. solr.HTMLStripStandardTokenizerFactory

从结果中出去HTML标签，将结果交给StandardTokenizer处理。

7. solr.PatternTokenizerFactory

说明：按照规则表达式样式对分本进行分词。

例子：处理对象为，`mice; kittens; dogs，他们由分号加上一个或多个的空格分隔。`

</analyzer>

</fieldType>

--------------------------------------------------------------------

Solr有哪些TokenFilterFactories？

-------------------------------------------------------------------

1. solr.StandardFilterFactory

创建：`org.apache.lucene.analysis.standard.StandardFilter`.

说明：移除首字母简写中的点和Token后面的’s。仅仅作用于有类的Token，他们是由StandardTokenizer产生的。

例子：StandardTokenizer+ `StandardFilter`

"I.B.M. cat's can't" ==> "IBM", "cat", "can't"

2. solr.LowerCaseFilterFactory

创建：org.apache.lucene.analysis.LowerCaseFilter.

3. solr.TrimFilterFactory【solr1.2】

创建：org.apache.solr.analysis.TrimFilter

说明：去掉Token两端的空白符

例子：

" Kittens! ", "Duck" ==> "Kittens!", "Duck".

4. solr.StopFilterFactory

创建：org.apache.lucene.analysis.StopFilter

说明：去掉如下的通用词，多为虚词。

"a", "an", "and", "are", "as", "at", "be", "but", "by",

"for", "if", "in", "into", "is", "it",

"no", "not", "of", "on", "or", "s", "such",

"t", "that", "the", "their", "then", "there", "these",

"they", "this", "to", "was", "will", "with"

自定义的通用词表的使用可以通过schema.xml文件中的"words"属性来指定，如下。

</analyzer>

</fieldtype>

5. solr.KeepWordFilterFactory【solr1.3】

创建：org.apache.solr.analysis.KeepWordFilter

说明：作用与solr.StopFilterFactory相反，保留词的列表也可以通过”word”属性进行指定。

</analyzer>

</fieldtype>

6. solr.LengthFilterFactory

创建：solr.LengthFilter

说明：过滤掉长度在某个范围之外的词。范围设定方式见下面。

</analyzer>

</fieldtype>

7. solr.PorterStemFilterFactory

创建：org.apache.lucene.analysis.PorterStemFilter

说明：采用Porter Stemming Algorithm算法去掉单词的后缀，例如将复数形式变成单数形式，第三人称动词变成第一人称，现在分词变成一般现在时的动词。

8. solr.EnglishPorterFilterFactory

创建：solr.EnglishPorterFilter

说明：关于句子主干的处理，其中的"protected"指定不允许修改的词的文件。

9. solr.SnowballPorterFilterFactory

说明：关于不同语言的词干处理

10.solr.WordDelimiterFilterFactory

说明：关于分隔符的处理。

11.solr.SynonymFilterFactory

说明：关于同义词的处理。

12.solr.RemoveDuplicatesTokenFilterFactory

说明：避免重复处理。

-------------------------------------------------------------------

.声明：原创文章，严禁转载。

分享到：

java jar工具使用 | solr 的分析器，分词器和分词过滤器（1）

2008-08-21 18:08
浏览 5404
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

solr 的分析器，分词器和分词过滤器（2）

5. solr.HTMLStripWhitespaceTokenizerFactory

从结果中出去HTML标签，将结果交给WhitespaceTokenizer处理。

例子：

6. solr.HTMLStripStandardTokenizerFactory

从结果中出去HTML标签，将结果交给StandardTokenizer处理。

7. solr.PatternTokenizerFactory

说明：按照规则表达式样式对分本进行分词。

例子：处理对象为，`mice; kittens; dogs，他们由分号加上一个或多个的空格分隔。`

--------------------------------------------------------------------

Solr有哪些TokenFilterFactories？

-------------------------------------------------------------------

1. solr.StandardFilterFactory

创建：`org.apache.lucene.analysis.standard.StandardFilter`.

说明：移除首字母简写中的点和Token后面的’s。仅仅作用于有类的Token，他们是由StandardTokenizer产生的。

例子：StandardTokenizer+ `StandardFilter`

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

solr 的分析器，分词器和分词过滤器（2）

5. solr.HTMLStripWhitespaceTokenizerFactory

从结果中出去HTML标签，将结果交给WhitespaceTokenizer处理。

例子：

6. solr.HTMLStripStandardTokenizerFactory

从结果中出去HTML标签，将结果交给StandardTokenizer处理。

7. solr.PatternTokenizerFactory

说明：按照规则表达式样式对分本进行分词。

例子：处理对象为，mice; kittens; dogs，他们由分号加上一个或多个的空格分隔。

--------------------------------------------------------------------

Solr有哪些TokenFilterFactories？

-------------------------------------------------------------------

1. solr.StandardFilterFactory

创建：org.apache.lucene.analysis.standard.StandardFilter.

说明：移除首字母简写中的点和Token后面的’s。仅仅作用于有类的Token，他们是由StandardTokenizer产生的。

例子：StandardTokenizer+ StandardFilter

评论

发表评论

相关推荐

Solr1.3的启动过程分析三

Solr1.3的启动过程分析二

Solr1.3的启动过程分析一

solr的配置参数理解

solr 术语解释

solr搜索引擎特性

nutch 安装及使用中若干常见问题

solr 的分析器，分词器和分词过滤器（1）

最近访客更多访客>>

例子：处理对象为，`mice; kittens; dogs，他们由分号加上一个或多个的空格分隔。`

创建：`org.apache.lucene.analysis.standard.StandardFilter`.

例子：StandardTokenizer+ `StandardFilter`