发布IKAnalyzer中文分词器V3.1.3GA生日祝福版

linliangyi2007

浏览: 1017906 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

Solr lucene 设计模式 Apache EXT

生日祝福
谨以此版本献给我的老婆，今天是她的生日，在这里，要祝福她生日快乐，天天无忧无虑。
感谢她一直以来对我从事开源项目的支持和鼓励，想对她说：谢谢你，亲爱的，有你在我身边，每一天都洋溢着满满的幸福感觉！

V3.1.3GA版本变更：

1.开放了对中文停止词表的支持，用户可以通过文件配置或API来扩展自己的停止词表

类：org.wltea.analyzer.dic.Dictionary
方法：public static void loadExtendStopWords(List<String> extStopWords)
说明：加载用户扩展的停止词列表，从版本V3.1.3起
参数1：List<String> extStopWords，扩展的停止词列表
返回值：无

IKAnalyzer.cfg.xml文件的配置

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典	 --> 
	<entry key="ext_dict">/mydict.dic; /com/mycompany/dic/mydict2.dic;</entry> 

	 <!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">/ext_stopword.dic</entry> 	
</properties>

注意：添加停止词可能会对部分的人名切分造成影响，如：陈忠和的“和”，胡适之的“之”，这些被认为是停止词的字通常可能是人名的一部分。

2.修订了3.1.2GA中，对中文词头单字切分的bug。

下载：IKAnalyzer3.1.3GA完整包

更多详细请参看《IKAnalyzer中文分词器V3.1.3使用手册》

分享到：

发布IK Expression开源表达式解析器 V2.1. ... | 发布IK Expression开源表达式解析器 V2.1. ...

2009-09-25 00:00
浏览 3631
评论(25)
论坛回复 / 浏览 (25 / 8150)
查看更多

5 楼 josephlong 2009-09-25

这个就是详细的呀，我是在网上看到ik和solr整合的我也照着做了，出现下面说的情况，你有官方的整合方案吗？

linliangyi2007 写道

josephlong 写道

你的版本不能支持新的solr1.3，我在用
public　class　ChineseTokenizerFactory　extends　BaseTokenizerFactory　{　
　
　@Override　
　public　TokenStream　create(Reader　reader)　{　
　return　new　IKAnalyzer().tokenStream("text",　reader);　
　}　
　的时候错
solr1.3用Tokenizer不是用TokenStream
请问这个问题如何解决呀谢谢

1.请将详细的异常告诉我。

2.从代码上看返回的是TokenStream对象，而你说的是Tokenizer。就lucene而言，Tokenizer是继承与TokenStream的。

3.IK有自己的IKTokenizer.class是继承Tokenizer类的。

4.你可以自己使用IKSegmentation类实现自己的分词器接口，IKSegmentation是一个与lucene无关的单独的分词器，请参考使用手册。

4 楼 linliangyi2007 2009-09-25

dingyuan 写道

恭喜恭喜，今天也是我生日

生日快乐，呵呵

3 楼 dingyuan 2009-09-25

恭喜恭喜，今天也是我生日

2 楼 linliangyi2007 2009-09-25

josephlong 写道

1 楼 josephlong 2009-09-25

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论