论坛首页 Java企业应用论坛

发布IKAnalyzer中文分词器V3.1.3GA生日祝福版

浏览 8116 次
精华帖 (3) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (1)
作者 正文
   发表时间:2009-09-25   最后修改:2009-09-25
生日祝福
谨以此版本献给我的老婆,今天是她的生日,在这里,要祝福她生日快乐,天天无忧无虑。
感谢她一直以来对我从事开源项目的支持和鼓励,想对她说:谢谢你,亲爱的,有你在我身边,每一天都洋溢着满满的幸福感觉!


V3.1.3GA版本变更:

1.开放了对中文停止词表的支持,用户可以通过文件配置或API来扩展自己的停止词表

类:org.wltea.analyzer.dic.Dictionary
方法:public static void loadExtendStopWords(List<String> extStopWords)

说明:加载用户扩展的停止词列表,从版本V3.1.3起
参数1:List<String> extStopWords, 扩展的停止词列表
返回值:无

IKAnalyzer.cfg.xml文件的配置
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典	 --> 
	<entry key="ext_dict">/mydict.dic; /com/mycompany/dic/mydict2.dic;</entry> 

	 <!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">/ext_stopword.dic</entry> 	
</properties>

注意:添加停止词可能会对部分的人名切分造成影响,如:陈忠和的“和”,胡适之的“之”,这些被认为是停止词的字通常可能是人名的一部分

2.修订了3.1.2GA中,对中文词头单字切分的bug。


下载 :IKAnalyzer3.1.3GA完整包

更多详细请参看《IKAnalyzer中文分词器V3.1.3使用手册》


   发表时间:2009-09-25  
你的版本不能支持新的solr1.3,我在用
public class ChineseTokenizerFactory extends BaseTokenizerFactory { 
 
 @Override 
 public TokenStream create(Reader reader) { 
 return new IKAnalyzer().tokenStream("text", reader); 
 } 
 的时候错
solr1.3用Tokenizer不是用TokenStream
请问这个问题如何解决呀 谢谢
0 请登录后投票
   发表时间:2009-09-25   最后修改:2009-09-25
josephlong 写道
你的版本不能支持新的solr1.3,我在用
public class ChineseTokenizerFactory extends BaseTokenizerFactory { 
 
 @Override 
 public TokenStream create(Reader reader) { 
 return new IKAnalyzer().tokenStream("text", reader); 
 } 
 的时候错
solr1.3用Tokenizer不是用TokenStream
请问这个问题如何解决呀 谢谢


1.请将详细的异常告诉我。

2.从代码上看返回的是TokenStream对象,而你说的是Tokenizer。就lucene而言,Tokenizer是继承与TokenStream的。

3.IK有自己的IKTokenizer.class是继承Tokenizer类的。

4.你可以自己使用IKSegmentation类实现自己的分词器接口,IKSegmentation是一个与lucene无关的单独的分词器,请参考使用手册。
0 请登录后投票
   发表时间:2009-09-25  
恭喜恭喜,今天也是我生日
0 请登录后投票
   发表时间:2009-09-25  
dingyuan 写道
恭喜恭喜,今天也是我生日


生日快乐,呵呵
0 请登录后投票
   发表时间:2009-09-25  
这个就是详细的呀,我是在网上看到ik和solr整合的我也照着做了,出现下面说的情况,你有官方的整合方案吗?

linliangyi2007 写道
josephlong 写道
你的版本不能支持新的solr1.3,我在用
public class ChineseTokenizerFactory extends BaseTokenizerFactory { 
 
 @Override 
 public TokenStream create(Reader reader) { 
 return new IKAnalyzer().tokenStream("text", reader); 
 } 
 的时候错
solr1.3用Tokenizer不是用TokenStream
请问这个问题如何解决呀 谢谢


1.请将详细的异常告诉我。

2.从代码上看返回的是TokenStream对象,而你说的是Tokenizer。就lucene而言,Tokenizer是继承与TokenStream的。

3.IK有自己的IKTokenizer.class是继承Tokenizer类的。

4.你可以自己使用IKSegmentation类实现自己的分词器接口,IKSegmentation是一个与lucene无关的单独的分词器,请参考使用手册。

0 请登录后投票
   发表时间:2009-09-25  
josephlong 写道
这个就是详细的呀,我是在网上看到ik和solr整合的我也照着做了,出现下面说的情况,你有官方的整合方案吗?



晕死!

请你把程序执行时抛出的异常发给我好吧,我要的不是你的代码啊,而是执行后抛的异常。
0 请登录后投票
   发表时间:2009-09-25  
关键是这个代码都没有编译过去呀,
他们的不是一个对象类型,所以无法编译
明白了吗

linliangyi2007 写道
josephlong 写道
这个就是详细的呀,我是在网上看到ik和solr整合的我也照着做了,出现下面说的情况,你有官方的整合方案吗?



晕死!

请你把程序执行时抛出的异常发给我好吧,我要的不是你的代码啊,而是执行后抛的异常。

0 请登录后投票
   发表时间:2009-09-25   最后修改:2009-09-25
josephlong 写道
关键是这个代码都没有编译过去呀,
他们的不是一个对象类型,所以无法编译
明白了吗

linliangyi2007 写道
josephlong 写道
这个就是详细的呀,我是在网上看到ik和solr整合的我也照着做了,出现下面说的情况,你有官方的整合方案吗?



晕死!

请你把程序执行时抛出的异常发给我好吧,我要的不是你的代码啊,而是执行后抛的异常。



你的JDK版本不对,class loader没法载入,用JDK6.0的吧。或者下载IK的源码,在本地进行重新编译。
0 请登录后投票
   发表时间:2009-09-26  
晕,
我已经说了

solr1.3用Tokenizer做为返回类型 ,而例子是TokenStream 所以报错呀,明白了吗!


linliangyi2007 写道
josephlong 写道
关键是这个代码都没有编译过去呀,
他们的不是一个对象类型,所以无法编译
明白了吗

linliangyi2007 写道
josephlong 写道
这个就是详细的呀,我是在网上看到ik和solr整合的我也照着做了,出现下面说的情况,你有官方的整合方案吗?



晕死!

请你把程序执行时抛出的异常发给我好吧,我要的不是你的代码啊,而是执行后抛的异常。



你的JDK版本不对,class loader没法载入,用JDK6.0的吧。或者下载IK的源码,在本地进行重新编译。

0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics