论坛首页 Java企业应用论坛

发布IKAnnlyzer3.2.0稳定版 for Lucene3.0

浏览 28153 次
该帖已经被评为良好帖
作者 正文
   发表时间:2010-03-12  
补充48楼的 我用的3.1.6的版本 lucene是2.4的  那个扩展词库不能用。
0 请登录后投票
   发表时间:2010-03-12  
String zhText = "22222Lucene的API接口设计的李阿炳";
我在mydict.dic文件中 加入了李阿炳 

但是分词结果还是:
(22222lucene,0,11)
(22222,0,5)
(lucene,5,11)
(api,12,15)
(接口,15,17)
(设计,17,19)
(李,20,21)
(阿炳,21,23) 


李阿炳 并没有 当成一个词。   3.1.6版本 
0 请登录后投票
   发表时间:2010-03-12  
pjw0221 写道
String zhText = "22222Lucene的API接口设计的李阿炳";
我在mydict.dic文件中 加入了李阿炳 

但是分词结果还是:
(22222lucene,0,11)
(22222,0,5)
(lucene,5,11)
(api,12,15)
(接口,15,17)
(设计,17,19)
(李,20,21)
(阿炳,21,23) 


李阿炳 并没有 当成一个词。   3.1.6版本 


首先3.2版本和3.1.6版本支持的lucene API是不同的,所以在3.2版本中没有next方法,这个不是IK定的,是lucene3.0定的接口

其次,你的扩展词库是否使用UTF-8编码呢?请确认
0 请登录后投票
   发表时间:2010-03-12  
我从3.2.0 里 复制的 停用词的那个文件,然后把内容删了 然后写的人名称,
不知道这里 有问题吗? 我用MyEclipse也设置了一下utf-8的 
0 请登录后投票
   发表时间:2010-03-12  
在补充下,我在main.dic 面 加入 同样的文字都能查出来,但是在mydict.dic加入就不行了。
0 请登录后投票
   发表时间:2010-03-12  
经确认。。。格式是utf-8的 依然出问题。
0 请登录后投票
   发表时间:2010-03-12  
感谢指导,问题解决了,我在文件头 空了一行 就好了。
0 请登录后投票
   发表时间:2010-03-12  
pjw0221 写道
感谢指导,问题解决了,我在文件头 空了一行 就好了。

UTF-8要求无BOM格式的,这个在说明文档里已经说了。你的UTF-8一定是带BOM的,所以要空一格
0 请登录后投票
   发表时间:2010-03-13  
楼主你好!我在solr1.3用了你的IKAnalyzer3.1.5GA分词,一开始用得都很好,就是在配置扩展词典的时候出错了,首先我没有找到WEBINF/classes目录,于是自己建了一个,把IKAnalyzer.cfg.xml文件放进去,然后就出错了“HTTP Status 500 - javax.servlet.ServletException: java.lang.NoClassDefFoundError: Could not initialize class org.wltea.analyzer.dic.Dictionary”好像是字典位置不对,能给我解释一下路径该怎么设置呢?我是这么设置的“<entry key="ext_dict">solr/WEB-INF/classes/t-base.dic</entry> ”,我用的是tomcat6,感谢您浪费宝贵的时间为我解答
0 请登录后投票
   发表时间:2010-03-14  
treason111 写道
楼主你好!我在solr1.3用了你的IKAnalyzer3.1.5GA分词,一开始用得都很好,就是在配置扩展词典的时候出错了,首先我没有找到WEBINF/classes目录,于是自己建了一个,把IKAnalyzer.cfg.xml文件放进去,然后就出错了“HTTP Status 500 - javax.servlet.ServletException: java.lang.NoClassDefFoundError: Could not initialize class org.wltea.analyzer.dic.Dictionary”好像是字典位置不对,能给我解释一下路径该怎么设置呢?我是这么设置的“<entry key="ext_dict">solr/WEB-INF/classes/t-base.dic</entry> ”,我用的是tomcat6,感谢您浪费宝贵的时间为我解答


首先,建议你是用3.1.6GA版本,其次,出现的异常说明你的路径下面没有扩展字典,因为对字典文件的载入是使用classloader的,所以看上去像是类没找到,实际上是字典没找到。

0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics