该帖已经被评为良好帖
|
|
---|---|
作者 | 正文 |
发表时间:2010-03-12
补充48楼的 我用的3.1.6的版本 lucene是2.4的 那个扩展词库不能用。
|
|
返回顶楼 | |
发表时间:2010-03-12
String zhText = "22222Lucene的API接口设计的李阿炳";
我在mydict.dic文件中 加入了李阿炳 但是分词结果还是: (22222lucene,0,11) (22222,0,5) (lucene,5,11) (api,12,15) (接口,15,17) (设计,17,19) (李,20,21) (阿炳,21,23) 李阿炳 并没有 当成一个词。 3.1.6版本 |
|
返回顶楼 | |
发表时间:2010-03-12
pjw0221 写道 String zhText = "22222Lucene的API接口设计的李阿炳";
我在mydict.dic文件中 加入了李阿炳 但是分词结果还是: (22222lucene,0,11) (22222,0,5) (lucene,5,11) (api,12,15) (接口,15,17) (设计,17,19) (李,20,21) (阿炳,21,23) 李阿炳 并没有 当成一个词。 3.1.6版本 首先3.2版本和3.1.6版本支持的lucene API是不同的,所以在3.2版本中没有next方法,这个不是IK定的,是lucene3.0定的接口 其次,你的扩展词库是否使用UTF-8编码呢?请确认 |
|
返回顶楼 | |
发表时间:2010-03-12
我从3.2.0 里 复制的 停用词的那个文件,然后把内容删了 然后写的人名称,
不知道这里 有问题吗? 我用MyEclipse也设置了一下utf-8的 |
|
返回顶楼 | |
发表时间:2010-03-12
在补充下,我在main.dic 面 加入 同样的文字都能查出来,但是在mydict.dic加入就不行了。
|
|
返回顶楼 | |
发表时间:2010-03-12
经确认。。。格式是utf-8的 依然出问题。
|
|
返回顶楼 | |
发表时间:2010-03-12
感谢指导,问题解决了,我在文件头 空了一行 就好了。
|
|
返回顶楼 | |
发表时间:2010-03-12
pjw0221 写道 感谢指导,问题解决了,我在文件头 空了一行 就好了。
UTF-8要求无BOM格式的,这个在说明文档里已经说了。你的UTF-8一定是带BOM的,所以要空一格 |
|
返回顶楼 | |
发表时间:2010-03-13
楼主你好!我在solr1.3用了你的IKAnalyzer3.1.5GA分词,一开始用得都很好,就是在配置扩展词典的时候出错了,首先我没有找到WEBINF/classes目录,于是自己建了一个,把IKAnalyzer.cfg.xml文件放进去,然后就出错了“HTTP Status 500 - javax.servlet.ServletException: java.lang.NoClassDefFoundError: Could not initialize class org.wltea.analyzer.dic.Dictionary”好像是字典位置不对,能给我解释一下路径该怎么设置呢?我是这么设置的“<entry key="ext_dict">solr/WEB-INF/classes/t-base.dic</entry> ”,我用的是tomcat6,感谢您浪费宝贵的时间为我解答
|
|
返回顶楼 | |
发表时间:2010-03-14
treason111 写道 楼主你好!我在solr1.3用了你的IKAnalyzer3.1.5GA分词,一开始用得都很好,就是在配置扩展词典的时候出错了,首先我没有找到WEBINF/classes目录,于是自己建了一个,把IKAnalyzer.cfg.xml文件放进去,然后就出错了“HTTP Status 500 - javax.servlet.ServletException: java.lang.NoClassDefFoundError: Could not initialize class org.wltea.analyzer.dic.Dictionary”好像是字典位置不对,能给我解释一下路径该怎么设置呢?我是这么设置的“<entry key="ext_dict">solr/WEB-INF/classes/t-base.dic</entry> ”,我用的是tomcat6,感谢您浪费宝贵的时间为我解答
首先,建议你是用3.1.6GA版本,其次,出现的异常说明你的路径下面没有扩展字典,因为对字典文件的载入是使用classloader的,所以看上去像是类没找到,实际上是字典没找到。 |
|
返回顶楼 | |