发布IKAnalyzer中文分词器V3.1.3GA生日祝福版

linliangyi2007

浏览: 1017822 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

Solr lucene 设计模式 Apache EXT

生日祝福
谨以此版本献给我的老婆，今天是她的生日，在这里，要祝福她生日快乐，天天无忧无虑。
感谢她一直以来对我从事开源项目的支持和鼓励，想对她说：谢谢你，亲爱的，有你在我身边，每一天都洋溢着满满的幸福感觉！

V3.1.3GA版本变更：

1.开放了对中文停止词表的支持，用户可以通过文件配置或API来扩展自己的停止词表

类：org.wltea.analyzer.dic.Dictionary
方法：public static void loadExtendStopWords(List<String> extStopWords)
说明：加载用户扩展的停止词列表，从版本V3.1.3起
参数1：List<String> extStopWords，扩展的停止词列表
返回值：无

IKAnalyzer.cfg.xml文件的配置

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典	 --> 
	<entry key="ext_dict">/mydict.dic; /com/mycompany/dic/mydict2.dic;</entry> 

	 <!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">/ext_stopword.dic</entry> 	
</properties>

注意：添加停止词可能会对部分的人名切分造成影响，如：陈忠和的“和”，胡适之的“之”，这些被认为是停止词的字通常可能是人名的一部分。

2.修订了3.1.2GA中，对中文词头单字切分的bug。

下载：IKAnalyzer3.1.3GA完整包

更多详细请参看《IKAnalyzer中文分词器V3.1.3使用手册》

分享到：

发布IK Expression开源表达式解析器 V2.1. ... | 发布IK Expression开源表达式解析器 V2.1. ...

2009-09-25 00:00
浏览 3630
评论(25)
论坛回复 / 浏览 (25 / 8149)
查看更多

25 楼 gaowenming 2010-09-16

linliangyi2007 写道

gaowenming 写道

afi 写道

千秋万世写道

问题解决了，问题的原因是TypeAttribute typeAttribute = (TypeAttribute) tokenStream
.getAttribute(TypeAttribute.class);
相信博主一看就明白啦

这个到底是什么地方错了，请详细解释一下谢谢！

同问？刚接触lucene，遇到此问题。

Lucene3.x的 API设计的老实说不是很好。在tokenStream 中并不一定存在TypeAttribute.class这个属性的，Lucene并没有通过接口定义强制所有的分词器实现对应的参数接口。

哦，明白了，谢谢！
现在用的分词器就是大侠的IK，希望IK越做越强大！

24 楼 linliangyi2007 2010-09-16

gaowenming 写道

afi 写道

千秋万世写道

问题解决了，问题的原因是TypeAttribute typeAttribute = (TypeAttribute) tokenStream
.getAttribute(TypeAttribute.class);
相信博主一看就明白啦

这个到底是什么地方错了，请详细解释一下谢谢！

同问？刚接触lucene，遇到此问题。

23 楼 gaowenming 2010-09-16

afi 写道

千秋万世写道

问题解决了，问题的原因是TypeAttribute typeAttribute = (TypeAttribute) tokenStream
.getAttribute(TypeAttribute.class);
相信博主一看就明白啦

这个到底是什么地方错了，请详细解释一下谢谢！

同问？刚接触lucene，遇到此问题。

22 楼 linliangyi2007 2010-05-04

86asm 写道

问下楼主，最近试用你的分词器，但是貌似在lucene3.0版本上不支持，在一个较老的版本上能够正确执行。想问的是你最新的分词器支持lucene3.0吗，我看异常好像是你的分词器有什么东西没有实现。如果不支持期待楼主尽快支持。

是你早的版本太老了，早在去年就出了3.2的IK了，上网搜索一下，je上也有

21 楼 86asm 2010-05-03

20 楼 afi 2010-05-01

千秋万世写道

问题解决了，问题的原因是TypeAttribute typeAttribute = (TypeAttribute) tokenStream
.getAttribute(TypeAttribute.class);
相信博主一看就明白啦

这个到底是什么地方错了，请详细解释一下谢谢！

19 楼千秋万世 2010-04-16

问题解决了，问题的原因是TypeAttribute typeAttribute = (TypeAttribute) tokenStream
.getAttribute(TypeAttribute.class);
相信博主一看就明白啦

18 楼千秋万世 2010-04-14

你好
我正使用ik的最新版进行开发，Lucene使用3.0版本，现在要得到分词的返回值，但是实在不知道什么原因，试过很多方法都取不到分词结果，万望指教。下面是代码。
StringReader reader = new StringReader(keywords);
TokenStream tokenStream = (TokenStream) analyzer.tokenStream("text",
reader);
Tokenizer tokenizer = (Tokenizer)tokenStream;
TermAttribute termAttribute = (TermAttribute) tokenStream
.getAttribute(TermAttribute.class);
TypeAttribute typeAttribute = (TypeAttribute) tokenStream
.getAttribute(TypeAttribute.class);
while (tokenStream.incrementToken()) {
System.out.print(termAttribute.term());
System.out.print(' ');
System.out.println(typeAttribute.type());
}
报的异常是：
Exception in thread "main" java.lang.IllegalArgumentException: This AttributeSource does not have the attribute 'org.apache.lucene.analysis.tokenattributes.TypeAttribute'.
at org.apache.lucene.util.AttributeSource.getAttribute(AttributeSource.java:277)
at cdt.searchEngine.util.IndexResourcesUtil.tokenizer(IndexResourcesUtil.java:125)
at cdt.searchEngine.Searcher.Searcher.searchIndex(Searcher.java:51)
at cdt.searchEngine.Searcher.Searcher.main(Searcher.java:69)

17 楼 jitabc 2009-10-19

IK+compass效果挺好。。。

16 楼 linliangyi2007 2009-10-19

yyq_101 写道

我想请问一下你的IkQueryParser里面是不是不支持lucene的语法，比如OR AND NOT之类的

不支持的，IKQeuryParser针对于一般用户的关键字输入进行处理的。它的主要工作是对分词中的歧义词元进行合理组合。

15 楼 yyq_101 2009-10-19

我想请问一下你的IkQueryParser里面是不是不支持lucene的语法，比如OR AND NOT之类的

14 楼 giginet 2009-09-28

恭喜恭喜。最近在用这个开源组件，很不错。顺便把帖子顶起。

13 楼 linliangyi2007 2009-09-26

josephlong 写道

成功了
但是现在的问题是
我添加了这样的一条文档
<add>
<doc>
<field name="id">4564456</field>
<field name="kw">浏阳模式</field>
<field name="desc">浏阳模式浏阳模式浏阳模式浏阳模式</field>
</doc>
</add>

<lst name="topTerms">
<int name="浏阳">1</int>
<int name="模式">1</int>
</lst>
分词成功
可是我在solr1.3中用浏阳或模式搜不出来，只能用”浏阳模式“模式可以搜出来
这是为什么呀
我本想用：
本报讯据《南方都市报》报道，9月21日起，湖南浏阳拟提职的75名领导干部在浏阳党风廉政网上公布他们的年收入、房产、投资、车辆等所有财产，预示着酝酿半年的浏阳官员财产公示制度终于出台。浏阳模式，广告因其公开资料最齐全、公开方式最大众，而被称为“最彻底”模式。

　　打开浏阳党风廉政网廉情公示栏目，75名拟任职领导干部的寸照立即映入眼帘。
这搜出 “浏阳模式”
可以做到吗
谢谢

这个应该就不是分词器的问题了，不知道你的搜索逻辑出了什么问题，还是你之前建立索引的时候就不对了，你的要的效果是最基本的搜索结果，可以尝试重建索引吧，并且建索引时用的分词器最好和搜索时的一致。

更多的solr搜索应用，建议你查询网络上的参考文章，毕竟这个不是本帖的主要内容。谢谢啦。

12 楼 josephlong 2009-09-26

linliangyi2007 写道

josephlong 写道

晕，
我已经说了

solr1.3用Tokenizer做为返回类型，而例子是TokenStream 所以报错呀，明白了吗！

帮你看了solr的源码了，你的用法根本是不对的，ChineseTokenizerFactory是专门对Lucene自带的ChineseAnalyzer使用的，你不能这么用，返回的Tokenizer类型都不对啊。

直接实现org.apache.solr.analysis.Interface.TokenizerFactory接口写个IKTokenizerFactory吧，如下：

public　class　IKTokenizerFactory　extends　BaseTokenizerFactory　{　 
　 
　@Override　 
　public　Tokenizer create(Reader　reader)　{　 
　return　(Tokenizer) (new　IKAnalyzer().tokenStream("text",　reader));　 
　}

你也真够懒的，问我这么多来回的时间，早就能写完这个代码了。

11 楼 josephlong 2009-09-26

我试试

linliangyi2007 写道

josephlong 写道

晕，
我已经说了

solr1.3用Tokenizer做为返回类型，而例子是TokenStream 所以报错呀，明白了吗！

public　class　IKTokenizerFactory　extends　BaseTokenizerFactory　{　 
　 
　@Override　 
　public　Tokenizer create(Reader　reader)　{　 
　return　(Tokenizer) (new　IKAnalyzer().tokenStream("text",　reader));　 
　}

你也真够懒的，问我这么多来回的时间，早就能写完这个代码了。

10 楼 linliangyi2007 2009-09-26

josephlong 写道

晕，
我已经说了

solr1.3用Tokenizer做为返回类型，而例子是TokenStream 所以报错呀，明白了吗！

public　class　IKTokenizerFactory　extends　BaseTokenizerFactory　{　 
　 
　@Override　 
　public　Tokenizer create(Reader　reader)　{　 
　return　(Tokenizer) (new　IKAnalyzer().tokenStream("text",　reader));　 
　}

你也真够懒的，问我这么多来回的时间，早就能写完这个代码了。

9 楼 josephlong 2009-09-26

晕，
我已经说了

solr1.3用Tokenizer做为返回类型，而例子是TokenStream 所以报错呀，明白了吗！

linliangyi2007 写道

josephlong 写道

关键是这个代码都没有编译过去呀，
他们的不是一个对象类型，所以无法编译
明白了吗

linliangyi2007 写道

josephlong 写道

这个就是详细的呀，我是在网上看到ik和solr整合的我也照着做了，出现下面说的情况，你有官方的整合方案吗？

晕死！

请你把程序执行时抛出的异常发给我好吧，我要的不是你的代码啊，而是执行后抛的异常。

你的JDK版本不对，class loader没法载入，用JDK6.0的吧。或者下载IK的源码，在本地进行重新编译。

8 楼 linliangyi2007 2009-09-25

josephlong 写道

关键是这个代码都没有编译过去呀，
他们的不是一个对象类型，所以无法编译
明白了吗

linliangyi2007 写道

josephlong 写道

这个就是详细的呀，我是在网上看到ik和solr整合的我也照着做了，出现下面说的情况，你有官方的整合方案吗？

晕死！

请你把程序执行时抛出的异常发给我好吧，我要的不是你的代码啊，而是执行后抛的异常。

你的JDK版本不对，class loader没法载入，用JDK6.0的吧。或者下载IK的源码，在本地进行重新编译。

7 楼 josephlong 2009-09-25

关键是这个代码都没有编译过去呀，
他们的不是一个对象类型，所以无法编译
明白了吗

linliangyi2007 写道

josephlong 写道

这个就是详细的呀，我是在网上看到ik和solr整合的我也照着做了，出现下面说的情况，你有官方的整合方案吗？

晕死！

请你把程序执行时抛出的异常发给我好吧，我要的不是你的代码啊，而是执行后抛的异常。

6 楼 linliangyi2007 2009-09-25

josephlong 写道

这个就是详细的呀，我是在网上看到ik和solr整合的我也照着做了，出现下面说的情况，你有官方的整合方案吗？

晕死！

请你把程序执行时抛出的异常发给我好吧，我要的不是你的代码啊，而是执行后抛的异常。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论