发布IKAnalyzer中文分词器V3.1.5GA

linliangyi2007

浏览: 1018039 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

Solr lucene Apache 算法 SVN

祝贺网友-1987（李良杰）加盟IKAnalyzer开发团队，感谢他对solr集成部分的测试工作

V3.1.5GA版本变更：

1.新增org.wltea.analyzer.solr.IKTokenizerFactory，支持solr的TokenizerFactory接口配置

 类org.wltea.analyzer.solr.IKTokenizerFactory
说明：该类继承与solr的BaseTokenizerFactory，是IK分词器对solr项目TokenizerFactory接口的扩展实现。从版本V3.1.5起。
属性：isMaxWordLength。该属性决定分词器是否采用最大词语切分。

solr配置样例
使用IKAnalyzer的配置

<schema name="example" version="1.1">
……
<fieldType name="text" class="solr.TextField">
      <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
……
</schema>

使用IKTokenizerFactory的配置

<fieldType name="text" class="solr.TextField" >
	<analyzer type="index">
		<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>
……

	</analyzer>
	<analyzer type="query">
		<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
	……
	</analyzer>
</fieldType>

2.修订了3.1.3GA中，在特殊情况下对未知词的切分不输出的bug

3.应广大网友要求，使用JDK5.0对jar包编译发布

下载：IKAnalyzer3.1.5GA完整包

更多详细请参看《IKAnalyzer中文分词器V3.1.5使用手册》

分享到：

设计模式感悟 | 发布IK Expression开源表达式解析器 V2.1. ...

2009-10-22 23:24
浏览 10361
评论(41)
论坛回复 / 浏览 (40 / 13035)
查看更多

41 楼 jayghost 2012-05-02

感谢，刚试了我配置的nutch1.4+solr3.5+IKAnalyzer2012_u4也完全可以哈

40 楼 linliangyi2007 2010-06-09

comsci 写道

linliangyi兄，你可以用IKANALYZER参加“龙芯杯”开源软件大奖赛

这里是官网
http://www.freeloongson.com/

谢谢抬举

39 楼 comsci 2010-06-09

linliangyi兄，你可以用IKANALYZER参加“龙芯杯”开源软件大奖赛

这里是官网
http://www.freeloongson.com/

38 楼 linliangyi2007 2010-06-09

ww362715 写道

可不可以大概的讲下正向迭代最细粒度切分算法！！
thank you

输入“中华人民共和国” 输出中华|华人|人民|共和|共和国|人民共和国|中华人民共和国

这些都是包含在词库中的有效词，从左到右（正向），按照最细粒度（能成词的都切分）输出，在对文章扫描过程中，使用了迭代匹配，这样只要扫过一遍，就能输出所有交叉的次元。

37 楼 ww362715 2010-06-09

可不可以大概的讲下正向迭代最细粒度切分算法！！
thank you

36 楼 ctxyzhanwei 2010-05-21

linliangyi2007 写道

ctxyzhanwei 写道

linliangyi2007 写道

ctxyzhanwei 写道

楼主，public final class IKTokenizerFactory extends BaseTokenizerFactory 中缺少org.apache.solr.analysis.BaseTokenizerFactory

碰到这种问题，先检查自己的编译环境吧，IK不可能没测试就发布的。

另外，建议使用3.1.6GA，支持1.5的jdk

如果你使用lucene2.9-3.0.，建议使用3.2.3Stable 版本

我用的是lucene3.0.1，IK用的是3.2.0Stable,用3.2.3的也是这个样子，莫非我下的不是完整版的？

那么你怎么会用到solr的API？你的solr版本多少？还是你没看API文档啊！！

啊。。。

搞错了。。嘿嘿。我把它一起搞进去了。

35 楼 linliangyi2007 2010-05-21

ctxyzhanwei 写道

linliangyi2007 写道

ctxyzhanwei 写道

楼主，public final class IKTokenizerFactory extends BaseTokenizerFactory 中缺少org.apache.solr.analysis.BaseTokenizerFactory

我用的是lucene3.0.1，IK用的是3.2.0Stable,用3.2.3的也是这个样子，莫非我下的不是完整版的？

那么你怎么会用到solr的API？你的solr版本多少？还是你没看API文档啊！！

34 楼 ctxyzhanwei 2010-05-21

linliangyi2007 写道

ctxyzhanwei 写道

楼主，public final class IKTokenizerFactory extends BaseTokenizerFactory 中缺少org.apache.solr.analysis.BaseTokenizerFactory

我用的是lucene3.0.1，IK用的是3.2.0Stable,用3.2.3的也是这个样子，莫非我下的不是完整版的？

33 楼 linliangyi2007 2010-05-20

ww362715 写道

<fieldType name="text" class="solr.TextField" >
    <analyzer type="index">
        <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>
……

    </analyzer>
    <analyzer type="query">
        <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
    ……
    </analyzer>
</fieldType>

想问下这个配置是什么意思？？ <analyzer type="index"> 和    <analyzer type="query"> 用来做什么的？
谢谢！！！

不好意思，这个可不是IK的知识，是Solr的标准配置，请参考solr的文档吧，谢谢

32 楼 ww362715 2010-05-20

31 楼 linliangyi2007 2010-05-18

ctxyzhanwei 写道

楼主，public final class IKTokenizerFactory extends BaseTokenizerFactory 中缺少org.apache.solr.analysis.BaseTokenizerFactory

30 楼 ctxyzhanwei 2010-05-18

楼主，public final class IKTokenizerFactory extends BaseTokenizerFactory 中缺少org.apache.solr.analysis.BaseTokenizerFactory

29 楼 linliangyi2007 2010-05-11

zha_zi 写道

linliangyi2007 写道

zha_zi 写道

林老师你好，我在nutch中使用ik的时候经常会遇到搜索某些词语的时候报
java.lang.StringIndexOutOfBoundsException: String index out of range: -2
at java.lang.String.substring(String.java:1938)
at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:187)
at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:251)
请问这是什么原因？等待解答

这个是Nutch的老问题了，所有交叉分词的算法nutch都用这个bug，nutch中的词元不能交叉，包括CJK，IK，paoding等

谢谢林老师指点，那目前这种问题能不能解决，是不是nutch独有的问题，如何我用Heritrix+lucene会不会出现同样问题？

是nutch独有的，和lucene无关，Heritrix我没接触，应该不会又同样的问题吧！

28 楼 zha_zi 2010-05-11

linliangyi2007 写道

zha_zi 写道

这个是Nutch的老问题了，所有交叉分词的算法nutch都用这个bug，nutch中的词元不能交叉，包括CJK，IK，paoding等

谢谢林老师指点，那目前这种问题能不能解决，是不是nutch独有的问题，如何我用Heritrix+lucene会不会出现同样问题？

27 楼 linliangyi2007 2010-04-30

zha_zi 写道

这个是Nutch的老问题了，所有交叉分词的算法nutch都用这个bug，nutch中的词元不能交叉，包括CJK，IK，paoding等

26 楼 zha_zi 2010-04-29

25 楼 linliangyi2007 2009-12-21

举个例子，我好改进哈

24 楼 mfkvfn 2009-12-21

IKAnalyzer不怎么好，很多句子都分词不正确。
还没有Paoding好用。

23 楼 linliangyi2007 2009-11-13

shijiyu1984 写道

你使用API加载的嘛还是配置文件？能说说改了哪些东西吗？通过配置文件加载的

两种方式都支持，请看说明文档，写的很清楚

22 楼 shijiyu1984 2009-11-13

linliangyi2007 写道

shijiyu1984 写道

CharacterHelper.isCJKCharacter(char input)这个方法判断的中文好像只对GB2312的编码的汉字有用对有些GBK的汉字判断好像不适用

更GB2312和GBK没有关系的，java内部使用UTF-8的内码的。
CJK字符判断的是一个固定的编码区域，落在区域内的，就认为是CJK。
这些方法只是IK的辅助工具类，并不一定使用所有的范围的，呵呵。

这个我试过了如果用一个GBK的字的话你这个就判断不了，比如：这个字判断不了

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论