`
linliangyi2007
  • 浏览: 1012635 次
  • 性别: Icon_minigender_1
  • 来自: 福州
社区版块
存档分类
最新评论

发布IKAnalyzer中文分词器V3.1.5GA

阅读更多
祝贺网友-1987(李良杰)加盟IKAnalyzer开发团队,感谢他对solr集成部分的测试工作

V3.1.5GA版本变更:

1.新增org.wltea.analyzer.solr.IKTokenizerFactory,支持solr的TokenizerFactory接口配置

 类org.wltea.analyzer.solr.IKTokenizerFactory
说明:该类继承与solr的BaseTokenizerFactory,是IK分词器对solr项目TokenizerFactory接口的扩展实现。从版本V3.1.5起。
属性:isMaxWordLength。该属性决定分词器是否采用最大词语切分。


solr配置样例
使用IKAnalyzer的配置
<schema name="example" version="1.1">
……
<fieldType name="text" class="solr.TextField">
      <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
……
</schema>


使用IKTokenizerFactory的配置
<fieldType name="text" class="solr.TextField" >
	<analyzer type="index">
		<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>
……

	</analyzer>
	<analyzer type="query">
		<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
	……
	</analyzer>
</fieldType>


2.修订了3.1.3GA中,在特殊情况下对未知词的切分不输出的bug

3.应广大网友要求,使用JDK5.0对jar包编译发布


下载 :IKAnalyzer3.1.5GA完整包

更多详细请参看《IKAnalyzer中文分词器V3.1.5使用手册》






分享到:
评论
41 楼 jayghost 2012-05-02  
感谢,刚试了我配置的nutch1.4+solr3.5+IKAnalyzer2012_u4也完全可以哈
40 楼 linliangyi2007 2010-06-09  
comsci 写道
linliangyi兄,你可以用IKANALYZER参加“龙芯杯”开源软件大奖赛

这里是官网
http://www.freeloongson.com/


谢谢抬举
39 楼 comsci 2010-06-09  
linliangyi兄,你可以用IKANALYZER参加“龙芯杯”开源软件大奖赛

这里是官网
http://www.freeloongson.com/
38 楼 linliangyi2007 2010-06-09  
ww362715 写道
可不可以大概的讲下正向迭代最细粒度切分算法!!
thank you


输入“中华人民共和国” 输出 中华|华人|人民|共和|共和国|人民共和国|中华人民共和国

这些都是包含在词库中的有效词,从左到右(正向),按照最细粒度(能成词的都切分)输出,在对文章扫描过程中,使用了迭代匹配,这样只要扫过一遍,就能输出所有交叉的次元。
37 楼 ww362715 2010-06-09  
可不可以大概的讲下正向迭代最细粒度切分算法!!
thank you
36 楼 ctxyzhanwei 2010-05-21  
linliangyi2007 写道
ctxyzhanwei 写道
linliangyi2007 写道
ctxyzhanwei 写道
楼主,public final class IKTokenizerFactory extends BaseTokenizerFactory 中缺少org.apache.solr.analysis.BaseTokenizerFactory


碰到这种问题,先检查自己的编译环境吧,IK不可能没测试就发布的。

另外,建议使用3.1.6GA,支持1.5的jdk

如果你使用lucene2.9-3.0.,建议使用3.2.3Stable 版本

我用的是lucene3.0.1,IK用的是3.2.0Stable,用3.2.3的也是这个样子,莫非我下的不是完整版的?


那么你怎么会用到solr的API?你的solr版本多少?还是你没看API文档啊!!

啊。。。 搞错了。。嘿嘿。我把它一起搞进去了。
35 楼 linliangyi2007 2010-05-21  
ctxyzhanwei 写道
linliangyi2007 写道
ctxyzhanwei 写道
楼主,public final class IKTokenizerFactory extends BaseTokenizerFactory 中缺少org.apache.solr.analysis.BaseTokenizerFactory


碰到这种问题,先检查自己的编译环境吧,IK不可能没测试就发布的。

另外,建议使用3.1.6GA,支持1.5的jdk

如果你使用lucene2.9-3.0.,建议使用3.2.3Stable 版本

我用的是lucene3.0.1,IK用的是3.2.0Stable,用3.2.3的也是这个样子,莫非我下的不是完整版的?


那么你怎么会用到solr的API?你的solr版本多少?还是你没看API文档啊!!
34 楼 ctxyzhanwei 2010-05-21  
linliangyi2007 写道
ctxyzhanwei 写道
楼主,public final class IKTokenizerFactory extends BaseTokenizerFactory 中缺少org.apache.solr.analysis.BaseTokenizerFactory


碰到这种问题,先检查自己的编译环境吧,IK不可能没测试就发布的。

另外,建议使用3.1.6GA,支持1.5的jdk

如果你使用lucene2.9-3.0.,建议使用3.2.3Stable 版本

我用的是lucene3.0.1,IK用的是3.2.0Stable,用3.2.3的也是这个样子,莫非我下的不是完整版的?
33 楼 linliangyi2007 2010-05-20  
ww362715 写道
<fieldType name="text" class="solr.TextField" > 
    <analyzer type="index"> 
        <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/> 
……  
 
    </analyzer> 
    <analyzer type="query"> 
        <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/> 
    ……  
    </analyzer> 
</fieldType> 


想问下这个配置是什么意思?? <analyzer type="index">  和    <analyzer type="query">  用来做什么的?
谢谢!!!


不好意思,这个可不是IK的知识,是Solr的标准配置,请参考solr的文档吧,谢谢
32 楼 ww362715 2010-05-20  
<fieldType name="text" class="solr.TextField" > 
    <analyzer type="index"> 
        <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/> 
……  
 
    </analyzer> 
    <analyzer type="query"> 
        <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/> 
    ……  
    </analyzer> 
</fieldType> 


想问下这个配置是什么意思?? <analyzer type="index">  和    <analyzer type="query">  用来做什么的?
谢谢!!!
31 楼 linliangyi2007 2010-05-18  
ctxyzhanwei 写道
楼主,public final class IKTokenizerFactory extends BaseTokenizerFactory 中缺少org.apache.solr.analysis.BaseTokenizerFactory


碰到这种问题,先检查自己的编译环境吧,IK不可能没测试就发布的。

另外,建议使用3.1.6GA,支持1.5的jdk

如果你使用lucene2.9-3.0.,建议使用3.2.3Stable 版本
30 楼 ctxyzhanwei 2010-05-18  
楼主,public final class IKTokenizerFactory extends BaseTokenizerFactory 中缺少org.apache.solr.analysis.BaseTokenizerFactory
29 楼 linliangyi2007 2010-05-11  
zha_zi 写道
linliangyi2007 写道
zha_zi 写道
林老师你好,我在nutch中使用ik的时候经常会遇到搜索某些词语的时候报
java.lang.StringIndexOutOfBoundsException: String index out of range: -2
at java.lang.String.substring(String.java:1938)
at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:187)
at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:251)
  请问这是什么原因?等待解答


这个是Nutch的老问题了,所有交叉分词的算法nutch都用这个bug,nutch中的词元不能交叉,包括CJK,IK,paoding等

谢谢林老师指点,那目前这种问题能不能解决,是不是nutch独有的问题,如何我用Heritrix+lucene会不会出现同样问题?


是nutch独有的,和lucene无关,Heritrix我没接触,应该不会又同样的问题吧!
28 楼 zha_zi 2010-05-11  
linliangyi2007 写道
zha_zi 写道
林老师你好,我在nutch中使用ik的时候经常会遇到搜索某些词语的时候报
java.lang.StringIndexOutOfBoundsException: String index out of range: -2
at java.lang.String.substring(String.java:1938)
at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:187)
at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:251)
  请问这是什么原因?等待解答


这个是Nutch的老问题了,所有交叉分词的算法nutch都用这个bug,nutch中的词元不能交叉,包括CJK,IK,paoding等

谢谢林老师指点,那目前这种问题能不能解决,是不是nutch独有的问题,如何我用Heritrix+lucene会不会出现同样问题?
27 楼 linliangyi2007 2010-04-30  
zha_zi 写道
林老师你好,我在nutch中使用ik的时候经常会遇到搜索某些词语的时候报
java.lang.StringIndexOutOfBoundsException: String index out of range: -2
at java.lang.String.substring(String.java:1938)
at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:187)
at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:251)
  请问这是什么原因?等待解答


这个是Nutch的老问题了,所有交叉分词的算法nutch都用这个bug,nutch中的词元不能交叉,包括CJK,IK,paoding等
26 楼 zha_zi 2010-04-29  
林老师你好,我在nutch中使用ik的时候经常会遇到搜索某些词语的时候报
java.lang.StringIndexOutOfBoundsException: String index out of range: -2
at java.lang.String.substring(String.java:1938)
at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:187)
at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:251)
  请问这是什么原因?等待解答
25 楼 linliangyi2007 2009-12-21  
举个例子,我好改进哈
24 楼 mfkvfn 2009-12-21  
IKAnalyzer不怎么好,很多句子都分词不正确。
还没有Paoding好用。
23 楼 linliangyi2007 2009-11-13  
shijiyu1984 写道


你使用API加载的嘛还是配置文件?能说说改了哪些东西吗?通过配置文件加载的


两种方式都支持,请看说明文档,写的很清楚
22 楼 shijiyu1984 2009-11-13  
linliangyi2007 写道
shijiyu1984 写道
CharacterHelper.isCJKCharacter(char input)这个方法判断的中文好像只对GB2312的编码的汉字有用 对有些GBK的汉字判断好像不适用


更GB2312和GBK没有关系的,java内部使用UTF-8的内码的。
CJK字符判断的是一个固定的编码区域,落在区域内的,就认为是CJK。
这些方法只是IK的辅助工具类,并不一定使用所有的范围的,呵呵。

这个我试过了 如果用一个GBK的字的话 你这个就判断不了,比如:这个字判断不了

相关推荐

    IKAnalyzer中文分词器V2012使用手册_20190806.pdf

    例如,IK分词器版本3.1.3GA及先前版本兼容Lucene 2.9.1及之前版本,而3.1.5GA及之后的版本则兼容Solr 1.3和1.4。IKAnalyzer2012还兼容Lucene 3.3以上版本,并为Solr 1.4提供了接口实现。 安装部署方面,IKAnalyzer...

    IKAnalyzer中文分词器v2012使用手册.pdf

    标题:"IKAnalyzer中文分词器v2012使用手册" 所述的知识点包括: IKAnalyzer是一款开源的基于Java语言开发的轻量级中文分词工具包,最早版本于2006年12月发布。作为一个文本分析组件,它最初是作为开源项目Lucene的...

    IKAnalyzer中文分词器V3.2使用

    **IKAnalyzer中文分词器V3.2使用详解** IKAnalyzer是一款开源的、适用于Java环境的中文分词器,主要用于解决在信息检索、文本挖掘等领域中遇到的中文处理问题。这款分词器的设计目标是提高分词的准确率,并且具有...

    IKAnalyzer中文分词器

    ### IKAnalyzer中文分词器V3.1.6:深入解析与使用指南 #### 一、IKAnalyzer3.0概述 IKAnalyzer是一个基于Java语言开发的高性能中文分词工具包,自2006年发布以来,已历经多次迭代升级。起初作为开源项目Lucene的一...

    IKAnalyzer中文分词计算句子相似度

    **IKAnalyzer中文分词** IKAnalyzer是一款开源的、基于Java实现的中文分词工具,它在中文信息处理领域有着广泛的应用。该工具最初由尹军平(IkGuo)开发,设计目标是提供一个轻量级、高效能的中文分词引擎,用于...

    IKAnalyzer中文分词器V3.2.0

    **IKAnalyzer中文分词器V3.2.0详解** IKAnalyzer是一款专为中文处理设计的开源分词器,广泛应用于搜索引擎、信息检索系统、文本挖掘等领域。它以高效、灵活和准确的特性,在Java开发的中文应用中占有重要地位。V...

    IKAnalyzer中文分词器V2012_U5使用手册

    ### IKAnalyzer中文分词器V2012_U5使用手册关键知识点解析 #### 1. IKAnalyzer2012介绍 IKAnalyzer是一款基于Java语言开发的开源中文分词工具包,自2006年12月发布1.0版以来,已历经多次重大升级。最初作为Lucene...

    IKAnalyzer中文分词器V2012使用手册

    ### IKAnalyzer中文分词器V2012使用手册知识点详解 #### 1. IKAnalyzer2012介绍 IKAnalyzer是一款开源的、基于Java语言开发的轻量级中文分词工具包。自2006年12月发布1.0版以来,已历经多次迭代,至2012版本时,它...

    IKAnalyzer中文分词器V3.1.1使用手册

    ### IKAnalyzer中文分词器V3.1.1使用手册 #### 1. IKAnalyzer 3.1.1 介绍 IKAnalyzer是一个基于Java语言开发的开源轻量级中文分词工具包。自2006年12月发布1.0版本以来,IKAnalyzer已经经历了多个版本的迭代,不断...

    IK Analyzer中文分词器

    **IK Analyzer中文分词器详解** IK Analyzer是一个在IT领域广泛应用的开源项目,它专注于Java平台上的中文分词处理。中文分词是自然语言处理(NLP)中的基础任务,对于信息检索、文本挖掘、机器翻译等领域至关重要...

    IKAnalyzer中文分词器 java

    - **IKAnalyzer中文分词器V2012使用手册.pdf**:这是一份详细的操作指南,提供了如何使用IKAnalyzer的步骤、配置说明和常见问题解答,对于初学者来说非常有用。 - **IK Analyzer 2012FF_hf1_source.rar**:这是IK...

    IK Analyzer 中文分词器下载

    IK Analyzer 是一个开源的、基于Java实现的中文分词器,专为全文检索或信息提取等任务设计。它由尹力(Wu Li)在2006年发起,最初是为了改善Lucene的中文处理能力。自那时起,IK Analyzer已经发展成为一个广泛使用的...

    IKAnalyzer中文分词器 v3.2.0 源码包

    IKAnalyzer是一款广泛应用于Java环境中的开源中文分词器,它主要设计用于提高搜索引擎的性能,同时也适用于其他需要中文处理的领域。v3.2.0是该分词器的一个稳定版本,提供了良好的分词效果和较高的性能。在这个版本...

    Java IKAnalyzer 中文分词器

    IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,也就是可以将一串中文字符分割成一个个的词组或者字词 文件中包含分词工具 ikanalyzer-2012_u6.jar 中文分词配置 IKAnalyzer.cfg..xml

    IKAnalyzer中文分词器支持Lucene6.0以上

    提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。

    IKAnalyzer 中文分词 完整java项目demo

    IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可

    ikanalyzer中文分词支持lucene7.1.0

    ikanalyzer中文分词支持lucene7.1.0是一个针对Lucene搜索引擎的中文分词扩展,由林良益先生开发,旨在提供高效、精准的中文词汇拆解功能。Lucene是一个开源全文检索库,它提供了索引和搜索文本的强大工具。然而,...

    \IKAnalyzer中文分词器V3.1.3使用手册.pdf

    ### IKAnalyzer中文分词器V3.1.3使用手册概览 #### 1. IKAnalyzer3.0介绍 IKAnalyzer是一款专为中文文本处理设计的高性能分词工具包,自2006年首次发布以来,已历经多次迭代升级至V3.1.3版本。最初作为Lucene项目...

Global site tag (gtag.js) - Google Analytics