发布IKAnalyzer中文分词器V3.1.5GA

linliangyi2007

浏览: 1012633 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

Solr lucene Apache 算法 SVN

祝贺网友-1987（李良杰）加盟IKAnalyzer开发团队，感谢他对solr集成部分的测试工作

V3.1.5GA版本变更：

1.新增org.wltea.analyzer.solr.IKTokenizerFactory，支持solr的TokenizerFactory接口配置

 类org.wltea.analyzer.solr.IKTokenizerFactory
说明：该类继承与solr的BaseTokenizerFactory，是IK分词器对solr项目TokenizerFactory接口的扩展实现。从版本V3.1.5起。
属性：isMaxWordLength。该属性决定分词器是否采用最大词语切分。

solr配置样例
使用IKAnalyzer的配置

<schema name="example" version="1.1">
……
<fieldType name="text" class="solr.TextField">
      <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
……
</schema>

使用IKTokenizerFactory的配置

<fieldType name="text" class="solr.TextField" >
	<analyzer type="index">
		<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>
……

	</analyzer>
	<analyzer type="query">
		<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
	……
	</analyzer>
</fieldType>

2.修订了3.1.3GA中，在特殊情况下对未知词的切分不输出的bug

3.应广大网友要求，使用JDK5.0对jar包编译发布

下载：IKAnalyzer3.1.5GA完整包

更多详细请参看《IKAnalyzer中文分词器V3.1.5使用手册》

分享到：

设计模式感悟 | 发布IK Expression开源表达式解析器 V2.1. ...

2009-10-22 23:24
浏览 10298
评论(41)
论坛回复 / 浏览 (40 / 12989)
查看更多

21 楼 shijiyu1984 2009-11-13

你使用API加载的嘛还是配置文件？能说说改了哪些东西吗？通过配置文件加载的

20 楼 linliangyi2007 2009-11-10

shijiyu1984 写道

CharacterHelper.isCJKCharacter(char input)这个方法判断的中文好像只对GB2312的编码的汉字有用对有些GBK的汉字判断好像不适用

更GB2312和GBK没有关系的，java内部使用UTF-8的内码的。
CJK字符判断的是一个固定的编码区域，落在区域内的，就认为是CJK。
这些方法只是IK的辅助工具类，并不一定使用所有的范围的，呵呵。

19 楼 linliangyi2007 2009-11-10

shijiyu1984 写道

上次在Solr1.4中将自定义字典加大字典文件7M左右出现加载字典内存溢出问题设置Tomcat的虚拟内存都没有能够解决最后采取的办法是将你加载字典的结构给修改了

你使用API加载的嘛还是配置文件？能说说改了哪些东西吗？

18 楼 shijiyu1984 2009-11-10

不知道你有什么好的解决方法？

17 楼 shijiyu1984 2009-11-10

16 楼 shijiyu1984 2009-11-10

CharacterHelper.isCJKCharacter(char input)这个方法判断的中文好像只对GB2312的编码的汉字有用对有些GBK的汉字判断好像不适用

15 楼 linliangyi2007 2009-11-10

shijiyu1984 写道

jbas 写道

老大，你的lucene是什么版本了？为什么我的是lucene-core-2.9.1中报错：
org.wltea.analyzer.solr.IKTokenizerFactory.create(Ljava/io/Reader;)Lorg/apache/lucene/analysis/Tokenizer;

java.lang.AbstractMethodError: org.wltea.analyzer.solr.IKTokenizerFactory.create(Ljava/io/Reader;)Lorg/apache/lucene/analysis/Tokenizer;

是不支持
    public TokenStream create(Reader reader) {
        return new IKAnalyzer().tokenStream("text", reader);
    }

这种写法。

IK用的Lucene版本好像是2.4的而2.9的版本修改了一些属性可能导致了这个错误

跟lucene的版本无关，2.9虽然改了分词器接口，但依然向下兼容2.4的接口。

问题已经找到，是solr1.4的TokenizerFactory接口变化造成的，在IK3.1.6中已经支持solr1.4了。

14 楼 shijiyu1984 2009-11-10

jbas 写道

IK用的Lucene版本好像是2.4的而2.9的版本修改了一些属性可能导致了这个错误

13 楼 linliangyi2007 2009-11-08

jbas 写道

您反馈的问题已经解决，原因是由于solr1.4修改了TokenizerFactory接口，与lucene2.9无关。新的IK3.1.6版本地址http://linliangyi2007.iteye.com/blog/512577

关于Lucene2.9，它的分词器接口做了新的设计，但仍然与旧接口兼容。我们会等待lucene3.0分布后，接口确定了，再跟进发布IK3.5版本的。

再次感谢您的反馈！

12 楼 lianj_lee 2009-11-08

IK3.1.6已经成功支持solr1.4，请使用下面的配置文件：

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
			<analyzer type="index">
				<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory14" isMaxWordLength="false"/>
				<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
				<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1" />
				<filter class="solr.LowerCaseFilterFactory" />
				<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
				<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
			</analyzer>
			<analyzer type="query">
				<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory14" isMaxWordLength="false"/>
				<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
				<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
				<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1" />
				<filter class="solr.LowerCaseFilterFactory" />
				<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
				<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
			</analyzer>
		</fieldType>

或者

<fieldType name="text" class="solr.TextField">
			<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
		</fieldType>

如果你使用的solr1.3，请使用下面的配置：

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
			<analyzer type="index">
				<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>
				<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
				<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1" />
				<filter class="solr.LowerCaseFilterFactory" />
				<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
				<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
			</analyzer>
			<analyzer type="query">
				<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>
				<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
				<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
				<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1" />
				<filter class="solr.LowerCaseFilterFactory" />
				<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
				<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
			</analyzer>
		</fieldType>

或者

<fieldType name="text" class="solr.TextField">
			<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
		</fieldType>

至于两者的不同之处，请细心的网友们，仔细观察，

飘过~~~~~~~

11 楼 carlkkx 2009-11-08

看来LZ对汉语有研究，像汉语这种分析语，汉语组词是非常灵活，远远超过印欧语言。但是解析复杂度也增加了。

10 楼 lianj_lee 2009-11-08

果然solr1.4的接口发生了微妙的变化

9 楼 lianj_lee 2009-11-08

将<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1" />
<filter class="solr.LowerCaseFilterFactory" />
<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1" />
<filter class="solr.LowerCaseFilterFactory" />
<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
</analyzer>
</fieldType>改为：

<fieldType name="text" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType> 就可以了。

至于为什么采用tokenizer报错，我估计是solr1.4接口发生改变，在研究中...

8 楼 linliangyi2007 2009-11-05

jbas 写道

linliangyi2007 ，你好，
我是按你文档中的写的，应该不会错的，这个问题应该是lucene-core-2.9.1修改了TokenStream 结构导致的，别的中文分词也有这个问题，但有些已经支持最新2.9.1, 请你这边再看一下了。
谢谢！

当我执行：http://localhost:8983/solr/db/select/?q=title%3A%22%E4%BA%92%E8%81%94%E7%BD%91%22&version=2.2&start=0&rows=10&indent=on 这个url 查询后，显示如下错误：

HTTP ERROR: 500
org.wltea.analyzer.solr.IKTokenizerFactory.create(Ljava/io/Reader;)Lorg/apache/lucene/analysis/Tokenizer;

java.lang.AbstractMethodError: org.wltea.analyzer.solr.IKTokenizerFactory.create(Ljava/io/Reader;)Lorg/apache/lucene/analysis/Tokenizer;
at org.apache.solr.analysis.TokenizerChain.getStream(TokenizerChain.java:69)
at org.apache.solr.analysis.SolrAnalyzer.reusableTokenStream(SolrAnalyzer.java:74)
at org.apache.solr.schema.IndexSchema$SolrIndexAnalyzer.reusableTokenStream(IndexSchema.java:364)
at org.apache.lucene.queryParser.QueryParser.getFieldQuery(QueryParser.java:567)

我的配置如下：

    <fieldType name="text" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>


        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
      <analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>

<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
    </fieldType>

感谢你的宝贵的反馈，我们会及时跟进lucene2.9.1的变更
（PS:lucene的设计真有问题，哪有老变接口，而且不向下兼容的！！！）

7 楼 jbas 2009-11-05

6 楼 lianj_lee 2009-11-05

jbas 写道

我想问下你是怎么配置的，如下配置：

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
			<analyzer type="index">
				<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>
				<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
				<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1" />
				<filter class="solr.LowerCaseFilterFactory" />
				<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
				<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
			</analyzer>
			<analyzer type="query">
				<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>
				<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
				<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
				<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1" />
				<filter class="solr.LowerCaseFilterFactory" />
				<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
				<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
			</analyzer>
		</fieldType>

还有正确的org.apache.solr.analysis.TokenizerFactory#create(java.io.Reader)方法的代码如下：

public TokenStream create(Reader reader) {
		return new IKTokenizer(reader , isMaxWordLength());
	}

5 楼 linliangyi2007 2009-11-05

jbas 写道

再说，在lucene中不需要用的IKTokenizerFactory，而应该使用IKAnalyzer啊，看说明文档吧

4 楼 linliangyi2007 2009-11-05

jbas 写道

你这段代码不是IKTokenizerFactory中的啊，是之前在帖子上发的。3.1.5GA中IKTokenizerFactory中已经不是这么写了啊

3 楼 jbas 2009-11-05

2 楼 linliangyi2007 2009-10-28

shadowlin 写道

你好,除了用googlecode的svn外,能否提供下3.1.5GA的源码啊?谢谢

请提供你的邮箱地址。

使用SVN是为了用户能及时得到最新的代码。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论