发布 IK Analyzer 3.2.8 for Lucene3.X

linliangyi2007

浏览: 1013002 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

lucene Gmail Google 算法 F#

IK Analyzer 3.2.8版本修订

1.优化了英文字符处理，支持如：C++ 等带符号单词输出
2.简化了数词处理，使输出结果更符合用户观感
3.改进了最大词长切分，使输出结果更符合用户观感
4.性能优化，目前IK分词器的速度为约85万字/秒(1600K字节/S)
5.新增IK简易查询表达式，简化用户使用

以下对新增的查询表达式做详细说明：

IK3.2.8版本为简化用户对查询逻辑的处理，提供了基于表达式的搜索逻辑处理。它与Lucene自带表达式的不同之处，在于它采用了IKQueryParser对中文分词歧义处理的算法。相对Lucene QueryParser而言，用它生成的Query对象也许更能命中搜索结果。

表达式样例：

id='1231' && (title:'文档标题'|| content:'内容') – author='helloworld'

1.表达式使用属性名<->属性值键值对的形式，属性值使用”’”单引号标识。
2.在键值对中使用 “=”等号，表示对该属性的精确搜索（不分词），适用于对ID、编号、分类等精确值属性搜索；使用“： ”冒号表示对属性的模糊搜索（分词搜索），适用于文本内容的全文搜索。
3.在使用“： ”时，连续的搜索关键字将解析为 AND 逻辑，如果关键字中带有空格，这解析为OR逻辑。如：title:'文档标题' 表示搜索title中同时包含“文档”AND“标题“的数据，title:'文档＿标题' 表示搜索title中包含“文档”OR“标题“。（这个例子中，我们默认你使用的IK分词器能将”文档标题“切分为”文档“和”标题“两个词）
4.表达式支持“&&”与 “||” 或“-”非的逻辑操作，以及“( )”括号优先级定义。注意“-”非逻辑不能单独使用，即 “– author='helloworld'” 是非法表达式。
5.目前就是这么简单，暂不支持更复杂的搜索逻辑：）.

下载地址：

IK分词器3.2.8发布包

IK分词器3.2.8源码包

PS:如果您使用的是Solr1.3或者v2.9之前的Lucene，请下载IK Analyzer3.1.6GA使用！ IK Analyzer3.2.X仅支持Lucene3.0以上版本。

分词效果示例
IK Analyzer 3.2.8版本支持细粒度切分和最大词长切分，以下是两种切分方式的演示样例。
文本原文1:
IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了3个大版本。

最大词长分词结果:

引用

ikanalyzer | 是 | 一个 | 开源 | 的 | 基于 | java | 语言 | 开发 | 的 | 轻量级 | 的 | 中文 | 分词 | 工具包 | 从 | 2006 | 年 | 12 | 月 | 推出 | 1.0 | 版 | 开始 | ikanalyzer | 已经 | 推出 | 出了 | 3 | 个 | 大 | 版本

最细粒度分词结果:

引用

ikanalyzer | 是 | 一个 | 一 | 个 | 开源 | 的 | 基于 | java | 语言 | 开发 | 的 | 轻量级 | 量级 | 的 | 中文 | 分词 | 工具包 | 工具 | 从 | 2006 | 年 | 12 | 月 | 推出 | 1.0 | 版 | 开始 | ikanalyzer | 已经 | 推出 | 出了 | 3 | 个 | 大 | 版本

文本原文2:
作者博客：linliangyi2007.iteye.com 电子邮件：linliangyi2005@gmail.com

最大词长分词结果:

引用

作者 | 博客 | linliangyi2007.iteye.com | 电子邮件 | linliangyi2005@gmail.com

最细粒度分词结果:

引用

作者 | 博客 | linliangyi2007.iteye.com | linliangyi | 2007 | javaeye | com | 电子邮件 | linliangyi2005@gmail.com | linliangyi | 2005 | gmail | com

文本原文3
古田县城关六一四路四百零五号

最大词长分词结果:

引用

古田县 | 县城 | 城关 | 六一四 | 路 | 四百零五 | 号

最细粒度分词结果:

引用

古田县 | 古田 | 县城 | 城关 | 六一四 | 六一 | 四 | 路 | 四百零五 | 四 | 百 | 零 | 五 | 号

文本原文4
曙光天阔 I620r-G /A950r-F 夏普SH9020C

最大词长分词结果:

引用

曙光 | 天 | 阔 | i620r-g | a950r-f | 夏普 | sh9020c

最细粒度分词结果:

引用

曙光 | 天 | 阔 | i620r-g | i | 620 | r | g | a950r-f | a | 950 | r | f | 夏普 | sh9020c | sh | 9020 | c

分享到：

分享一个Lucene索引公用组件--LuciMint | TIPS - XML CDATA中的非法字符处理

2011-03-04 17:49
浏览 14255
评论(44)
分类:企业架构
查看更多

24 楼 Iloseyou 2011-07-29

linliangyi2007 写道

Iloseyou 写道

4.性能优化，目前IK分词器的速度为约85万字/秒(1600K字节/S)
------------速度超过庖丁了。。。。。
现在使用庖丁。。。我是不是考虑换成IK了。。。。。。。。。
支持IK的给我几点介意

速度不是分词器的核心啊，不建议因为速度去更换一个分词器。

IK在后期考虑用速度换效果。实际上分词效果才是关键的问题

哦先谢谢林老师的快速答复！
这里还有个小问题假如我用IK + lucene3.3 或者 solr1.4 引用hadoop都没有问题的吧。。。。庖丁很久没有更新了今后肯定会被超越目前IK分词效果已经超过庖丁了吗？

23 楼 linliangyi2007 2011-07-29

Iloseyou 写道

速度不是分词器的核心啊，不建议因为速度去更换一个分词器。

IK在后期考虑用速度换效果。实际上分词效果才是关键的问题

22 楼 Iloseyou 2011-07-28

21 楼 linliangyi2007 2011-07-24

vk14311 写道

不知道是否有此问题。main.dic的第一行好像是无效的。无论我输入什么词组都不会按照其进行分词，除了第一行以外的都词组都可以进行分词。

那说明这个dic文件时有BOM的UTF-8，需要另存为无BOM的UTF-8格式，那么第一行就OK了

20 楼 vk14311 2011-07-23

不知道是否有此问题。main.dic的第一行好像是无效的。无论我输入什么词组都不会按照其进行分词，除了第一行以外的都词组都可以进行分词。

19 楼 hollo08 2011-06-29

hollo08 写道

现在使用的是tomcat5,IKAnalyzer 3.2.5还是出现了java.lang.NoClassDefFoundError: Could not initialize class org.wltea.analyzer.dic.Dictionary这个问题。
已经将ext_stopword.dic，IKAnalyzer.cfg.xml放在了classes文件件下。
IKAnalyzer.cfg.xml的内容是

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>


</properties>

换成3.2.8版本就好了

18 楼 hollo08 2011-06-24

17 楼 linliangyi2007 2011-05-29

aunox 写道

报错误：

使用jar列表：
IKAnalyzer3.2.3Stable.jar
lucene-core-3.0.2.jar

java代码如下：
--------------------------------------------------------------------

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

public class TestIKAnalyzer {

	public static void main(String[] args) throws IOException {
		Analyzer analyzer = new IKAnalyzer();

		TokenStream tokenStream = analyzer.tokenStream("", new StringReader(
				"永和服装饰品有限公司"));
		// 2.x写法 3.0之后不支持了

		// Token token = new Token();
		//
		// while (tokenStream.next(token) != null) {
		// System.out.println(token.term());
		// }

		// 3.x的写法
		TermAttribute termAtt = tokenStream.getAttribute(TermAttribute.class);
		TypeAttribute typeAtt = tokenStream.getAttribute(TypeAttribute.class);

		while (tokenStream.incrementToken()) {
			System.out.print(termAtt.term());
			System.out.print(' ');
			System.out.println(typeAtt.type());
		}
	}

}

--------------------------------------------------------------------

控制台错误提示：
--------------------------------------------------------------------
Exception in thread "main" java.lang.IllegalArgumentException: This AttributeSource does not have the attribute 'org.apache.lucene.analysis.tokenattributes.TypeAttribute'.
at org.apache.lucene.util.AttributeSource.getAttribute(AttributeSource.java:277)
at TestIKAnalyzer.main(TestIKAnalyzer.java:27)
--------------------------------------------------------------------

若其中使用jar包lucene-core-3.0.2.jar替换成lucene-core-2.9.1.jar，则程序运行正常。

请您确认。

这只能是你的运行环境中jar版本混乱的问题，跟IK编码无关。

16 楼 aunox 2011-05-27

报错误：

使用jar列表：
IKAnalyzer3.2.3Stable.jar
lucene-core-3.0.2.jar

java代码如下：
--------------------------------------------------------------------

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

public class TestIKAnalyzer {

	public static void main(String[] args) throws IOException {
		Analyzer analyzer = new IKAnalyzer();

		TokenStream tokenStream = analyzer.tokenStream("", new StringReader(
				"永和服装饰品有限公司"));
		// 2.x写法 3.0之后不支持了

		// Token token = new Token();
		//
		// while (tokenStream.next(token) != null) {
		// System.out.println(token.term());
		// }

		// 3.x的写法
		TermAttribute termAtt = tokenStream.getAttribute(TermAttribute.class);
		TypeAttribute typeAtt = tokenStream.getAttribute(TypeAttribute.class);

		while (tokenStream.incrementToken()) {
			System.out.print(termAtt.term());
			System.out.print(' ');
			System.out.println(typeAtt.type());
		}
	}

}

15 楼 linliangyi2007 2011-05-20

smartmac 写道

请问下林老师，我lucene3里用IKAnalyzer建索引，比用StandardAnalyzer建索引要慢好多，比如说前者用2s，后者要用6s，请问这是正常的吗?

你这个测试是放在main方法里面的吧，执行的时候，每次要启动jvm，ik要载入字典的。
你这个测试99.999%时间不是测试IK分词，而是测试字典加载。

14 楼 smartmac 2011-05-20

请问下林老师，我lucene3里用IKAnalyzer建索引，比用StandardAnalyzer建索引要慢好多，比如说前者用2s，后者要用6s，请问这是正常的吗?

13 楼 linliangyi2007 2011-05-19

thxg 写道

请教林老师一个问题，就是词干提取方面。我不知道IK有没有做这方面的处理，今天追踪 smartcn 时才发现 Lucene 自己带有一个词干提取功能，并且即使单独使用 smartcn 也会经过这一步过滤，但奇怪的是它把 iPhone 提取成了 iphon ，让人哭笑不得。我在lucene群组里发了一帖：

http://lucene-group.group.iteye.com/group/topic/26037

林老师能否指教一二？

IK目前对英文处理相对简单，没有词干处理功能

12 楼 thxg 2011-05-19

11 楼 greatrobert 2011-04-12

请问下林老师，lucene的检索词等同，即改变检索词的顺序，检索结果不变这个要怎么关掉？现在需要做一个拼音搜索，比如搜索“我们”时输入“wo men”可以搜到，输入“men wo”也能搜到

10 楼 kjj 2011-04-03

用上了,这个我得顶一下!!

9 楼 xutao5641745 2011-03-23

xutao5641745 写道

linliangyi2007 写道

xutao5641745 写道

林老师，请问你这个与Spring集成的时候怎么写？还有，他会不会导致与Spring不兼容，，，他会不会引发程序的内存溢出？
最近项目老down 好像程序也没加啥功能，就用了你的这个分词，是不是我的程序没有配置正确呀？

IK拥有27万词的词典，需要占用27m的内存空间，因此你要注意你的jvm内存设置，默认情况下jvm只有64M，这个对于现有的服务，是很不够的。

Spring作为一个IoC容器，应该没有什么不兼容的说法吧。

另外，别用IKQueryParser来做分词（之前有人这么做过），它是用来解析短文本的（用来解析搜索关键字的）。

恩。。。谢谢你！
我先按你说的做一下，，，

我是用IKSegmentation 做分词的。。。。。。

                List<String> list = new ArrayList<String>();	
		StringReader input = new StringReader(keyword);
		IKSegmentation ikSeg = new IKSegmentation(input, true);
		Lexeme lexeme;
		try {
			while((lexeme = ikSeg.next())!= null){
				System.out.println(lexeme.getLexemeText());
				list.add(lexeme.getLexemeText());
			}
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		return list;

谢谢林老师，，，我测试了，这里的分词没有问题。。。。而且你的分词也不会导致内存溢出！

8 楼 xutao5641745 2011-03-21

linliangyi2007 写道

xutao5641745 写道

恩。。。谢谢你！
我先按你说的做一下，，，

我是用IKSegmentation 做分词的。。。。。。

                List<String> list = new ArrayList<String>();	
		StringReader input = new StringReader(keyword);
		IKSegmentation ikSeg = new IKSegmentation(input, true);
		Lexeme lexeme;
		try {
			while((lexeme = ikSeg.next())!= null){
				System.out.println(lexeme.getLexemeText());
				list.add(lexeme.getLexemeText());
			}
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		return list;

7 楼 linliangyi2007 2011-03-20

xutao5641745 写道

6 楼 xutao5641745 2011-03-19

5 楼 linliangyi2007 2011-03-19

chrislusf 写道

NoClassFoundError on this line:
termAtt = addAttribute(TermAttribute.class);

TermAttribute has been removed on recent Lucene releases.

请注意标题，for lucene3.x的，你用的估计是4.0的吧，那东东没稳定，api还在修改中呢！！

很少见lucene这样每次大版本更新都搞的不向下兼容的，真应该bs之~~

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论