`
linliangyi2007
  • 浏览: 1016317 次
  • 性别: Icon_minigender_1
  • 来自: 福州
社区版块
存档分类
最新评论

发布IKAnalyzer中文分词器V3.1.6GA

阅读更多

IKAnalyzer3.2.0稳定版已经发布,支持Lucene3.0和solr1.4
链接:http://www.iteye.com/topic/542987

V3.1.1GA -- V3.1.5GA 版本变更一览
  • 1.添加“正向最大切分算法”。
  • 2.完善IK Analyzer对solr1.3版本的集成支持
  • 3.改进对文件名、邮件地址、英文数字混合字串的切分算法
  • 4.新增对停止词(stopword)的自定义扩展
  • 5.支持对JDK1.5的版本的集成



V3.1.6GA版本变更:
新增IK Analyzer对solr1.4版本的集成支持

1.新增org.wltea.analyzer.solr.IKTokenizerFactory14,支持solr1.4的TokenizerFactory接口配置

 类org.wltea.analyzer.solr.IKTokenizerFactory14
说明:该类继承与solr1.4的BaseTokenizerFactory,是IK分词器对solr1.4项目TokenizerFactory接口的扩展实现。从版本V3.1.6起。
属性:isMaxWordLength。该属性决定分词器是否采用最大词语切分。

solr1.4配置样例
使用IKAnalyzer的配置
<schema name="example" version="1.1">
……
<fieldType name="text" class="solr.TextField">
      <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
……
</schema>


使用IKTokenizerFactory14的配置
<fieldType name="text" class="solr.TextField" >
	<analyzer type="index">
		<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory14" isMaxWordLength="false"/>
……

	</analyzer>
	<analyzer type="query">
		<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory14" isMaxWordLength="true"/>
	……
	</analyzer>
</fieldType>


下载 :IKAnalyzer3.1.6GA完整包

更多详细请参看《IKAnalyzer中文分词器V3.1.6使用手册》




分享到:
评论
13 楼 piziwang 2009-11-24  
linliangyi,

如何在tomcat启动的时候,就加载 IKAnalyzer的词典?

而不是在第一次调用IKAnalyzer时加载词典。

因为如果在第一次调用IKAnalyzer时加载词典,用户感觉会比较慢,我想在tomcat容器启动的时候,加载词典,这样,用户第一次使用时就不会感觉到慢了。
12 楼 gogobu 2009-11-24  
linliangyi2007 写道
gogobu 写道
有个 Compass 相关的问题想请教。

IKAnalyzer 和 IKSimilarity 目前都是直接继承了 Lucene,所以直接接入 Compass 没有问题。但 IKQueryParser 好象不是,无法直接替代 lucene 的 QueryParser。

请问有什么方法可以把 IKQueryParser 集成到 Compass 里面?谢谢!


IKQueryParser 与 lucene QueryParser并不是接口实现关系。IKQueryParser是为了实现分词歧义的组合优化而设计的,并不像 lucene QueryParser那样可以解析lucene的查询表达式。只是命名的时候,不知道叫啥最合适,最后还是选择了QueryParser。

而 lucene QueryParser 本身也不像 Analyzer和 Similarity那样以接口设计的,它本身就是一个具体实现类。


明白了,谢谢。如果我还是想用上 IKQueryParser,是不是可以自己实现一个类重载 lucene QueryParser,然后在里面调用 IKQueryParser? 还是说这两者基本上就不兼容?
11 楼 linliangyi2007 2009-11-24  
gogobu 写道
有个 Compass 相关的问题想请教。

IKAnalyzer 和 IKSimilarity 目前都是直接继承了 Lucene,所以直接接入 Compass 没有问题。但 IKQueryParser 好象不是,无法直接替代 lucene 的 QueryParser。

请问有什么方法可以把 IKQueryParser 集成到 Compass 里面?谢谢!


IKQueryParser 与 lucene QueryParser并不是接口实现关系。IKQueryParser是为了实现分词歧义的组合优化而设计的,并不像 lucene QueryParser那样可以解析lucene的查询表达式。只是命名的时候,不知道叫啥最合适,最后还是选择了QueryParser。

而 lucene QueryParser 本身也不像 Analyzer和 Similarity那样以接口设计的,它本身就是一个具体实现类。
10 楼 gogobu 2009-11-24  
有个 Compass 相关的问题想请教。

IKAnalyzer 和 IKSimilarity 目前都是直接继承了 Lucene,所以直接接入 Compass 没有问题。但 IKQueryParser 好象不是,无法直接替代 lucene 的 QueryParser。

请问有什么方法可以把 IKQueryParser 集成到 Compass 里面?谢谢!
9 楼 linliangyi2007 2009-11-13  
shijiyu1984 写道
70W条应该还算不是很大 因为这个要根据用户来决定的 server配置已经 -Xms512M -Xmx1536M了 但是还是不行


我不知道你的词条是什么概念,还有到底是什么造成你的内存溢出,IK的词典结构会自动排除重复,平均每1万条词汇占用约1M空间。我严重怀疑你自己使用List加载词元的时候,内存就溢出了,因为使用String占用的内存要大很多。

17万条的汉语词汇已经涵盖了很多偏门的词语,甚至是一堆不是词的短语了。
如果你自己要定制使用的话,估计你要从源码看起,然后做一些修改了。
8 楼 shijiyu1984 2009-11-13  
70W条应该还算不是很大 因为这个要根据用户来决定的 server配置已经 -Xms512M -Xmx1536M了 但是还是不行
7 楼 linliangyi2007 2009-11-10  
shijiyu1984 写道
linliangyi2007 写道
dowsam 写道
IK分词是不是很耗内存?用JProfiler测试了一下,占内存蛮多的!有没有办法改进?


因为要加载近27w条的内存词库,这个没法省啊。就目前而言,相对于普通台式机都有2G的内存,服务器上的内存更多。IK的服务对象是企业应用,个人认为30M左右的内存开销不是问题。


上次测试将词条将近70w条的时候 IK加载词条时出现内存溢出的问题 不知你有什么好的解决方案?


70W条!!比辞海还大啊,有这么多吗,只能扩大你的Xms和Xmx配置了,70w条估计要吃掉80M的内存,不过一般的server配置都是 -Xms256 -Xmx1024的应该不是问题啊
6 楼 shijiyu1984 2009-11-10  
linliangyi2007 写道
dowsam 写道
IK分词是不是很耗内存?用JProfiler测试了一下,占内存蛮多的!有没有办法改进?


因为要加载近27w条的内存词库,这个没法省啊。就目前而言,相对于普通台式机都有2G的内存,服务器上的内存更多。IK的服务对象是企业应用,个人认为30M左右的内存开销不是问题。


上次测试将词条将近70w条的时候 IK加载词条时出现内存溢出的问题 不知你有什么好的解决方案?
5 楼 linliangyi2007 2009-11-09  
dowsam 写道
IK支持自动检测词库变化吗??


不支持,只支持通过配置或者动态API调用添加新词。
4 楼 dowsam 2009-11-09  
IK支持自动检测词库变化吗??
3 楼 linliangyi2007 2009-11-09  
dowsam 写道
IK分词是不是很耗内存?用JProfiler测试了一下,占内存蛮多的!有没有办法改进?


因为要加载近27w条的内存词库,这个没法省啊。就目前而言,相对于普通台式机都有2G的内存,服务器上的内存更多。IK的服务对象是企业应用,个人认为30M左右的内存开销不是问题。
2 楼 dowsam 2009-11-09  
IK分词是不是很耗内存?用JProfiler测试了一下,占内存蛮多的!有没有办法改进?
1 楼 lianj_lee 2009-11-08  
  

相关推荐

    IKAnalyzer中文分词器v2012使用手册.pdf

    标题:"IKAnalyzer中文分词器v2012使用手册" 所述的知识点包括: IKAnalyzer是一款开源的基于Java语言开发的轻量级中文分词工具包,最早版本于2006年12月发布。作为一个文本分析组件,它最初是作为开源项目Lucene的...

    IKAnalyzer中文分词器V2012使用手册_20190806.pdf

    IKAnalyzer是一个开源的中文分词器,基于Java语言开发,它是一个轻量级的中文分词工具包。IKAnalyzer自2006年12月推出1.0版本以来,已经发展到了2012版本。这个分词器最初是基于开源项目Lucene的词典分词和文法分析...

    IKAnalyzer中文分词器

    ### IKAnalyzer中文分词器V3.1.6:深入解析与使用指南 #### 一、IKAnalyzer3.0概述 IKAnalyzer是一个基于Java语言开发的高性能中文分词工具包,自2006年发布以来,已历经多次迭代升级。起初作为开源项目Lucene的一...

    IKAnalyzer中文分词器V3.2使用

    **IKAnalyzer中文分词器V3.2使用详解** IKAnalyzer是一款开源的、适用于Java环境的中文分词器,主要用于解决在信息检索、文本挖掘等领域中遇到的中文处理问题。这款分词器的设计目标是提高分词的准确率,并且具有...

    IK Analyzer 中文分词器下载

    IK Analyzer 是一个开源的、基于Java实现的中文分词器,专为全文检索或信息提取等任务设计。它由尹力(Wu Li)在2006年发起,最初是为了改善Lucene的中文处理能力。自那时起,IK Analyzer已经发展成为一个广泛使用的...

    IKAnalyzer中文分词器V3.2.0

    **IKAnalyzer中文分词器V3.2.0详解** IKAnalyzer是一款专为中文处理设计的开源分词器,广泛应用于搜索引擎、信息检索系统、文本挖掘等领域。它以高效、灵活和准确的特性,在Java开发的中文应用中占有重要地位。V...

    IKAnalyzer中文分词器V2012使用手册

    ### IKAnalyzer中文分词器V2012使用手册知识点详解 #### 1. IKAnalyzer2012介绍 IKAnalyzer是一款开源的、基于Java语言开发的轻量级中文分词工具包。自2006年12月发布1.0版以来,已历经多次迭代,至2012版本时,它...

    IKAnalyzer中文分词器V3.1.1使用手册

    ### IKAnalyzer中文分词器V3.1.1使用手册 #### 1. IKAnalyzer 3.1.1 介绍 IKAnalyzer是一个基于Java语言开发的开源轻量级中文分词工具包。自2006年12月发布1.0版本以来,IKAnalyzer已经经历了多个版本的迭代,不断...

    IK Analyzer中文分词器

    **IK Analyzer中文分词器详解** IK Analyzer是一个在IT领域广泛应用的开源项目,它专注于Java平台上的中文分词处理。中文分词是自然语言处理(NLP)中的基础任务,对于信息检索、文本挖掘、机器翻译等领域至关重要...

    IKAnalyzer中文分词器 java

    - **IKAnalyzer中文分词器V2012使用手册.pdf**:这是一份详细的操作指南,提供了如何使用IKAnalyzer的步骤、配置说明和常见问题解答,对于初学者来说非常有用。 - **IK Analyzer 2012FF_hf1_source.rar**:这是IK...

    IKAnalyzer中文分词器V2012_U5使用手册

    ### IKAnalyzer中文分词器V2012_U5使用手册关键知识点解析 #### 1. IKAnalyzer2012介绍 IKAnalyzer是一款基于Java语言开发的开源中文分词工具包,自2006年12月发布1.0版以来,已历经多次重大升级。最初作为Lucene...

    IKAnalyzer中文分词器 v3.2.0 源码包

    IKAnalyzer是一款广泛应用于Java环境中的开源中文分词器,它主要设计用于提高搜索引擎的性能,同时也适用于其他需要中文处理的领域。v3.2.0是该分词器的一个稳定版本,提供了良好的分词效果和较高的性能。在这个版本...

    Java IKAnalyzer 中文分词器

    IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,也就是可以将一串中文字符分割成一个个的词组或者字词 文件中包含分词工具 ikanalyzer-2012_u6.jar 中文分词配置 IKAnalyzer.cfg..xml

    IKAnalyzer中文分词器支持Lucene6.0以上

    提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。

    IKAnalyzer 中文分词 完整java项目demo

    IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可

    \IKAnalyzer中文分词器V3.1.3使用手册.pdf

    ### IKAnalyzer中文分词器V3.1.3使用手册概览 #### 1. IKAnalyzer3.0介绍 IKAnalyzer是一款专为中文文本处理设计的高性能分词工具包,自2006年首次发布以来,已历经多次迭代升级至V3.1.3版本。最初作为Lucene项目...

    IKAnalyzer中文分词器文档和Jar包

    在本压缩包中,"IKAnalyzer中文分词器V3.2.0使用手册.pdf"是一个详细的指南,涵盖了IKAnalyzer 3.2.0版本的安装、配置、使用方法以及常见问题解答。这个手册将引导开发者如何将IKAnalyzer集成到Lucene项目中,如何...

Global site tag (gtag.js) - Google Analytics