`
linliangyi2007
  • 浏览: 1014477 次
  • 性别: Icon_minigender_1
  • 来自: 福州
社区版块
存档分类
最新评论

发布 IK Analyzer 3.2.5 稳定版 for Lucene3.0

阅读更多
新版本IKAnnlyzer3.2.8已发布!
地址: http://linliangyi2007.iteye.com/blog/941132


IK Analyzer 3.2.5版本修订

在3.2.3版本基础上,更新如下:
1.修订了分词器内部的数组越界异常
2.重构了字母子分词器,强化了对英文和阿拉伯混合字窜的切分
3.根据用户意见,修订了字典扩展的API接口,List-->Collection
4.考虑到linux系统下用户使用的方便性,将发布包从rar改为zip压缩

PS:如果您使用的是Solr1.3或者v2.9之前的Lucene,请下载IK Analyzer3.1.6GA使用! IK Analyzer3.2.X仅支持Lucene3.0以上版本。

下载地址

IK Analyzer 3.2.5分布包

IK Analyzer 3.2.5源码包
分享到:
评论
21 楼 linliangyi2007 2010-11-16  
shadowlin 写道
问一个比较弱智的问题啊,如果我要看分词的结果,现在要怎么看呢?
以前的term.next似乎在3.0以后都没有掉了。



                        String t = "你要尝试切分的文本";  
			IKSegmentation ikSeg = new IKSegmentation(new StringReader(t) , false);
			try {
				Lexeme l = null;
				while( (l = ikSeg.next()) != null){
					System.out.println(l);
				}
			} catch (IOException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			}

20 楼 shadowlin 2010-11-16  
问一个比较弱智的问题啊,如果我要看分词的结果,现在要怎么看呢?
以前的term.next似乎在3.0以后都没有掉了。
19 楼 wuxiaoqqqq 2010-09-26  
研究了你提供的api和google一下资料,我觉得应该没有问题了,非常感谢你的分词器。
虽然我还没写过java代码,但我想这个功能应该不会太难。
18 楼 wuxiaoqqqq 2010-09-26  
我能查询你的词库里面有什么词吗?
通过api动态加载的话,是不需要重启tomcat的吧?
17 楼 wuxiaoqqqq 2010-09-26  
linliangyi2007 写道
wuxiaoqqqq 写道
linliangyi2007 写道
wuxiaoqqqq 写道
那如果我想把皮鞋分成

皮/鞋/皮鞋

请问有什么好的办法吗?


其实我的想法是,不需要这样的分词的,否则lucene就不适合你的应用场景,这个值得你仔细思考一下啊


现在我有这样一个场景,我的索引里面有运动鞋,皮鞋,跑鞋,帆布鞋

但我搜索鞋出来不了任何东西,这

我觉得能否提供一个是否可以最大力度切分的接口,可以控制是否做一元分词,多元分词(控制冗余度)。


就一般的使用而言,我更建议你在自定义词典中,添加“鞋”这个关键词,因为它对你是有意义的。
另外,我建议你可以开发一个很简单的自定义关键词的维护系统(“增删改查”的那种),将自定义的词放在数据库表中,然后通过程序将词从数据库里读出,再通过IK的词典API写入动态扩展词典中。


谢谢,我先将鞋加入到自定义词典中看能不能分出来。
16 楼 linliangyi2007 2010-09-26  
wuxiaoqqqq 写道
linliangyi2007 写道
wuxiaoqqqq 写道
那如果我想把皮鞋分成

皮/鞋/皮鞋

请问有什么好的办法吗?


其实我的想法是,不需要这样的分词的,否则lucene就不适合你的应用场景,这个值得你仔细思考一下啊


现在我有这样一个场景,我的索引里面有运动鞋,皮鞋,跑鞋,帆布鞋

但我搜索鞋出来不了任何东西,这

我觉得能否提供一个是否可以最大力度切分的接口,可以控制是否做一元分词,多元分词(控制冗余度)。


就一般的使用而言,我更建议你在自定义词典中,添加“鞋”这个关键词,因为它对你是有意义的。
另外,我建议你可以开发一个很简单的自定义关键词的维护系统(“增删改查”的那种),将自定义的词放在数据库表中,然后通过程序将词从数据库里读出,再通过IK的词典API写入动态扩展词典中。
15 楼 wuxiaoqqqq 2010-09-26  
linliangyi2007 写道
wuxiaoqqqq 写道
那如果我想把皮鞋分成

皮/鞋/皮鞋

请问有什么好的办法吗?


其实我的想法是,不需要这样的分词的,否则lucene就不适合你的应用场景,这个值得你仔细思考一下啊


现在我有这样一个场景,我的索引里面有运动鞋,皮鞋,跑鞋,帆布鞋

但我搜索鞋出来不了任何东西,这

我觉得能否提供一个是否可以最大力度切分的接口,可以控制是否做一元分词,多元分词(控制冗余度)。
14 楼 linliangyi2007 2010-09-26  
wuxiaoqqqq 写道
那如果我想把皮鞋分成

皮/鞋/皮鞋

请问有什么好的办法吗?


其实我的想法是,不需要这样的分词的,否则lucene就不适合你的应用场景,这个值得你仔细思考一下啊
13 楼 wuxiaoqqqq 2010-09-26  
那如果我想把皮鞋分成

皮/鞋/皮鞋

请问有什么好的办法吗?
12 楼 linliangyi2007 2010-09-26  
wuxiaoqqqq 写道
linliangyi2007 写道
wuxiaoqqqq 写道
你好,请问一下我能强制一元分词吗?


一元分词使用ChineseAnalyzer吧。

对IK而言,除非你吧主词典都清空了,它对汉字就只能采取一元分词了


我想把皮鞋分词成

皮/鞋/皮鞋

如果我在solr里面用ChineseAnalyzer+IK,能达到这个效果吗?


呃~~~~貌似两个分词器不能同时起作用吧
11 楼 wuxiaoqqqq 2010-09-26  
linliangyi2007 写道
wuxiaoqqqq 写道
你好,请问一下我能强制一元分词吗?


一元分词使用ChineseAnalyzer吧。

对IK而言,除非你吧主词典都清空了,它对汉字就只能采取一元分词了


我想把皮鞋分词成

皮/鞋/皮鞋

如果我在solr里面用ChineseAnalyzer+IK,能达到这个效果吗?
10 楼 linliangyi2007 2010-09-26  
wuxiaoqqqq 写道
你好,请问一下我能强制一元分词吗?


一元分词使用ChineseAnalyzer吧。

对IK而言,除非你吧主词典都清空了,它对汉字就只能采取一元分词了
9 楼 wuxiaoqqqq 2010-09-26  
你好,请问一下我能强制一元分词吗?
8 楼 jforever 2010-09-12  
<p>我觉得这个分词挺好用的,还支持通过数据库扩展词典。最近我新上线的两个子栏目(OPEN开源搜索和<a href="http://doc.open-open.com">OPEN文档</a>)都用到这个分词器。</p>
<p> </p>
7 楼 yaobiao753 2010-09-11  
支持楼主~
6 楼 linliangyi2007 2010-09-10  
kjj 写道
变化不是很大就不更新了,已经把前一个版本集成到nutch了,很方便,楼主辛苦............,希望这玩意越来越强大,超越中科院分词系统...........我绝对支持......................


哈哈,这个理想很远大,不过俺就一个人,中科院人家是一个团队,还是要低调低调的
5 楼 niumd 2010-09-10  
thanks for sharing,
正在阅读源码学习;


4 楼 kjj 2010-09-10  
变化不是很大就不更新了,已经把前一个版本集成到nutch了,很方便,楼主辛苦............,希望这玩意越来越强大,超越中科院分词系统...........我绝对支持......................
3 楼 xieshaohu 2010-09-09  
不错。看看。
2 楼 dh189 2010-09-08  
下载看看。

相关推荐

    IKAnalyzer3.2.5Stable.jar

    在标题中的"IKAnalyzer3.2.5Stable.jar"指的是该软件的特定版本,即3.2.5稳定版的Java档案文件(JAR)。这种格式的文件通常包含了IKAnalyzer的所有源代码、类文件和其他资源,使得用户可以直接引入到自己的项目中...

    IKAnalyzer3.2.5Stable

    IKAnalyzer 非常不错的分词器,JAVA版本

    IKAnalyzer3.2.5Stable_bin.zip中文分词

    2. **IKAnalyzer3.2.5Stable.jar**:这是IKAnalyzer的核心库文件,包含了所有必需的类和方法,用于实现分词功能。开发者可以通过导入这个JAR包,在自己的项目中使用IKAnalyzer。 3. **IKAnalyzer中文分词器V3.2.3...

    IKAnalyzer 支持高版本最新Lucene 5.x、6.x、7.x

    总之,IKAnalyzer作为一款强大的中文分词器,能够很好地适应Lucene的各个高版本,提供稳定、高效的分词服务。无论是用于Lucene的原生应用,还是在Solr这样的搜索服务器中,它都是处理中文文本的理想选择。随着技术的...

    lucene3.5 IKAnalyzer3.2.5 实例中文分词通过

    lucene3.5 IKAnalyzer3.2.5 实例中文分词通过,目前在网上找的lucene 和IKAnalyzer 的最新版本测试通过。内含:示例代码,以及最新jar包。 lucene lucene3.5 IKAnalyzer IKAnalyzer3.2.5 jar 中文 分词

    Lucene的IK Analyzer 3.0 中文分词器 全解

    自2006年12月发布1.0版以来,IK Analyzer 经历了多次升级,3.0版已演变为独立于 Lucene 的通用分词组件,同时也为 Lucene 提供了优化的集成。 1. **IK Analyzer 3.0 结构设计** - IK Analyzer 3.0 的设计旨在提高...

    IKAnalyzer中文分词器支持Lucene6.0以上

    提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。

    IKAnalyzer 支持高版本Lucene 6.x及以上

    来自牛人修改的IKAnalyzer,https://github.com/sea-boat/IKAnalyzer-Mirror,亲测Lucene7.2可用

    中文分词库 IKAnalyzer For Lucene 5.2.1(适用Lucene 5.2.1)

    IKAnalyzer 是一个专门为 Lucene 设计的开源中文分词库,它在中文处理领域有着广泛的应用。这个版本的 IKAnalyzer 特别适用于 Lucene 5.2.1,这意味着它与该版本的 Lucene 兼容性极佳,能够提供高效、准确的中文分词...

    IKAnalyzer中文分词支持lucene6.5.0版本

    由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本

    ikanalyzer中文分词支持lucene7.1.0

    总的来说,ikanalyzer中文分词支持lucene7.1.0是为了解决旧版ikanalyzer与新Lucene版本的兼容性问题而推出的,它使得开发者能够充分利用Lucene的最新特性,同时保持ikanalyzer的优秀分词性能,对于处理中文内容的...

    IKanalyzer2012修复与Lucene3.6.2Jar及IK使用示例

    标题中的“IKanalyzer2012修复与Lucene3.6.2Jar及IK使用示例”指的是一项关于优化IKAnalyzer2012版本的活动,这是一款流行的中文分词器,常用于Java环境下的信息检索和文本分析。Lucene3.6.2Jar则是Apache Lucene的...

    Lucene4.7+IK Analyzer中文分词入门教程

    【Lucene4.7+IK Analyzer中文分词入门教程】 Lucene是一个开源的全文检索库,它提供了文本分析、索引和搜索的核心工具。在这个入门教程中,我们将使用Lucene 4.7版本,结合IK Analyzer,一个专门针对中文分词的开源...

    IKAnalyzer3.2(稳定版)分词

    IKAnalyzer3.2是中文分词工具的一个稳定版本,它主要设计用于提高中文文本处理的效率和准确性。分词在信息检索、自然语言处理、文本挖掘等领域扮演着至关重要的角色,因为它是理解中文文本基础的第一步。IKAnalyzer...

    IKAnalyzer2012_u6和lucene-core-3.6.0

    IKAnalyzer2012_u6和lucene-core-3.6.0两个jar包,互相兼容。ik分词的使用方法可以转https://blog.csdn.net/fr961951149/article/details/98736002。

    lucene的IKAnalyzer以及兼容4.3

    IKAnalyzer会定期发布新版本,以适配最新版的Lucene。 2. **修改代码**:检查并修改项目中涉及Lucene API的部分,以适应新版本的API变化。 3. **使用桥接类**:有时,开发者可以利用Lucene提供的桥接类来兼容旧版...

    lucene 所有jar包 包含IKAnalyzer分词器

    在提供的文件中,我们看到了`IKAnalyzer3.2.5Stable.jar`和`IKAnalyzer2012_u6.jar`两个版本,它们都是IKAnalyzer的不同迭代版本,分别对应不同的优化和改进。IKAnalyzer支持用户自定义词典,能够较好地处理现代汉语...

    模糊查询-lucene-IKAnalyzer

    本话题主要探讨的是在Java 1.5环境下,如何利用Lucene 3.0.1版本和IKAnalyzer 3.2来实现模糊查询的功能。Lucene是一个高性能、全文本搜索库,而IKAnalyzer是一个专门针对中文分词的开源分析器,它们的结合能够有效地...

Global site tag (gtag.js) - Google Analytics