发布 IK Analyzer 3.2.5 稳定版 for Lucene3.0

linliangyi2007

浏览: 1014482 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

lucene Solr QQ Eclipse Google

新版本IKAnnlyzer3.2.8已发布！
地址： http://linliangyi2007.iteye.com/blog/941132

IK Analyzer 3.2.5版本修订

在3.2.3版本基础上，更新如下：
1.修订了分词器内部的数组越界异常
2.重构了字母子分词器，强化了对英文和阿拉伯混合字窜的切分
3.根据用户意见，修订了字典扩展的API接口，List-->Collection
4.考虑到linux系统下用户使用的方便性，将发布包从rar改为zip压缩

PS:如果您使用的是Solr1.3或者v2.9之前的Lucene，请下载IK Analyzer3.1.6GA使用！ IK Analyzer3.2.X仅支持Lucene3.0以上版本。

下载地址

IK Analyzer 3.2.5分布包

IK Analyzer 3.2.5源码包

分享到：

Gosling离开Oracle的原因让我感到Java程序 ... | ThinkPad C盘空间莫名丢失问题

2010-09-08 14:43
浏览 5833
评论(41)
论坛回复 / 浏览 (36 / 10635)
分类:编程语言
查看更多

41 楼 monkeygreg 2011-10-26

linliangyi2007 写道

monkeygreg 写道

'无关'&&('技术' '牛人')
'无关' ('技术' '牛人')
'无关' ('技术'||'牛人')
'无关'&&('技术'||'牛人')
'无关'('技术'||'牛人')

查询关键字之间都必须有逻辑操作符，'无关'('技术'||'牛人') 这种就是非法的，‘无关’后面没有&&或者||是什么意思？

我以为中间没有空格就表示与的关系，比如'技术牛人'解析成'技术'&&'牛人'

另外空格是不是表示||的关系呢，如果那样的话
'无关'&&('技术' '牛人') 有结果
'无关'&&('技术'||'牛人') 无结果
这两个测试为什么会出现不同的结果呢

40 楼 linliangyi2007 2011-10-26

monkeygreg 写道

'无关'&&('技术' '牛人')
'无关' ('技术' '牛人')
'无关' ('技术'||'牛人')
'无关'&&('技术'||'牛人')
'无关'('技术'||'牛人')

查询关键字之间都必须有逻辑操作符，'无关'('技术'||'牛人') 这种就是非法的，‘无关’后面没有&&或者||是什么意思？

39 楼 monkeygreg 2011-10-26

linliangyi2007 写道

monkeygreg 写道

林老师，我有一个ikqueryparser的问题一直很疑惑，今天做了个详细测试，您看能否给解释下。

对于文本：“技术牛人”。分词索引后进行检索。
我写了六个query表达式进行检索，主要用来测试不空格、空格、&&和||四个：

无关'('技术' '牛人')    有结果
无关'&&('技术' '牛人') 有结果
无关' ('技术' '牛人')   有结果
无关' ('技术'||'牛人') 有结果
无关'&&('技术'||'牛人') 无结果
无关'('技术'||'牛人')   无结果

可以看到括号里面我都想采用“或”的关系，括号外面1256句想用与的关系，34用或

照此逻辑，3456句的结果是正确的，12句却无法理解。请问林老师词与词的与或关系应如何表达。说明文档里只给了多域之间的与或逻辑的例子。

你的这些表达式对于IKQueryParser木有一个是合法的。不知道你做的是什么测试。
IKQueryParser与Lucene的QueryParser的表达式是不一样的。

文档里给出的例子是   id='1231' && (title:'文档标题'|| content:'内容') – author='helloworld' 下面也说支持&&||和括号逻辑。

是否是说这些符号只适用于多域的情况

另外，我列出6个表达式都漏掉了一开始的单引号，不知道您说的是不是这个非法，下面重新写一下，林老师赐教啦！

'无关'('技术' '牛人')
'无关'&&('技术' '牛人')
'无关' ('技术' '牛人')
'无关' ('技术'||'牛人')
'无关'&&('技术'||'牛人')
'无关'('技术'||'牛人')

38 楼 linliangyi2007 2011-10-17

monkeygreg 写道

你的这些表达式对于IKQueryParser木有一个是合法的。不知道你做的是什么测试。
IKQueryParser与Lucene的QueryParser的表达式是不一样的。

37 楼 monkeygreg 2011-10-14

36 楼 linliangyi2007 2011-01-06

wu_quanyin 写道

IKQueryParser里面有这个属性而且是静态的
private static boolean isMaxWordLength;
get...
set...

这不是会有线程问题？

没人告诉你IKQueryParser这个类是线程安全的啊！

实时上，这个类提供了一种默认的查询组合的逻辑实现。他并不能代替一个商用的搜索逻辑，包括你在信中提到的SHOULD。MUST问题。

说他是默认实现，是因为笔者任务MUST的逻辑对连续的文字序列而已跟适合，你如果不认同默认实现，你完全可以使用Lucene的Query接口构造自己的复杂业务。

IKQueryParser和Lucene自带的QueryParser一样，都只是一个简单工具类。

Lucene默认的Query方式不是也让很多用户感到不解~~

木有完美的东东啊~~尤其是分词这块~~需要你自己个性定制的东西很多，否则人人都可以做google了，呵呵

35 楼 wu_quanyin 2011-01-05

IKQueryParser里面有这个属性而且是静态的
private static boolean isMaxWordLength;
get...
set...

这不是会有线程问题？

34 楼亦梦亦真 2011-01-04

林老师，您的这个框架我已经很仔细的学完了，而且感觉扩展性很强，我在这里加入了日文，韩文，德文等字库。但是现在我们的系统使用HDFS存储数据的，我想把创建的索引文件也放到HDFS上，可是总是行不通。我查了，网上有些朋友是将文件写到内存中，然后再放到HDFS上，下次添加索引的时候，再把它拿下来，添加上去再放上去，这样我觉得效率太低了。而直接实在那个HDFS文件系统的某个路径，却报出错误，是不是LUCENE还不能支持这个功能呢？

33 楼 linliangyi2007 2010-12-28

yanxin64 写道

请教大家一个问题，怎么关联源码到jar包后，在eclipse打开，源码的中文注释都是乱码，有办法解决吗？

项目是使用UTF-8编码的，请检查你的eclipse的环境

32 楼 yanxin64 2010-12-28

请教大家一个问题，怎么关联源码到jar包后，在eclipse打开，源码的中文注释都是乱码，有办法解决吗？

31 楼 lovit 2010-12-16

文档中找到了。。不用了。谢谢！

30 楼 unkin 2010-12-16

林良益出品，不顶不行。

29 楼 hcjhuanghe 2010-12-16

请问ik如何在spring和compass环境中使用？

28 楼 abandoner2007 2010-12-15

建议将：

DictSegment 类中 hasNextNode() 方法改为：hasChildNode()

27 楼 laigood12345 2010-12-14

linliangyi2007 写道

laigood12345 写道

请教一个问题，能不能不切分重复的字，比如输入中国中药，它切分为中国，国中，中药，怎么让它只输出中国，中药？就是分词后组合起来就是完整的输入语句，而不产生词语重叠。

目前IK不支持歧义排除功能。确切的说，分词器并不知道“中国中药”应该切成“中国”+“中药”还是“中”+“国中”+“药”更合理

谢谢，我再想想其它办法。

26 楼 linliangyi2007 2010-12-13

laigood12345 写道

目前IK不支持歧义排除功能。确切的说，分词器并不知道“中国中药”应该切成“中国”+“中药”还是“中”+“国中”+“药”更合理

25 楼 laigood12345 2010-12-13

24 楼 linliangyi2007 2010-11-28

ljwan12 写道

像U盘、手机QQ等汉字和字母混合的词分不出来。。。。。

对于不同的字符集，IK采用不同的子分词器进行处理，因此不可能切分出混合词，“U盘”一定会切成“U + 盘”两个，手机QQ一定是“手机+QQ“ ，这个不影响搜索，但可能影响语义分析应用。

IK的侧重点在于搜索，如果做语义分析，可以使用smartcn分词

23 楼 ljwan12 2010-11-28

像U盘、手机QQ等汉字和字母混合的词分不出来。。。。。

22 楼 shadowlin 2010-11-17

linliangyi2007 写道

shadowlin 写道

问一个比较弱智的问题啊，如果我要看分词的结果，现在要怎么看呢？
以前的term.next似乎在3.0以后都没有掉了。


                        String t = "你要尝试切分的文本";  
			IKSegmentation ikSeg = new IKSegmentation(new StringReader(t) , false);
			try {
				Lexeme l = null;
				while( (l = ikSeg.next()) != null){
					System.out.println(l);
				}
			} catch (IOException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			}

谢谢啊

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

(175797816)华南理工大学信号与系统Signal and Systems期末考试试卷及答案: 内容来源于网络分享，如有侵权请联系我删除。另外如果没有积分的同学需要下载，请私信我。

深圳建设施工项目安全生产奖惩管理制度.docx: 深圳建设施工项目安全生产奖惩管理制度

离散数学课后题答案+sdut往年试卷+复习提纲资料: 离散数学课后题答案+sdut往年试卷+复习提纲资料

自考04741计算机网络原理真题及答案及课件: 04741计算机网络原理 2018(尚德）.pdf 13年试题（2套）.pdf 2015年10月自考计算机网络原理04741试题及答案解析.docx 2021年4月自考04741计算机网络原理真题及答案.docx 2021年4月自考04741计算机网络原理试卷.bak.docx 计算机网络原理课后题答案全李全龙版自考04741.zip.zip 计算机网络原理课件计算机网络原理课件.rar

C++实现rpc，全程手写: C++实现rpc，全程手写

前端拿到的列表数据里id都一样的处理办法.txt: 前端拿到的列表数据里id都一样的处理办法.txt

最新仿720云全景制作源码-krpano仿720云全景网站源码新增微信支付+打赏+场景红包: 最新仿720云全景制作源码|krpano仿720云全景网站源码（新增微信支付+打赏+场景红包等）是一款基于php+mysql开发制作的全景在线制作网站源码，包含全景图片，全景视频等。数据存储全部存于OSS云端或本地，源码完全开源可自行二次开发。环境要求:PHP5.5.X+MYSQL5.6.X+伪静态熟悉linux系统推荐使用LAMP，web服务器最好使用apache，不要使用nginx(发布大全景图需要时间可能需要20多分钟， nginx超时机制不好控制)。 Windows系统推荐使用phpstudy。Liunx推荐宝塔控制面板apache 前端为HTML5开发，自适应手机版! 1、支持VR虚拟现实、全景视频、环物全景、说一说、点赞评论、重力感应、智能视频嵌入、场景切换热点、加载进度条、地图导航、光晕flash特效、物体全景嵌入、场景自播、场景解说、雷达导航等业内前沿功能。 2、支持windows、Linux、Mac、安卓、IOS等几乎所有的系统观看。支持CDN图片转存，极大的减轻的服务器流量费用。 3、支持用户权限分配。方便会员制收费。

YOLO算法-可乐罐子数据集-336张图像带标签-可乐.zip: YOLO系列算法目标检测数据集，包含标签，可以直接训练模型和验证测试，数据集已经划分好，包含数据集配置文件data.yaml，适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法；包含两种标签格:yolo格式（txt文件）和voc格式（xml文件），分别保存在两个文件夹中，文件名末尾是部分类别名称; yolo格式：<class> <x_center> <y_center> <width> <height>，其中： <class> 是目标的类别索引（从0开始）。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标，这些坐标是相对于图像宽度和高度的比例值，范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度，也是相对于图像宽度和高度的比例值；【注】可以下拉页面，在资源详情处查看标签具体内容；

环境监测系统源代码全套技术资料.zip: 环境监测系统源代码全套技术资料.zip

【编码解码】基于matlab罗利衰落信道编解码器设计【含Matlab源码 9930期】.zip: Matlab领域上传的视频均有对应的完整代码，皆可运行，亲测可用，适合小白； 1、代码压缩包内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

四轮转向系统横摆角速度控制simulink仿真模型，利用滑模控制算法，基于八自由度车辆模型，控制有比较好的效果，附参考说明: 四轮转向系统横摆角速度控制simulink仿真模型，利用滑模控制算法，基于八自由度车辆模型，控制有比较好的效果，附参考说明。

YOLO算法-工作场所安全隐患数据集-859张图像带标签-倒下的工人-配备个人防护装备的工人-无个人防护装备的工人-火.zip: YOLO系列算法目标检测数据集，包含标签，可以直接训练模型和验证测试，数据集已经划分好，包含数据集配置文件data.yaml，适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法；包含两种标签格:yolo格式（txt文件）和voc格式（xml文件），分别保存在两个文件夹中，文件名末尾是部分类别名称; yolo格式：<class> <x_center> <y_center> <width> <height>，其中： <class> 是目标的类别索引（从0开始）。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标，这些坐标是相对于图像宽度和高度的比例值，范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度，也是相对于图像宽度和高度的比例值；【注】可以下拉页面，在资源详情处查看标签具体内容；

自学考试02331数据结构试题及答案2021-2022: 02142数据结构导论历年真题及答案（2012-2018共13套）.rar 02331数据结构历年真题共267页2009.10-2019.4.rar 24数据结构201704_8.pdf 25数据结构201710_10.pdf 26数据结构201804_11.pdf 27数据结构201810_9.pdf 全国2021年04月高等教育自学考试02331数据结构试题及答案.docx 全国2022年04月高等教育自学考试02331数据结构试题及答案.docx 数据结构-课件.rar 第l六讲.ppt 第一讲.ppt 第七讲.ppt 第三讲.ppt 第九讲.ppt 第二讲.ppt 第五讲.ppt 第八讲.ppt 第四讲.ppt

验收确认单表格.docx: 验收确认单表格.docx

内存搜索工具(易).rar: 内存搜索工具(易).rar

饮食管理系统项目源代码全套技术资料.zip: 饮食管理系统项目源代码全套技术资料.zip

计算机视觉项目：Swin-Transformer 【tiny、small、base】模型实现的图像识别项目：番茄病害图像分类: 【项目简介】代码主干网络采用Swin-Transformer 家族系列，包括【tiny、small、base】三种模型。pretrained和freeze_layers参数为是否采用官方预训练模型和是否仅训练分类头。为了做对比消融试验，优化器采用了Adam和SGD、AdamW三种。损失函数采用多类别的交叉熵、学习率优化策略采用cos余弦退火算法【评估网络】评估的指标采用loss和准确率（accuracy），分别会在训练集和验证集上进行评估、输出、绘制曲线图像。同时会在训练集、验证集进行一系列评估，包含混淆矩阵、recall、precision、F1 score等等曲线图像，以及recall、precision、F1 score、特异度的输出信息等等。【具体各类别的指标在json文件中查看】【如果想要更换数据集训练，参考readme文件】【本项目为8种番茄病害图片（约4k张数据），包含数据集和标签，可以一键运行】

(177121232)windows电脑下载OpenHarmony鸿蒙命令行工具hdc-std: windows电脑下载OpenHarmony鸿蒙命令行工具hdc_std。内容来源于网络分享，如有侵权请联系我删除。另外如果没有积分的同学需要下载，请私信我。

小程序毕业设计项目-音乐播放器: 本项目可以作为小程序毕设项目，主要功能为音乐播放器，主要功能是：可以播放歌曲(采用mp3网络连接实现)、专辑封面播放时可以旋转，能够实现开始和暂停播放，可以点击下一首歌曲，主页面实现动态轮播图

考研学习分享-JAVA-基于Vue+SpringBoot的考研学习分享平台设计与实现（毕业论文）: 考研学习分享功能的描述可以涵盖以下几个主要模块，旨在为考研学生提供一个互动、资源共享、经验交流的平台： 1. 用户注册与个人信息管理学生可以通过邮箱或手机号注册账户，填写个人信息，如姓名、专业、目标院校等。用户可设置学习目标和进度，方便记录自己的学习历程。 2. 学习资料共享用户可以上传、下载考研相关学习资料，如教材、真题、笔记、复习计划等。提供文件分类功能，按学科、院校、难度等进行整理，方便用户查找。支持多种文件格式，如PDF、Word、Excel、图片等。 3. 复习经验分享学生可以发布自己的复习经验文章，分享复习方法、备考心得、时间管理技巧等。提供文章评论和互动功能，其他学生可以点赞、评论、提问，促进经验交流。设置专栏或专题，帮助学生快速找到自己感兴趣的复习内容。 4. 考研小组与社交功能学生可以创建或加入学习小组，组内成员可共享资料、讨论问题、互相鼓励。提供私信、群聊功能，方便学员在小组内进行实时讨论和交流。支持设置小组学习目标和定期检查进度，增加学习动力。 5. 在线课程与讲座提供考研各科目（如英语、数学、政治等）的在线课程资源，用户可以报名参加。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论