- 浏览: 1012679 次
- 性别:
- 来自: 福州
最新评论
-
guanxin2012:
大神,您好。非常感谢您贡献了IKExpression。我们现在 ...
分享开源表达式解析器IK-Expression2.0 -
qqgigas:
LZ,public boolean createUser(LD ...
Sun Directory Server/LDAP学习笔记(二)——API说明及代码样例 -
gao_shengxian:
Hibernate: update T_GX_TEST set ...
优雅Java编程 之 使用Hibernate存储Oracle Spatial对象 -
a78113534:
感谢大神,在安卓里面调用成功了。
发布IK Expression开源表达式解析器 V2.1.0 -
majiedota:
加油
来自开源支持者的第一笔捐赠
IK Analyzer 3.1 GA升级变更:
1.修订了数词切分时,指针越界的bug
2.设计了分词结果排序器,大幅度提升分词性能30%(从49万/秒提升至65万字/秒)
3.扩充了分词词典,新增5万多新词。
下载 :IKAnalyzer3.1.1稳定版完整包.rar
更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》
或浏览:http://linliangyi2007.iteye.com/blog/429960
哈哈,主意是不错,不过就怕被人说成自卖自夸就惨了
支持要记得顶贴哦 ,嘎嘎嘎。
如果svn上面是最新的,那我用的也是最新的,可能测试方式不一样,我的数据是放在xml文件里的,然后从xml读取出来再建索引就会有问题,如果把内容直接放在一个字符变量中是没有问题的,我再传一份xml文件,你测试看看
测试代码:
String s = "";
IKAnalyzer analyzer = new IKAnalyzer();
IndexWriter writer = null;
Directory directory = new RAMDirectory();
try {
writer = new IndexWriter(directory, analyzer, true, MaxFieldLength.UNLIMITED);
SAXReader reader = new SAXReader();
reader.setEncoding("utf-8");
org.dom4j.Document document = reader.read("g:/xml1/text.xml");
Element e = (Element)document.selectObject("/SEGMENT/DOCUMENT/CONTENT");
s = e.getText();
System.out.println("====="+s);
Document doc = new Document();
Field field = new Field("context", s, Field.Store.NO,Field.Index.ANALYZED);
doc.add(field);
writer.addDocument(doc, analyzer);
writer.close();
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (DocumentException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
BUG已经修订,谢谢啊!这个bug藏的相当深,因为你的文本不仅长而且中间没有任何的标点、空格来分割,造成了缓冲区边界处理时的指针异常。 IK3.1.1GA2已发布,地址http://www.iteye.com/topic/440321
你用的那个版本?3.0在切分数词时,有这个bug,请使用IK3.1GA以上版本
另外你进行分词的文字能发给我看一下嘛?
我用的是从svn上更新下来的,应该是最新的,可能跟数据长度有关吧,我把数据也上传一下,你测试看看
兄弟,你的版本应该是3.0的,重新下一个3.1.1的吧,我这边测试了你给我的文档,没有问题啊
如果svn上面是最新的,那我用的也是最新的,可能测试方式不一样,我的数据是放在xml文件里的,然后从xml读取出来再建索引就会有问题,如果把内容直接放在一个字符变量中是没有问题的,我再传一份xml文件,你测试看看
测试代码:
String s = "";
IKAnalyzer analyzer = new IKAnalyzer();
IndexWriter writer = null;
Directory directory = new RAMDirectory();
try {
writer = new IndexWriter(directory, analyzer, true, MaxFieldLength.UNLIMITED);
SAXReader reader = new SAXReader();
reader.setEncoding("utf-8");
org.dom4j.Document document = reader.read("g:/xml1/text.xml");
Element e = (Element)document.selectObject("/SEGMENT/DOCUMENT/CONTENT");
s = e.getText();
System.out.println("====="+s);
Document doc = new Document();
Field field = new Field("context", s, Field.Store.NO,Field.Index.ANALYZED);
doc.add(field);
writer.addDocument(doc, analyzer);
writer.close();
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (DocumentException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
你用的那个版本?3.0在切分数词时,有这个bug,请使用IK3.1GA以上版本
另外你进行分词的文字能发给我看一下嘛?
我用的是从svn上更新下来的,应该是最新的,可能跟数据长度有关吧,我把数据也上传一下,你测试看看
兄弟,你的版本应该是3.0的,重新下一个3.1.1的吧,我这边测试了你给我的文档,没有问题啊
你用的那个版本?3.0在切分数词时,有这个bug,请使用IK3.1GA以上版本
另外你进行分词的文字能发给我看一下嘛?
我用的是从svn上更新下来的,应该是最新的,可能跟数据长度有关吧,我把数据也上传一下,你测试看看
你用的那个版本?3.0在切分数词时,有这个bug,请使用IK3.1GA以上版本
另外你进行分词的文字能发给我看一下嘛?
呵呵,昨晚折腾到凌晨4点哦
OK,那就出个3.1.1吧,周末就出个版本哈
太好了,楼主真好人!期待带有正向最大匹配分词功能的IK3.1.1!
IK3.1.1GA 已经发布 http://linliangyi2007.iteye.com/blog/437550
OK,那就出个3.1.1吧,周末就出个版本哈
太好了,楼主真好人!期待带有正向最大匹配分词功能的IK3.1.1!
OK,那就出个3.1.1吧,周末就出个版本哈
蓝山,俺是87.没事逛逛,嘎嘎... ...
OK,那就出个3.1.1吧,周末就出个版本哈
1.修订了数词切分时,指针越界的bug
2.设计了分词结果排序器,大幅度提升分词性能30%(从49万/秒提升至65万字/秒)
3.扩充了分词词典,新增5万多新词。
下载 :IKAnalyzer3.1.1稳定版完整包.rar
更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》
或浏览:http://linliangyi2007.iteye.com/blog/429960
评论
26 楼
linliangyi2007
2009-08-14
rongxh7 写道
楼主IK3的源码,我看了两三个星期,不知道有没有看懂一半了,总之就是有很多是看不懂的,虽然有注释.或许是我比较愚笨吧,呵呵.建议楼主,有空时出一系列文章叫<<IK3源码分析>>,让我们学习一下.
哈哈,主意是不错,不过就怕被人说成自卖自夸就惨了
25 楼
rongxh7
2009-08-14
楼主IK3的源码,我看了两三个星期,不知道有没有看懂一半了,总之就是有很多是看不懂的,虽然有注释.或许是我比较愚笨吧,呵呵.建议楼主,有空时出一系列文章叫<<IK3源码分析>>,让我们学习一下.
24 楼
linliangyi2007
2009-08-05
crazy_001 写道
速度好快,这么快就解决了!支持一下
支持要记得顶贴哦 ,嘎嘎嘎。
23 楼
crazy_001
2009-08-05
速度好快,这么快就解决了!支持一下
22 楼
linliangyi2007
2009-08-05
crazy_001 写道
如果svn上面是最新的,那我用的也是最新的,可能测试方式不一样,我的数据是放在xml文件里的,然后从xml读取出来再建索引就会有问题,如果把内容直接放在一个字符变量中是没有问题的,我再传一份xml文件,你测试看看
测试代码:
String s = "";
IKAnalyzer analyzer = new IKAnalyzer();
IndexWriter writer = null;
Directory directory = new RAMDirectory();
try {
writer = new IndexWriter(directory, analyzer, true, MaxFieldLength.UNLIMITED);
SAXReader reader = new SAXReader();
reader.setEncoding("utf-8");
org.dom4j.Document document = reader.read("g:/xml1/text.xml");
Element e = (Element)document.selectObject("/SEGMENT/DOCUMENT/CONTENT");
s = e.getText();
System.out.println("====="+s);
Document doc = new Document();
Field field = new Field("context", s, Field.Store.NO,Field.Index.ANALYZED);
doc.add(field);
writer.addDocument(doc, analyzer);
writer.close();
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (DocumentException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
BUG已经修订,谢谢啊!这个bug藏的相当深,因为你的文本不仅长而且中间没有任何的标点、空格来分割,造成了缓冲区边界处理时的指针异常。 IK3.1.1GA2已发布,地址http://www.iteye.com/topic/440321
21 楼
crazy_001
2009-08-04
linliangyi2007 写道
crazy_001 写道
linliangyi2007 写道
crazy_001 写道
楼主,你好!我以前也用过这个分词,觉得不错,看了你发布新版的,也拿来试试看,但在建索引的时候会报出以下异常,不知道算不算bug:
Exception in thread "main" java.lang.IllegalArgumentException: length < 0
at org.wltea.analyzer.Lexeme.<init>(Lexeme.java:47)
Exception in thread "main" java.lang.IllegalArgumentException: length < 0
at org.wltea.analyzer.Lexeme.<init>(Lexeme.java:47)
你用的那个版本?3.0在切分数词时,有这个bug,请使用IK3.1GA以上版本
另外你进行分词的文字能发给我看一下嘛?
我用的是从svn上更新下来的,应该是最新的,可能跟数据长度有关吧,我把数据也上传一下,你测试看看
兄弟,你的版本应该是3.0的,重新下一个3.1.1的吧,我这边测试了你给我的文档,没有问题啊
如果svn上面是最新的,那我用的也是最新的,可能测试方式不一样,我的数据是放在xml文件里的,然后从xml读取出来再建索引就会有问题,如果把内容直接放在一个字符变量中是没有问题的,我再传一份xml文件,你测试看看
测试代码:
String s = "";
IKAnalyzer analyzer = new IKAnalyzer();
IndexWriter writer = null;
Directory directory = new RAMDirectory();
try {
writer = new IndexWriter(directory, analyzer, true, MaxFieldLength.UNLIMITED);
SAXReader reader = new SAXReader();
reader.setEncoding("utf-8");
org.dom4j.Document document = reader.read("g:/xml1/text.xml");
Element e = (Element)document.selectObject("/SEGMENT/DOCUMENT/CONTENT");
s = e.getText();
System.out.println("====="+s);
Document doc = new Document();
Field field = new Field("context", s, Field.Store.NO,Field.Index.ANALYZED);
doc.add(field);
writer.addDocument(doc, analyzer);
writer.close();
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (DocumentException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
20 楼
linliangyi2007
2009-08-04
crazy_001 写道
linliangyi2007 写道
crazy_001 写道
楼主,你好!我以前也用过这个分词,觉得不错,看了你发布新版的,也拿来试试看,但在建索引的时候会报出以下异常,不知道算不算bug:
Exception in thread "main" java.lang.IllegalArgumentException: length < 0
at org.wltea.analyzer.Lexeme.<init>(Lexeme.java:47)
Exception in thread "main" java.lang.IllegalArgumentException: length < 0
at org.wltea.analyzer.Lexeme.<init>(Lexeme.java:47)
你用的那个版本?3.0在切分数词时,有这个bug,请使用IK3.1GA以上版本
另外你进行分词的文字能发给我看一下嘛?
我用的是从svn上更新下来的,应该是最新的,可能跟数据长度有关吧,我把数据也上传一下,你测试看看
兄弟,你的版本应该是3.0的,重新下一个3.1.1的吧,我这边测试了你给我的文档,没有问题啊
19 楼
crazy_001
2009-08-04
linliangyi2007 写道
crazy_001 写道
楼主,你好!我以前也用过这个分词,觉得不错,看了你发布新版的,也拿来试试看,但在建索引的时候会报出以下异常,不知道算不算bug:
Exception in thread "main" java.lang.IllegalArgumentException: length < 0
at org.wltea.analyzer.Lexeme.<init>(Lexeme.java:47)
Exception in thread "main" java.lang.IllegalArgumentException: length < 0
at org.wltea.analyzer.Lexeme.<init>(Lexeme.java:47)
你用的那个版本?3.0在切分数词时,有这个bug,请使用IK3.1GA以上版本
另外你进行分词的文字能发给我看一下嘛?
我用的是从svn上更新下来的,应该是最新的,可能跟数据长度有关吧,我把数据也上传一下,你测试看看
18 楼
linliangyi2007
2009-08-04
crazy_001 写道
楼主,你好!我以前也用过这个分词,觉得不错,看了你发布新版的,也拿来试试看,但在建索引的时候会报出以下异常,不知道算不算bug:
Exception in thread "main" java.lang.IllegalArgumentException: length < 0
at org.wltea.analyzer.Lexeme.<init>(Lexeme.java:47)
Exception in thread "main" java.lang.IllegalArgumentException: length < 0
at org.wltea.analyzer.Lexeme.<init>(Lexeme.java:47)
你用的那个版本?3.0在切分数词时,有这个bug,请使用IK3.1GA以上版本
另外你进行分词的文字能发给我看一下嘛?
17 楼
crazy_001
2009-08-04
楼主,你好!我以前也用过这个分词,觉得不错,看了你发布新版的,也拿来试试看,但在建索引的时候会报出以下异常,不知道算不算bug:
Exception in thread "main" java.lang.IllegalArgumentException: length < 0
at org.wltea.analyzer.Lexeme.<init>(Lexeme.java:47)
Exception in thread "main" java.lang.IllegalArgumentException: length < 0
at org.wltea.analyzer.Lexeme.<init>(Lexeme.java:47)
16 楼
phoenixup
2009-08-03
O,3.1.1GA又出来了。。。更新很频繁,项目很活跃。。。
15 楼
smilerain
2009-08-03
楼主的分词很不错,赞一个.
14 楼
coolasp
2009-08-02
向楼主的这种精神致敬!
13 楼
952222
2009-08-01
我也要正向最大匹配。真是太好了!!!真是好人!!!
12 楼
linliangyi2007
2009-08-01
langhua9527 写道
动作也太快一点了吧。。
呵呵,昨晚折腾到凌晨4点哦
11 楼
langhua9527
2009-08-01
动作也太快一点了吧。。
10 楼
linliangyi2007
2009-08-01
rongxh7 写道
linliangyi2007 写道
rongxh7 写道
楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂!
我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢!
如:人类互联网史
IK3分词成:
人类
互联网
互联
联网
史
我们想要的结果是:
人类
互联网
史
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂!
我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢!
如:人类互联网史
IK3分词成:
人类
互联网
互联
联网
史
我们想要的结果是:
人类
互联网
史
OK,那就出个3.1.1吧,周末就出个版本哈
太好了,楼主真好人!期待带有正向最大匹配分词功能的IK3.1.1!
IK3.1.1GA 已经发布 http://linliangyi2007.iteye.com/blog/437550
9 楼
rongxh7
2009-08-01
linliangyi2007 写道
rongxh7 写道
楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂!
我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢!
如:人类互联网史
IK3分词成:
人类
互联网
互联
联网
史
我们想要的结果是:
人类
互联网
史
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂!
我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢!
如:人类互联网史
IK3分词成:
人类
互联网
互联
联网
史
我们想要的结果是:
人类
互联网
史
OK,那就出个3.1.1吧,周末就出个版本哈
太好了,楼主真好人!期待带有正向最大匹配分词功能的IK3.1.1!
8 楼
lianj_lee
2009-08-01
linliangyi2007 写道
rongxh7 写道
楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂!
我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢!
如:人类互联网史
IK3分词成:
人类
互联网
互联
联网
史
我们想要的结果是:
人类
互联网
史
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂!
我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢!
如:人类互联网史
IK3分词成:
人类
互联网
互联
联网
史
我们想要的结果是:
人类
互联网
史
OK,那就出个3.1.1吧,周末就出个版本哈
蓝山,俺是87.没事逛逛,嘎嘎... ...
7 楼
linliangyi2007
2009-07-31
rongxh7 写道
楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂!
我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢!
如:人类互联网史
IK3分词成:
人类
互联网
互联
联网
史
我们想要的结果是:
人类
互联网
史
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂!
我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢!
如:人类互联网史
IK3分词成:
人类
互联网
互联
联网
史
我们想要的结果是:
人类
互联网
史
OK,那就出个3.1.1吧,周末就出个版本哈
发表评论
-
来自开源支持者的第一笔捐赠
2013-01-09 21:15 57772013年1月9号,一个平凡而又不平常的日子! IK中文分词 ... -
发布 IK Analyzer 2012 FF 版本
2012-10-23 17:50 25073首先感谢大家对IK分词器的关注。 最近一段时间正式公司事务最 ... -
发布 IK Analyzer 2012 版本
2012-03-08 11:23 36163新版本改进: 支持分词歧义处理 支持数量词合并 词典支持中英 ... -
CSDN发生严重用户账号泄密事件
2011-12-21 19:21 2564之前有在CSDN注册过的兄弟们,注意了。。。 如果你的邮箱, ... -
一个隐形的java int溢出
2011-08-30 09:44 7555故事的背景: 笔者最近在做一个类SNS的项目,其中 ... -
雷军 :互联网创业的葵花宝典
2011-05-04 10:35 3593博主评: 这片博客很短 ... -
Luci-mint站内搜索实测
2011-04-02 16:18 4135关于Luci-mint 服务器硬 ... -
发布 IK Analyzer 3.2.8 for Lucene3.X
2011-03-04 17:49 14251IK Analyzer 3.2.8版本修订 ... -
TIPS - XML CDATA中的非法字符处理
2011-02-17 15:03 3301XML解析过程中,常遇见CDATA中存在非法字符,尤其在火星文 ... -
对Cassandra的初体验
2010-10-13 17:58 9132作为“云计算”时代的架构设计人员而言,不懂K-V库会被 ... -
Spring + iBatis 的多库横向切分简易解决思路
2010-10-11 13:43 93541.引言 笔者最近在做一个互联网的“类SNS”应用,应用 ... -
发布 IK Analyzer 3.2.5 稳定版 for Lucene3.0
2010-09-08 14:43 5822新版本IKAnnlyzer3.2.8已发布! 地址: http ... -
关于Lucene3.0.1 QueryParser的一个错误
2010-05-21 21:33 2128表达式1: 引用 id:"1231231" ... -
发布 IK Analyzer 3.2.3 稳定版 for Lucene3.0
2010-05-15 14:13 6715IK Analyzer 3.2.3版本修订 在3.2.0版 ... -
windows平台上的nginx使用
2010-01-28 17:13 3404转载自:http://nginx.org/en/docs/wi ... -
发布IKAnnlyzer3.2.0稳定版 for Lucene3.0
2009-12-07 09:27 9574最新3.2.5版本已经推出,http://linliangyi ... -
在Tomcat下以JNDI方式发布JbossCache
2009-12-04 10:57 3828前言: 看过JbossCache的开发手册,发现在Jb ... -
Spring AOP小例子
2009-11-16 10:35 3403PS: 要注明一下,这个是转载滴,之前漏了说鸟,汗死 这里给 ... -
ActiveMQ 5.X 与 Tomcat 集成一(JNDI部署)
2009-11-10 15:15 5648原文地址:http://activemq.apache.org ... -
发布IKAnalyzer中文分词器V3.1.6GA
2009-11-08 23:10 11854IKAnalyzer3.2.0稳定版已经发布,支持Lucene ...
相关推荐
IK Analyzer 是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006 年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。最初,它是以开源项目 Luence 为应用主体的,结合词典分词和文法分析...
2. IKAnalyzer2012.jar(主jar包) 3. IKAnalyzer.cfg.xml(分词器扩展配置文件) 4. stopword.dic(停止词典) 5. LICENSE.TXT ; NOTICE.TXT (apache版权申明) 它的安装部署十分简单,将 IKAnalyzer2012.jar ...
IKAnalyzer3.1.6GA.jar IKAnalyzer3.1.6GA.jar
描述中的"IKAnalyzer3.2.5Stable.jar包"暗示了这是一个完整的软件包,包含所有必要的组件,用户可以下载后直接使用。稳定版(Stable)意味着这个版本经过了广泛的测试,具有良好的兼容性和稳定性,适合在生产环境中...
IKAnalyzer6.5.0.jar 是一个针对中文分词的开源工具包,主要应用于Java环境。这个工具包的核心是IK Analyzer,它是一个基于Java实现的轻量级中文分词器,设计目标是提供一个可以方便地在Java项目中集成的分词组件。...
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词...
IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包
**IKAnalyzer3.1GA.jar** 是IKAnalyzer的jar包,包含了所有的类和库文件,用于在Java项目中引入和使用IKAnalyzer。开发者只需将这个jar文件加入到项目的类路径中,就可以直接调用IKAnalyzer的相关API进行分词操作。 ...
- 将IKAnalyzer的jar包添加到项目的类路径中,然后在配置文件中指定使用IKAnalyzer作为分词器。 - 对于Lucene,需要在分析器配置中引用IKAnalyzer,并设置相应的词典路径。 - 对于Solr,需要在schema.xml中定义...
自2006年12月发布1.0版以来,IK Analyzer 经历了多次升级,3.0版已演变为独立于 Lucene 的通用分词组件,同时也为 Lucene 提供了优化的集成。 1. **IK Analyzer 3.0 结构设计** - IK Analyzer 3.0 的设计旨在提高...
ikanalyzer 是一个专门为Java开发的中文分词器,它基于 Lucene 库,适用于各种文本处理和搜索引擎场景。在 Solr 环境中,ikanalyzer 的作用是为中文文档提供精确的分词服务,从而提升搜索质量和效率。Solr8.4.0 是 ...
标题中的"IKAnalyzer2012FF_hf1.zip"指的是IK Analyzer的2012年最终版(Final)的高频率更新1(Hot Fix 1)。IK Analyzer是一款开源的、基于Java语言开发的轻量级中文分词器,主要用于Java环境下对中文文本的分词...
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文...
IKAnalyzer是一款广泛应用于Java环境中的中文分词器,它的全称是"Intelligent Chinese Analyzer for Java"。这个压缩包文件包含的是IKAnalyzer的配置文件、扩展词典和停用词词典,这些组件对于优化IKAnalyzer的性能...
标题中的"IKAnalyzer-5.0.jar"和"solr-analyzer-extra-5.3.jar"是两个在中文搜索引擎系统Solr中常见的组件,主要用于处理中文分词问题。这两个组件在构建高性能的中文搜索解决方案中扮演着至关重要的角色。 首先,...
解决lucene4.0与IKAnalyzer的冲突。解决Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader;...
IK Analyzer 是一个开源的、基于Java实现的中文分词器,专为中文信息处理而设计。这个工具在处理中文文本时表现出色,尤其在Solr这样的搜索引擎中,它作为一个插件,提供了对中文词汇切分的强大支持。"2012FF_hf1.7z...
1. 将 ikanalyzer-solr5 解压后,将其中的 jar 包复制到 Solr 的 `server/solr-webapp/webapp/WEB-INF/lib` 目录下,这样 Solr 就可以加载这个分词器。 2. 配置 Solr 的 schema.xml 文件,指定使用 ikanalyzer 作为...
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、...
**IKAnalyzer中文分词包** IKAnalyzer是一款针对中文处理的开源搜索引擎分析器,主要用于提高中文信息检索系统的效率和精度。这个分词包是博主在个人博客中推荐并使用的,同时也可从官方网站获取,确保了其可靠性和...