- 浏览: 1012526 次
- 性别:
- 来自: 福州
最新评论
-
guanxin2012:
大神,您好。非常感谢您贡献了IKExpression。我们现在 ...
分享开源表达式解析器IK-Expression2.0 -
qqgigas:
LZ,public boolean createUser(LD ...
Sun Directory Server/LDAP学习笔记(二)——API说明及代码样例 -
gao_shengxian:
Hibernate: update T_GX_TEST set ...
优雅Java编程 之 使用Hibernate存储Oracle Spatial对象 -
a78113534:
感谢大神,在安卓里面调用成功了。
发布IK Expression开源表达式解析器 V2.1.0 -
majiedota:
加油
来自开源支持者的第一笔捐赠
IK Analyzer 3.2.3版本修订
在3.2.0版本基础上,更新如下:
1.优化词典匹配算法,将IK分词器速度提高至80万字/秒
2.添加对韩文、日文的支持,采用单字切分
3.增加IKQueryParser的 setMaxWordLength 方法,使其支持最大词长切分
PS:如果您使用的是Solr1.3或者v2.9之前的Lucene,请下载IK Analyzer3.1.6GA使用! IK Analyzer3.2.X仅支持Lucene3.0以上版本。
下载地址
IKAnalyzer3.2.3稳定版发布包
IKAnalyzer3.2.3稳定版源代码
下一阶段研发重点是搜索引擎相关,冒似你这个能用在站内搜索吧?中文,拼音支持吗?有空研究下。送上精华。
目前分词不输出拼音,因为考虑到多音字问题。实际上,从接口设计上而言,不应该把拼音搜索方式并进索引,而应该提供拼音suggest更合理
下一阶段研发重点是搜索引擎相关,冒似你这个能用在站内搜索吧?中文,拼音支持吗?有空研究下。送上精华。
有的啊,IK的说明文档都有说明的啊,另外最新版本是3.2.8,请更新
你的Lucene版本不配套
感谢支持
在3.2.0版本基础上,更新如下:
1.优化词典匹配算法,将IK分词器速度提高至80万字/秒
2.添加对韩文、日文的支持,采用单字切分
3.增加IKQueryParser的 setMaxWordLength 方法,使其支持最大词长切分
PS:如果您使用的是Solr1.3或者v2.9之前的Lucene,请下载IK Analyzer3.1.6GA使用! IK Analyzer3.2.X仅支持Lucene3.0以上版本。
下载地址
IKAnalyzer3.2.3稳定版发布包
IKAnalyzer3.2.3稳定版源代码
评论
21 楼
linliangyi2007
2011-04-26
peterwei 写道
linliangyi2007 写道
IK Analyzer 3.2.3版本修订
在3.2.0版本基础上,更新如下:
1.优化词典匹配算法,将IK分词器速度提高至80万字/秒
2.添加对韩文、日文的支持,采用单字切分
3.增加IKQueryParser的 setMaxWordLength 方法,使其支持最大词长切分
PS:如果您使用的是Solr1.3或者v2.9之前的Lucene,请下载IK Analyzer3.1.6GA使用! IK Analyzer3.2.X仅支持Lucene3.0以上版本。
下载地址
IKAnalyzer3.2.3稳定版发布包
IKAnalyzer3.2.3稳定版源代码
在3.2.0版本基础上,更新如下:
1.优化词典匹配算法,将IK分词器速度提高至80万字/秒
2.添加对韩文、日文的支持,采用单字切分
3.增加IKQueryParser的 setMaxWordLength 方法,使其支持最大词长切分
PS:如果您使用的是Solr1.3或者v2.9之前的Lucene,请下载IK Analyzer3.1.6GA使用! IK Analyzer3.2.X仅支持Lucene3.0以上版本。
下载地址
IKAnalyzer3.2.3稳定版发布包
IKAnalyzer3.2.3稳定版源代码
下一阶段研发重点是搜索引擎相关,冒似你这个能用在站内搜索吧?中文,拼音支持吗?有空研究下。送上精华。
目前分词不输出拼音,因为考虑到多音字问题。实际上,从接口设计上而言,不应该把拼音搜索方式并进索引,而应该提供拼音suggest更合理
20 楼
peterwei
2011-04-25
linliangyi2007 写道
IK Analyzer 3.2.3版本修订
在3.2.0版本基础上,更新如下:
1.优化词典匹配算法,将IK分词器速度提高至80万字/秒
2.添加对韩文、日文的支持,采用单字切分
3.增加IKQueryParser的 setMaxWordLength 方法,使其支持最大词长切分
PS:如果您使用的是Solr1.3或者v2.9之前的Lucene,请下载IK Analyzer3.1.6GA使用! IK Analyzer3.2.X仅支持Lucene3.0以上版本。
下载地址
IKAnalyzer3.2.3稳定版发布包
IKAnalyzer3.2.3稳定版源代码
在3.2.0版本基础上,更新如下:
1.优化词典匹配算法,将IK分词器速度提高至80万字/秒
2.添加对韩文、日文的支持,采用单字切分
3.增加IKQueryParser的 setMaxWordLength 方法,使其支持最大词长切分
PS:如果您使用的是Solr1.3或者v2.9之前的Lucene,请下载IK Analyzer3.1.6GA使用! IK Analyzer3.2.X仅支持Lucene3.0以上版本。
下载地址
IKAnalyzer3.2.3稳定版发布包
IKAnalyzer3.2.3稳定版源代码
下一阶段研发重点是搜索引擎相关,冒似你这个能用在站内搜索吧?中文,拼音支持吗?有空研究下。送上精华。
19 楼
linliangyi2007
2011-04-25
cookiejj2010 写道
希望问下 IK如何在分词结果中过滤动词谓词形容词副词这样的内容 只保留名词 非常感谢 我只需要分词功能 正在使用IK_Analyzer
有的啊,IK的说明文档都有说明的啊,另外最新版本是3.2.8,请更新
18 楼
kanny87929
2011-04-25
好东西一定要支持
17 楼
cookiejj2010
2011-04-25
希望问下 IK如何在分词结果中过滤动词谓词形容词副词这样的内容 只保留名词 非常感谢 我只需要分词功能 正在使用IK_Analyzer
16 楼
linliangyi2007
2011-01-10
多多08 写道
我照着敲了一遍,为什么在这一行:
iwriter.addDocument(doc);
报了一个Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.Token.setTermBuffer(Ljava/lang/String;)V
at org.wltea.analyzer.lucene.IKTokenizer.toToken(IKTokenizer.java:57)
at org.wltea.analyzer.lucene.IKTokenizer.next(IKTokenizer.java:42)
at org.apache.lucene.analysis.TokenStream.next(TokenStream.java:79)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.invertField(DocumentsWriter.java:1522)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.processField(DocumentsWriter.java:1412)
at org.apache.lucene.index.DocumentsWriter$ThreadState.processDocument(DocumentsWriter.java:1121)
at org.apache.lucene.index.DocumentsWriter.updateDocument(DocumentsWriter.java:2442)
at org.apache.lucene.index.DocumentsWriter.addDocument(DocumentsWriter.java:2424)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1464)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1442)
at other.IKAnalyzerDemo2.main(IKAnalyzerDemo2.java:52)
急待回复,谢谢
iwriter.addDocument(doc);
报了一个Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.Token.setTermBuffer(Ljava/lang/String;)V
at org.wltea.analyzer.lucene.IKTokenizer.toToken(IKTokenizer.java:57)
at org.wltea.analyzer.lucene.IKTokenizer.next(IKTokenizer.java:42)
at org.apache.lucene.analysis.TokenStream.next(TokenStream.java:79)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.invertField(DocumentsWriter.java:1522)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.processField(DocumentsWriter.java:1412)
at org.apache.lucene.index.DocumentsWriter$ThreadState.processDocument(DocumentsWriter.java:1121)
at org.apache.lucene.index.DocumentsWriter.updateDocument(DocumentsWriter.java:2442)
at org.apache.lucene.index.DocumentsWriter.addDocument(DocumentsWriter.java:2424)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1464)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1442)
at other.IKAnalyzerDemo2.main(IKAnalyzerDemo2.java:52)
急待回复,谢谢
你的Lucene版本不配套
15 楼
多多08
2011-01-10
我照着敲了一遍,为什么在这一行:
iwriter.addDocument(doc);
报了一个Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.Token.setTermBuffer(Ljava/lang/String;)V
at org.wltea.analyzer.lucene.IKTokenizer.toToken(IKTokenizer.java:57)
at org.wltea.analyzer.lucene.IKTokenizer.next(IKTokenizer.java:42)
at org.apache.lucene.analysis.TokenStream.next(TokenStream.java:79)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.invertField(DocumentsWriter.java:1522)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.processField(DocumentsWriter.java:1412)
at org.apache.lucene.index.DocumentsWriter$ThreadState.processDocument(DocumentsWriter.java:1121)
at org.apache.lucene.index.DocumentsWriter.updateDocument(DocumentsWriter.java:2442)
at org.apache.lucene.index.DocumentsWriter.addDocument(DocumentsWriter.java:2424)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1464)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1442)
at other.IKAnalyzerDemo2.main(IKAnalyzerDemo2.java:52)
急待回复,谢谢
iwriter.addDocument(doc);
报了一个Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.Token.setTermBuffer(Ljava/lang/String;)V
at org.wltea.analyzer.lucene.IKTokenizer.toToken(IKTokenizer.java:57)
at org.wltea.analyzer.lucene.IKTokenizer.next(IKTokenizer.java:42)
at org.apache.lucene.analysis.TokenStream.next(TokenStream.java:79)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.invertField(DocumentsWriter.java:1522)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.processField(DocumentsWriter.java:1412)
at org.apache.lucene.index.DocumentsWriter$ThreadState.processDocument(DocumentsWriter.java:1121)
at org.apache.lucene.index.DocumentsWriter.updateDocument(DocumentsWriter.java:2442)
at org.apache.lucene.index.DocumentsWriter.addDocument(DocumentsWriter.java:2424)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1464)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1442)
at other.IKAnalyzerDemo2.main(IKAnalyzerDemo2.java:52)
急待回复,谢谢
14 楼
mfkdzhou
2010-08-31
谢谢,楼主有大作,我刚学LUCENE,用IK后发现我想搜索“周杰伦” 输入 "周" 可以找到,输入"杰伦" 可以找到...但是输入"周杰伦" 为什么找不到呢?
13 楼
dilantaya
2010-07-13
lz 的工作对我们很有帮助!
12 楼
bastengao
2010-07-11
支持,支持
11 楼
lym6520
2010-05-18
恩,用你的分词器,很不错,继续努力啊!
10 楼
midstr
2010-05-18
谢谢牛人,正在用IK
9 楼
100Air
2010-05-18
支持楼主,一直用你的分词器!
8 楼
gqf2008
2010-05-18
支持楼主,加油!
7 楼
rentianchou
2010-05-18
我来支持下
6 楼
凯旋人生
2010-05-18
多谢了楼主,接下来的项目会使用IK。
5 楼
ryxxlong
2010-05-18
来支持一下,加油!
4 楼
neptune
2010-05-18
一直用你的分词器,感谢linliangyi2007,加油。
3 楼
tsyouaschen
2010-05-15
希望能早日看到,中英文混合分词!!非常期待
2 楼
linliangyi2007
2010-05-15
tsyouaschen 写道
非常的感谢大牛。。
希望越做越好,我非常的喜欢这个中文分词。
希望越做越好,我非常的喜欢这个中文分词。
感谢支持
发表评论
-
来自开源支持者的第一笔捐赠
2013-01-09 21:15 57772013年1月9号,一个平凡而又不平常的日子! IK中文分词 ... -
发布 IK Analyzer 2012 FF 版本
2012-10-23 17:50 25069首先感谢大家对IK分词器的关注。 最近一段时间正式公司事务最 ... -
发布 IK Analyzer 2012 版本
2012-03-08 11:23 36160新版本改进: 支持分词歧义处理 支持数量词合并 词典支持中英 ... -
CSDN发生严重用户账号泄密事件
2011-12-21 19:21 2564之前有在CSDN注册过的兄弟们,注意了。。。 如果你的邮箱, ... -
一个隐形的java int溢出
2011-08-30 09:44 7554故事的背景: 笔者最近在做一个类SNS的项目,其中 ... -
雷军 :互联网创业的葵花宝典
2011-05-04 10:35 3592博主评: 这片博客很短 ... -
Luci-mint站内搜索实测
2011-04-02 16:18 4134关于Luci-mint 服务器硬 ... -
发布 IK Analyzer 3.2.8 for Lucene3.X
2011-03-04 17:49 14250IK Analyzer 3.2.8版本修订 ... -
TIPS - XML CDATA中的非法字符处理
2011-02-17 15:03 3300XML解析过程中,常遇见CDATA中存在非法字符,尤其在火星文 ... -
对Cassandra的初体验
2010-10-13 17:58 9130作为“云计算”时代的架构设计人员而言,不懂K-V库会被 ... -
Spring + iBatis 的多库横向切分简易解决思路
2010-10-11 13:43 93541.引言 笔者最近在做一个互联网的“类SNS”应用,应用 ... -
发布 IK Analyzer 3.2.5 稳定版 for Lucene3.0
2010-09-08 14:43 5821新版本IKAnnlyzer3.2.8已发布! 地址: http ... -
关于Lucene3.0.1 QueryParser的一个错误
2010-05-21 21:33 2125表达式1: 引用 id:"1231231" ... -
windows平台上的nginx使用
2010-01-28 17:13 3401转载自:http://nginx.org/en/docs/wi ... -
发布IKAnnlyzer3.2.0稳定版 for Lucene3.0
2009-12-07 09:27 9572最新3.2.5版本已经推出,http://linliangyi ... -
在Tomcat下以JNDI方式发布JbossCache
2009-12-04 10:57 3827前言: 看过JbossCache的开发手册,发现在Jb ... -
Spring AOP小例子
2009-11-16 10:35 3402PS: 要注明一下,这个是转载滴,之前漏了说鸟,汗死 这里给 ... -
ActiveMQ 5.X 与 Tomcat 集成一(JNDI部署)
2009-11-10 15:15 5648原文地址:http://activemq.apache.org ... -
发布IKAnalyzer中文分词器V3.1.6GA
2009-11-08 23:10 11853IKAnalyzer3.2.0稳定版已经发布,支持Lucene ... -
设计模式感悟
2009-11-07 17:57 3695最近又把以前学习的模式过了一遍,感觉模式不是学出来的,是悟出来 ...
相关推荐
总之,IKAnalyzer作为一款强大的中文分词器,能够很好地适应Lucene的各个高版本,提供稳定、高效的分词服务。无论是用于Lucene的原生应用,还是在Solr这样的搜索服务器中,它都是处理中文文本的理想选择。随着技术的...
自2006年12月发布1.0版以来,IK Analyzer 经历了多次升级,3.0版已演变为独立于 Lucene 的通用分词组件,同时也为 Lucene 提供了优化的集成。 1. **IK Analyzer 3.0 结构设计** - IK Analyzer 3.0 的设计旨在提高...
提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。
- **IKAnalyzer依赖项**:`<groupId>IKAnalyzer</groupId>`、`<artifactId>IKAnalyzer</artifactId>`、`<version>3.2.3Stable</version>`,这里指定了使用的IKAnalyzer版本为3.2.3 Stable。 4. **实体类配置**:...
IKAnalyzer 是一个专门为 Lucene 设计的开源中文分词库,它在中文处理领域有着广泛的应用。这个版本的 IKAnalyzer 特别适用于 Lucene 5.2.1,这意味着它与该版本的 Lucene 兼容性极佳,能够提供高效、准确的中文分词...
总的来说,ikanalyzer中文分词支持lucene7.1.0是为了解决旧版ikanalyzer与新Lucene版本的兼容性问题而推出的,它使得开发者能够充分利用Lucene的最新特性,同时保持ikanalyzer的优秀分词性能,对于处理中文内容的...
来自牛人修改的IKAnalyzer,https://github.com/sea-boat/IKAnalyzer-Mirror,亲测Lucene7.2可用
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
标题中的“IKanalyzer2012修复与Lucene3.6.2Jar及IK使用示例”指的是一项关于优化IKAnalyzer2012版本的活动,这是一款流行的中文分词器,常用于Java环境下的信息检索和文本分析。Lucene3.6.2Jar则是Apache Lucene的...
【Lucene4.7+IK Analyzer中文分词入门教程】 Lucene是一个开源的全文检索库,它提供了文本分析、索引和搜索的核心工具。在这个入门教程中,我们将使用Lucene 4.7版本,结合IK Analyzer,一个专门针对中文分词的开源...
IKAnalyzer3.2是中文分词工具的一个稳定版本,它主要设计用于提高中文文本处理的效率和准确性。分词在信息检索、自然语言处理、文本挖掘等领域扮演着至关重要的角色,因为它是理解中文文本基础的第一步。IKAnalyzer...
IKAnalyzer2012_u6和lucene-core-3.6.0两个jar包,互相兼容。ik分词的使用方法可以转https://blog.csdn.net/fr961951149/article/details/98736002。
IKAnalyzer会定期发布新版本,以适配最新版的Lucene。 2. **修改代码**:检查并修改项目中涉及Lucene API的部分,以适应新版本的API变化。 3. **使用桥接类**:有时,开发者可以利用Lucene提供的桥接类来兼容旧版...
在标题中的"IKAnalyzer3.2.5Stable.jar"指的是该软件的特定版本,即3.2.5稳定版的Java档案文件(JAR)。这种格式的文件通常包含了IKAnalyzer的所有源代码、类文件和其他资源,使得用户可以直接引入到自己的项目中...
本话题主要探讨的是在Java 1.5环境下,如何利用Lucene 3.0.1版本和IKAnalyzer 3.2来实现模糊查询的功能。Lucene是一个高性能、全文本搜索库,而IKAnalyzer是一个专门针对中文分词的开源分析器,它们的结合能够有效地...
新版本的IKAnalyzer3.0 则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 1.2IKAnalyzer3.0特性 * 采用了特有的“正向迭代最细粒度切分算法“,具有50万字/秒的高速处理...
5. **库文件夹**:`libs` 目录下可能包含了IK Analyzer运行所需的其他依赖库,如Lucene等,这些库文件对于IK Analyzer的正常工作至关重要。 6. **元数据**:`META-INF` 文件夹通常包含关于JAR文件本身的信息,如...
总的来说,IK Analyzer 2012FF_hf1是为了解决与新版本Lucene的兼容性问题而发布的,确保在Lucene 6.0及以上版本中能够正常使用,提供稳定的中文分词服务。对于使用这些版本Lucene的开发者而言,这是一个非常有价值的...