论坛首页 Java企业应用论坛

发布IK Analyzer 3.0 中文分词器

浏览 66089 次
该帖已经被评为精华帖
作者 正文
   发表时间:2009-07-22  
linliangyi2007 写道
cs_sehu 写道
lz刚下了IKAnalyzer3[1].0GA_AllInOne_.rar 包解压
运用到 你写的lucene入门实例中 报
error:(25,33)无法访问 org.wltea.analyzer.lucene.IKAnalyzer
             错误的类文件:F://gquery\web\WEBINF\lib\IKAnalyzer3.0OGA.jar(org/wltea/analyzer/lucene/IKAnalyzer.class)
类文件具有错误的版本 50.0,应为 49.0
请删除该文件或确保该文件位于正确的类路径子目录中


你的jdk版本太低了吧,用6.0的试试


不错 新版本确实 需要更高级的jdk  受教了
0 请登录后投票
   发表时间:2009-07-22  
刚使用Lucene,请问一下搜索时,对于用户输入的特殊字符,怎么处理比较好,比如*,+,- 等,我使用replace感觉不大好,各位有什么好方法?
0 请登录后投票
   发表时间:2009-07-22  
sunjun 写道
刚使用Lucene,请问一下搜索时,对于用户输入的特殊字符,怎么处理比较好,比如*,+,- 等,我使用replace感觉不大好,各位有什么好方法?

大部分情况下,分词器会进行适当的处理,把他们进行数词的分割
0 请登录后投票
   发表时间:2009-07-22  
linliangyi2007 写道
sunjun 写道
刚使用Lucene,请问一下搜索时,对于用户输入的特殊字符,怎么处理比较好,比如*,+,- 等,我使用replace感觉不大好,各位有什么好方法?

大部分情况下,分词器会进行适当的处理,把他们进行数词的分割


?用户搜索*中国*,分词器会处理?
0 请登录后投票
   发表时间:2009-07-22  
linliangyi2007 写道
sking 写道
这个要顶,用过以前那个版本,老兄的东东很不错的!


谢谢啊,你们的认可是偶奋斗的动力

要是你能再写一个更新和删除索引的例子就好了。。。。
0 请登录后投票
   发表时间:2009-07-22  
sunjun 写道
linliangyi2007 写道
sunjun 写道
刚使用Lucene,请问一下搜索时,对于用户输入的特殊字符,怎么处理比较好,比如*,+,- 等,我使用replace感觉不大好,各位有什么好方法?

大部分情况下,分词器会进行适当的处理,把他们进行数词的分割


?用户搜索*中国*,分词器会处理?


看你用的查询分析器了,如果使用IKQueryParser的话,会帮你过滤掉。但如果使用Lucene自带的parser,就可能被解析为通配符了
0 请登录后投票
   发表时间:2009-07-22  
嗯,是的,我现在是使用Lucene自带的parser,是有这个问题
0 请登录后投票
   发表时间:2009-07-22  
langhua9527 写道
linliangyi2007 写道
sking 写道
这个要顶,用过以前那个版本,老兄的东东很不错的!


谢谢啊,你们的认可是偶奋斗的动力

要是你能再写一个更新和删除索引的例子就好了。。。。


这个是Lucene很基础的功能啊,Lucene的使用手册中就有例子了,有什么问题吗?上网一搜一大堆的啊。
0 请登录后投票
   发表时间:2009-07-22  
还请教你一个问题,那个高亮怎么能做成google那样,在高亮的关键字左右两边多显示出一些字符,
比如说
“IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IK Analyzer 3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现”

这段文字我搜索“分析”,想出来的结果高亮后能控制左右的字符数,搜索出来的结果可能为“结合词典分词和文法分析算法的中文分词组件”,我觉得这个结果字符数太少了,怎么做到关键字左右的字符数可以弄长些?
0 请登录后投票
   发表时间:2009-07-22  
sunjun 写道
还请教你一个问题,那个高亮怎么能做成google那样,在高亮的关键字左右两边多显示出一些字符,
比如说
“IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IK Analyzer 3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现”

这段文字我搜索“分析”,想出来的结果高亮后能控制左右的字符数,搜索出来的结果可能为“结合词典分词和文法分析算法的中文分词组件”,我觉得这个结果字符数太少了,怎么做到关键字左右的字符数可以弄长些?


搜索结果要显示的字符应该是由你自己从Document的field中读取的,甚至通过Document关联数据库记录而取出相关的内容来进行关键字加亮处理的。关键字的切分,可以直接使用IKSegment,不一定依赖于Lucene的。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics