论坛首页 Java企业应用论坛

发布IKAnalyzer中文分词器V3.1.5GA

浏览 13016 次
精华帖 (0) :: 良好帖 (2) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-11-10  
shijiyu1984 写道
CharacterHelper.isCJKCharacter(char input)这个方法判断的中文好像只对GB2312的编码的汉字有用 对有些GBK的汉字判断好像不适用


更GB2312和GBK没有关系的,java内部使用UTF-8的内码的。
CJK字符判断的是一个固定的编码区域,落在区域内的,就认为是CJK。
这些方法只是IK的辅助工具类,并不一定使用所有的范围的,呵呵。
0 请登录后投票
   发表时间:2009-11-13  


你使用API加载的嘛还是配置文件?能说说改了哪些东西吗?通过配置文件加载的
0 请登录后投票
   发表时间:2009-11-13  
linliangyi2007 写道
shijiyu1984 写道
CharacterHelper.isCJKCharacter(char input)这个方法判断的中文好像只对GB2312的编码的汉字有用 对有些GBK的汉字判断好像不适用


更GB2312和GBK没有关系的,java内部使用UTF-8的内码的。
CJK字符判断的是一个固定的编码区域,落在区域内的,就认为是CJK。
这些方法只是IK的辅助工具类,并不一定使用所有的范围的,呵呵。

这个我试过了 如果用一个GBK的字的话 你这个就判断不了,比如:这个字判断不了
0 请登录后投票
   发表时间:2009-11-13  
shijiyu1984 写道


你使用API加载的嘛还是配置文件?能说说改了哪些东西吗?通过配置文件加载的


两种方式都支持,请看说明文档,写的很清楚
0 请登录后投票
   发表时间:2009-12-21  
IKAnalyzer不怎么好,很多句子都分词不正确。
还没有Paoding好用。
0 请登录后投票
   发表时间:2009-12-21  
举个例子,我好改进哈
0 请登录后投票
   发表时间:2010-04-29  
林老师你好,我在nutch中使用ik的时候经常会遇到搜索某些词语的时候报
java.lang.StringIndexOutOfBoundsException: String index out of range: -2
at java.lang.String.substring(String.java:1938)
at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:187)
at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:251)
  请问这是什么原因?等待解答
0 请登录后投票
   发表时间:2010-04-30   最后修改:2010-04-30
zha_zi 写道
林老师你好,我在nutch中使用ik的时候经常会遇到搜索某些词语的时候报
java.lang.StringIndexOutOfBoundsException: String index out of range: -2
at java.lang.String.substring(String.java:1938)
at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:187)
at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:251)
  请问这是什么原因?等待解答


这个是Nutch的老问题了,所有交叉分词的算法nutch都用这个bug,nutch中的词元不能交叉,包括CJK,IK,paoding等
0 请登录后投票
   发表时间:2010-05-11  
linliangyi2007 写道
zha_zi 写道
林老师你好,我在nutch中使用ik的时候经常会遇到搜索某些词语的时候报
java.lang.StringIndexOutOfBoundsException: String index out of range: -2
at java.lang.String.substring(String.java:1938)
at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:187)
at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:251)
  请问这是什么原因?等待解答


这个是Nutch的老问题了,所有交叉分词的算法nutch都用这个bug,nutch中的词元不能交叉,包括CJK,IK,paoding等

谢谢林老师指点,那目前这种问题能不能解决,是不是nutch独有的问题,如何我用Heritrix+lucene会不会出现同样问题?
0 请登录后投票
   发表时间:2010-05-11  
zha_zi 写道
linliangyi2007 写道
zha_zi 写道
林老师你好,我在nutch中使用ik的时候经常会遇到搜索某些词语的时候报
java.lang.StringIndexOutOfBoundsException: String index out of range: -2
at java.lang.String.substring(String.java:1938)
at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:187)
at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:251)
  请问这是什么原因?等待解答


这个是Nutch的老问题了,所有交叉分词的算法nutch都用这个bug,nutch中的词元不能交叉,包括CJK,IK,paoding等

谢谢林老师指点,那目前这种问题能不能解决,是不是nutch独有的问题,如何我用Heritrix+lucene会不会出现同样问题?


是nutch独有的,和lucene无关,Heritrix我没接触,应该不会又同样的问题吧!
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics