精华帖 (0) :: 良好帖 (2) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2009-11-10
shijiyu1984 写道 CharacterHelper.isCJKCharacter(char input)这个方法判断的中文好像只对GB2312的编码的汉字有用 对有些GBK的汉字判断好像不适用
更GB2312和GBK没有关系的,java内部使用UTF-8的内码的。 CJK字符判断的是一个固定的编码区域,落在区域内的,就认为是CJK。 这些方法只是IK的辅助工具类,并不一定使用所有的范围的,呵呵。 |
|
返回顶楼 | |
发表时间:2009-11-13
你使用API加载的嘛还是配置文件?能说说改了哪些东西吗?通过配置文件加载的 |
|
返回顶楼 | |
发表时间:2009-11-13
linliangyi2007 写道 shijiyu1984 写道 CharacterHelper.isCJKCharacter(char input)这个方法判断的中文好像只对GB2312的编码的汉字有用 对有些GBK的汉字判断好像不适用
更GB2312和GBK没有关系的,java内部使用UTF-8的内码的。 CJK字符判断的是一个固定的编码区域,落在区域内的,就认为是CJK。 这些方法只是IK的辅助工具类,并不一定使用所有的范围的,呵呵。 这个我试过了 如果用一个GBK的字的话 你这个就判断不了,比如:这个字判断不了 |
|
返回顶楼 | |
发表时间:2009-11-13
shijiyu1984 写道 你使用API加载的嘛还是配置文件?能说说改了哪些东西吗?通过配置文件加载的 两种方式都支持,请看说明文档,写的很清楚 |
|
返回顶楼 | |
发表时间:2009-12-21
IKAnalyzer不怎么好,很多句子都分词不正确。
还没有Paoding好用。 |
|
返回顶楼 | |
发表时间:2009-12-21
举个例子,我好改进哈
|
|
返回顶楼 | |
发表时间:2010-04-29
林老师你好,我在nutch中使用ik的时候经常会遇到搜索某些词语的时候报
java.lang.StringIndexOutOfBoundsException: String index out of range: -2 at java.lang.String.substring(String.java:1938) at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:187) at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:251) 请问这是什么原因?等待解答 |
|
返回顶楼 | |
发表时间:2010-04-30
最后修改:2010-04-30
zha_zi 写道 林老师你好,我在nutch中使用ik的时候经常会遇到搜索某些词语的时候报
java.lang.StringIndexOutOfBoundsException: String index out of range: -2 at java.lang.String.substring(String.java:1938) at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:187) at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:251) 请问这是什么原因?等待解答 这个是Nutch的老问题了,所有交叉分词的算法nutch都用这个bug,nutch中的词元不能交叉,包括CJK,IK,paoding等 |
|
返回顶楼 | |
发表时间:2010-05-11
linliangyi2007 写道 zha_zi 写道 林老师你好,我在nutch中使用ik的时候经常会遇到搜索某些词语的时候报 java.lang.StringIndexOutOfBoundsException: String index out of range: -2 at java.lang.String.substring(String.java:1938) at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:187) at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:251) 请问这是什么原因?等待解答 这个是Nutch的老问题了,所有交叉分词的算法nutch都用这个bug,nutch中的词元不能交叉,包括CJK,IK,paoding等 谢谢林老师指点,那目前这种问题能不能解决,是不是nutch独有的问题,如何我用Heritrix+lucene会不会出现同样问题? |
|
返回顶楼 | |
发表时间:2010-05-11
zha_zi 写道 linliangyi2007 写道 zha_zi 写道 林老师你好,我在nutch中使用ik的时候经常会遇到搜索某些词语的时候报
java.lang.StringIndexOutOfBoundsException: String index out of range: -2 at java.lang.String.substring(String.java:1938) at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:187) at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:251) 请问这是什么原因?等待解答 这个是Nutch的老问题了,所有交叉分词的算法nutch都用这个bug,nutch中的词元不能交叉,包括CJK,IK,paoding等 谢谢林老师指点,那目前这种问题能不能解决,是不是nutch独有的问题,如何我用Heritrix+lucene会不会出现同样问题? 是nutch独有的,和lucene无关,Heritrix我没接触,应该不会又同样的问题吧! |
|
返回顶楼 | |