发布 IK Analyzer 2012 FF 版本

linliangyi2007

浏览: 1015871 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

中文分词 IK Java 开源

首先感谢大家对IK分词器的关注。

最近一段时间正式公司事务最忙碌的时候，Lucene4.0和Solr4.0发布后，便收到了广大网友的大量邮件要求更新版本，这让我既开心又感到鸭梨大啊~~

花了3天时间，了解了Lucene4.0和solr 4.0与分词相关部分的源码。果然，又是一次不兼容的修订啊~~

时间紧迫的推出了IK Analyzer 2012 FF版本（你问啥是FF，其实就是For 4.0），在API和功能上保持不变，只是让其支持了Lucene4.0和Solr4.0，让这部分的用户能用起来。

如果你还是Lucene3.2-3.6的用户，那么你只需要下载IK Analyzer 2012 U6版本。因为FF版本的API与3.x是不兼容的。

再次吐槽，坑爹的Lucene！！

GoogleCode下载：
http://code.google.com/p/ik-analyzer/downloads/list

IK 2012分词器介绍，请参看：
http://linliangyi2007.iteye.com/blog/1445658

补充说明一下，Solr4.0的对分词器的用法和3.x不同了，直接配置分词器即可。不用TokenizerFactory了，最新下载包已经更新说明文档

分享到：

来自开源支持者的第一笔捐赠 | 发布 IK Analyzer 2012 版本

2012-10-23 17:50
浏览 25169
评论(49)
分类:开源软件
查看更多

9 楼 loker_025 2012-10-30

linliangyi2007 写道

loker_025 写道

博主好！感谢博主无私奉献以及及时更新，我在配置4.0solr的时候出现如下错误。

Caused by: java.lang.RuntimeException: Can't set positionIncrementGap on custom analyzer class org.wltea.analyzer.lucene.IKAnalyzer
	at org.apache.solr.schema.FieldType.setArgs(FieldType.java:159)
	at org.apache.solr.schema.FieldTypePluginLoader.init(FieldTypePluginLoader.java:127)
	at org.apache.solr.schema.FieldTypePluginLoader.init(FieldTypePluginLoader.java:1)
	at org.apache.solr.util.plugin.AbstractPluginLoader.load(AbstractPluginLoader.java:190)
	... 34 more

调查代码发现solr报错的地方

 if (positionInc != null) {
      Analyzer analyzer = getAnalyzer();
      if (analyzer instanceof SolrAnalyzer) {
        ((SolrAnalyzer)analyzer).setPositionIncrementGap(Integer.parseInt(positionInc));
      } else {
        throw new RuntimeException("Can't set positionIncrementGap on custom analyzer " + analyzer.getClass());
      }
      analyzer = getQueryAnalyzer();
      if (analyzer instanceof SolrAnalyzer) {
        ((SolrAnalyzer)analyzer).setPositionIncrementGap(Integer.parseInt(positionInc));
      } else {
        throw new RuntimeException("Can't set positionIncrementGap on custom analyzer " + analyzer.getClass());
      }
      initArgs.remove("positionIncrementGap");
    }

analyzer instanceof SolrAnalyzer，看了下IK的源码，IKAnalyzer是继承lucene的Analyzer而导致报错。是我配置问题吗？还是我版本有问题？
感谢博主！

IKAnalyzer没有继承SolrAnalyzer，就如同StandardAnalyzer一样。你看一下solr4.0中如何配置StandardAnalyzer吧

收到，已经解决了！感谢

8 楼 linliangyi2007 2012-10-30

loker_025 写道

博主好！感谢博主无私奉献以及及时更新，我在配置4.0solr的时候出现如下错误。

Caused by: java.lang.RuntimeException: Can't set positionIncrementGap on custom analyzer class org.wltea.analyzer.lucene.IKAnalyzer
	at org.apache.solr.schema.FieldType.setArgs(FieldType.java:159)
	at org.apache.solr.schema.FieldTypePluginLoader.init(FieldTypePluginLoader.java:127)
	at org.apache.solr.schema.FieldTypePluginLoader.init(FieldTypePluginLoader.java:1)
	at org.apache.solr.util.plugin.AbstractPluginLoader.load(AbstractPluginLoader.java:190)
	... 34 more

调查代码发现solr报错的地方

 if (positionInc != null) {
      Analyzer analyzer = getAnalyzer();
      if (analyzer instanceof SolrAnalyzer) {
        ((SolrAnalyzer)analyzer).setPositionIncrementGap(Integer.parseInt(positionInc));
      } else {
        throw new RuntimeException("Can't set positionIncrementGap on custom analyzer " + analyzer.getClass());
      }
      analyzer = getQueryAnalyzer();
      if (analyzer instanceof SolrAnalyzer) {
        ((SolrAnalyzer)analyzer).setPositionIncrementGap(Integer.parseInt(positionInc));
      } else {
        throw new RuntimeException("Can't set positionIncrementGap on custom analyzer " + analyzer.getClass());
      }
      initArgs.remove("positionIncrementGap");
    }

analyzer instanceof SolrAnalyzer，看了下IK的源码，IKAnalyzer是继承lucene的Analyzer而导致报错。是我配置问题吗？还是我版本有问题？
感谢博主！

IKAnalyzer没有继承SolrAnalyzer，就如同StandardAnalyzer一样。你看一下solr4.0中如何配置StandardAnalyzer吧

7 楼 loker_025 2012-10-29

博主好！感谢博主无私奉献以及及时更新，我在配置4.0solr的时候出现如下错误。

Caused by: java.lang.RuntimeException: Can't set positionIncrementGap on custom analyzer class org.wltea.analyzer.lucene.IKAnalyzer
	at org.apache.solr.schema.FieldType.setArgs(FieldType.java:159)
	at org.apache.solr.schema.FieldTypePluginLoader.init(FieldTypePluginLoader.java:127)
	at org.apache.solr.schema.FieldTypePluginLoader.init(FieldTypePluginLoader.java:1)
	at org.apache.solr.util.plugin.AbstractPluginLoader.load(AbstractPluginLoader.java:190)
	... 34 more

调查代码发现solr报错的地方

 if (positionInc != null) {
      Analyzer analyzer = getAnalyzer();
      if (analyzer instanceof SolrAnalyzer) {
        ((SolrAnalyzer)analyzer).setPositionIncrementGap(Integer.parseInt(positionInc));
      } else {
        throw new RuntimeException("Can't set positionIncrementGap on custom analyzer " + analyzer.getClass());
      }
      analyzer = getQueryAnalyzer();
      if (analyzer instanceof SolrAnalyzer) {
        ((SolrAnalyzer)analyzer).setPositionIncrementGap(Integer.parseInt(positionInc));
      } else {
        throw new RuntimeException("Can't set positionIncrementGap on custom analyzer " + analyzer.getClass());
      }
      initArgs.remove("positionIncrementGap");
    }

analyzer instanceof SolrAnalyzer，看了下IK的源码，IKAnalyzer是继承lucene的Analyzer而导致报错。是我配置问题吗？还是我版本有问题？
感谢博主！

6 楼 linliangyi2007 2012-10-29

发展中国家

nicoljiang 写道

请问这个跟mmseg4j的准确度相比如何？
跟HMM相比呢？
另外，能像mmseg4j那样动态加载新字典吗？
“发展中国家”不知道这个会分成什么样？

可以自定义动态加载词典，具体请看说明文档。

就选择哪个分词器的问题我之前已经谈过很多次，这个需要看用户的适用场景，不同场景用法不同，分词器的优势就不一样，没有定式。上述的疑问只有您自己试用过了，自己觉得哪个更好就用它。

“发展中国家”在IK中试用smart方式的话，会被切分成完整的一个词。

5 楼 nicoljiang 2012-10-26

请问这个跟mmseg4j的准确度相比如何？
跟HMM相比呢？
另外，能像mmseg4j那样动态加载新字典吗？
“发展中国家”不知道这个会分成什么样？

4 楼 linliangyi2007 2012-10-24

ssosun 写道

楼主，求下Solr4.0下，Ik在schema.xml里的配置，刚刚接触这方面内容，弄的比较晕，往schema里面一增加IK的配置，日志里总看到异常。谢谢！

你遇到的问题，请参考http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters
这里专门讲述了分词器相关solr的配置

3 楼 ssosun 2012-10-24

楼主，求下Solr4.0下，Ik在schema.xml里的配置，刚刚接触这方面内容，弄的比较晕，往schema里面一增加IK的配置，日志里总看到异常。谢谢！

2 楼 linliangyi2007 2012-10-24

yygcyupeng 写道

请问现在还支持智能分词模式么，useSmart那种

当然啊，为什么要取消呢！

1 楼 yygcyupeng 2012-10-24

请问现在还支持智能分词模式么，useSmart那种

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论