发布 IK Analyzer 2012 FF 版本

linliangyi2007

浏览: 1016311 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

中文分词 IK Java 开源

首先感谢大家对IK分词器的关注。

最近一段时间正式公司事务最忙碌的时候，Lucene4.0和Solr4.0发布后，便收到了广大网友的大量邮件要求更新版本，这让我既开心又感到鸭梨大啊~~

花了3天时间，了解了Lucene4.0和solr 4.0与分词相关部分的源码。果然，又是一次不兼容的修订啊~~

时间紧迫的推出了IK Analyzer 2012 FF版本（你问啥是FF，其实就是For 4.0），在API和功能上保持不变，只是让其支持了Lucene4.0和Solr4.0，让这部分的用户能用起来。

如果你还是Lucene3.2-3.6的用户，那么你只需要下载IK Analyzer 2012 U6版本。因为FF版本的API与3.x是不兼容的。

再次吐槽，坑爹的Lucene！！

GoogleCode下载：
http://code.google.com/p/ik-analyzer/downloads/list

IK 2012分词器介绍，请参看：
http://linliangyi2007.iteye.com/blog/1445658

补充说明一下，Solr4.0的对分词器的用法和3.x不同了，直接配置分词器即可。不用TokenizerFactory了，最新下载包已经更新说明文档

分享到：

来自开源支持者的第一笔捐赠 | 发布 IK Analyzer 2012 版本

2012-10-23 17:50
浏览 25183
评论(49)
分类:开源软件
查看更多

29 楼 Java_大猫 2013-03-04

Java_大猫写道

你好，我扩暂词库失效啊不起作用。
http://blog.sina.com.cn/s/blog_4c9d7da201013wv2.html
代码完全参考这个做的
为什么呢？请帮忙

对不起LZ，是我的疏忽，问题解决了

28 楼 Java_大猫 2013-03-03

你好，我扩暂词库失效啊不起作用。
http://blog.sina.com.cn/s/blog_4c9d7da201013wv2.html
代码完全参考这个做的
为什么呢？请帮忙

27 楼 commanderhyk 2013-02-14

针对ik+solr4.0
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
上述这句话在应该如何配置,配置上报错.

26 楼 commanderhyk 2013-02-14

问一句,原先能够配置同义词,4.0版本的话,应该如何配置?filter都省略了,同义词往哪里写?

25 楼 ynyee 2013-01-28

4.0 solr 配置 IK 分词，怎么设置是否使用smart？？

24 楼 fjjiaboming 2013-01-25

FF 不如 F4...

23 楼 txf_7337 2013-01-14

以前一向是找名人签名，今天我给名人签名

22 楼 nfxu 2013-01-10

fzk128 写道

请问solr4.0下如何配置智能分词模式：
useSmart 参数如何传递。

对，我也有同样的问题~~~

21 楼 linliangyi2007 2013-01-09

snakeling 写道

楼主啊，在lucene中具体使用IK时发现一个很严重的问题。
lucene4.0中短语检索是根据 term的position进行短语检索，而不是offset，换句话说，是根据入库时分出来的词的先后顺序来检索的，不是分出来前后位置差。
所以IK现在造成大量短语检索不准确，而入库时设为smart分词结果又太糟糕。
有办法解决吗？

能不能举个例子说明，不要把问题说的这么抽象！！
另外，IK在实际应用中，不会使用简单的PhraseQuery来处理的。

20 楼 snakeling 2013-01-09

19 楼 jiangeb 2013-01-07

下载了一个IK Analyzer 2012 FF版本，但是里面并没有solr的内容，只有lucene。所以，配置schema后启动solr，提示无法加载org.wltea.analyzer.solr.IKTokenizerFactory

18 楼 Tao405195036 2012-12-29

各位大神，小弟想做个繁简分词，是否可以修改IKAnalyzer类中createComponents函数Reader in字符流（把繁体字转换成简体字），再去分词？？？可我真的去试验了下，在本地eclipse下测试可以，但打包成jar包放到solr下，就无效了？？？求解答？

17 楼 fzk128 2012-11-21

请问solr4.0下如何配置智能分词模式：
useSmart 参数如何传递。

16 楼 softwarehe 2012-11-21

博主，看文档说BaseTokenFilterFactory只是被rename了，另外StandardAnalyzer在4.0中的配置怎么也找不到啊，相反只有StandardTokenizerFactory，求指点

15 楼 linliangyi2007 2012-11-21

mandrakeli 写道

IKAnalyzer2012_u6.jar的源码哪里有？主干上似乎不是哦
另外：有考虑放到maven库里吗？

谢谢

maven , ant啥的太高端了，楼主是只会用IDE的人，别再跟我提这个鸟！

14 楼 mandrakeli 2012-11-20

IKAnalyzer2012_u6.jar的源码哪里有？主干上似乎不是哦
另外：有考虑放到maven库里吗？

谢谢

13 楼 linliangyi2007 2012-11-20

Iloseyou 写道

3.x下的：
<fieldType name="text" class="solr.TextField" >
            <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
            <analyzer type="index">
                <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" userSmart="false"/>
                <filter class="solr.StopFilterFactory"
                        ignoreCase="true" words="stopwords.txt"/>
                <filter class="solr.WordDelimiterFilterFactory"
                        generateWordParts="1"
                        generateNumberParts="1"
                        catenateWords="1"
                        catenateNumbers="1"
                        catenateAll="0"
                        splitOnCaseChange="1"/>
                <filter class="solr.LowerCaseFilterFactory"/>
                <filter class="solr.PorterStemFilterFactory"
                        protected="protwords.txt"/>
                <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
            </analyzer>
            <analyzer type="query">
                <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" userSmart="false"/>
                <filter class="solr.StopFilterFactory"
                        ignoreCase="true" words="stopwords.txt"/>
                <filter class="solr.WordDelimiterFilterFactory"
                        generateWordParts="1"
                        generateNumberParts="1"
                        catenateWords="1"
                        catenateNumbers="1"
                        catenateAll="0"
                        splitOnCaseChange="1"/>
                <filter class="solr.LowerCaseFilterFactory"/>
                <filter class="solr.PorterStemFilterFactory"
                        protected="protwords.txt"/>
                <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
            </analyzer>
        </fieldType>

4.0下变得如此简单：
<fieldType name="text" class="solr.TextField" autoGeneratePhraseQueries="false">
            <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
        </fieldType>
原先<filter的节点不用配置了吗？如何配置

亲，为啥你们不去看看StandardAnalyzer在Solr地下如何配置呢？！

12 楼 linliangyi2007 2012-11-20

tonytony3 写道

请问老师如何不去匹配单个字呢？在字典里有好多单字，

而我的需求是两个字以上的才匹配，这样会快呢可以设置无？

还有IK差一个自增加学习功能，就是两到四个字的，如果都匹配不到，是否在某些条件下可以加进字典里

希望在百忙中回答问题1啊

单字自己过滤吧，在IK API外层加个过滤就好，IK如果过滤单字，那么对分词器而言，输出就不完整了。

另外，引入自学习问题就需要解决整块算法和存储问题，并不是查不到的词就加字典这么简单的。

11 楼 Iloseyou 2012-11-19

10 楼 tonytony3 2012-11-18

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论