`
linliangyi2007
  • 浏览: 1012551 次
  • 性别: Icon_minigender_1
  • 来自: 福州
社区版块
存档分类
最新评论

发布 IK Analyzer 2012 FF 版本

阅读更多
首先感谢大家对IK分词器的关注。

最近一段时间正式公司事务最忙碌的时候,Lucene4.0和Solr4.0发布后,便收到了广大网友的大量邮件要求更新版本,这让我既开心又感到鸭梨大啊~~

花了3天时间,了解了Lucene4.0和solr 4.0与分词相关部分的源码。果然,又是一次不兼容的修订啊~~

时间紧迫的推出了IK Analyzer 2012 FF版本 (你问啥是FF,其实就是For 4.0),在API和功能上保持不变,只是让其支持了Lucene4.0和Solr4.0,让这部分的用户能用起来。

如果你还是Lucene3.2-3.6的用户,那么你只需要下载IK Analyzer 2012 U6版本。因为FF版本的API与3.x是不兼容的。

再次吐槽,坑爹的Lucene!!

GoogleCode下载:
http://code.google.com/p/ik-analyzer/downloads/list

IK 2012分词器介绍,请参看:
http://linliangyi2007.iteye.com/blog/1445658

补充说明一下,Solr4.0的对分词器的用法和3.x不同了,直接配置分词器即可。不用TokenizerFactory了,最新下载包已经更新说明文档






分享到:
评论
29 楼 Java_大猫 2013-03-04  
Java_大猫 写道
你好,我扩暂词库 失效啊 不起作用。
http://blog.sina.com.cn/s/blog_4c9d7da201013wv2.html
代码完全参考这个做的
为什么呢?请帮忙


对不起LZ,是我的疏忽,问题解决了
28 楼 Java_大猫 2013-03-03  
你好,我扩暂词库 失效啊 不起作用。
http://blog.sina.com.cn/s/blog_4c9d7da201013wv2.html
代码完全参考这个做的
为什么呢?请帮忙
27 楼 commanderhyk 2013-02-14  
针对ik+solr4.0
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
上述这句话在应该如何配置,配置上报错.
26 楼 commanderhyk 2013-02-14  
问一句,原先能够配置同义词,4.0版本的话,应该如何配置?filter都省略了,同义词往哪里写?
25 楼 ynyee 2013-01-28  
4.0 solr 配置 IK 分词,怎么设置是否使用smart??
24 楼 fjjiaboming 2013-01-25  
FF  不如 F4...
23 楼 txf_7337 2013-01-14  
以前一向是找名人签名,今天我给名人签名
22 楼 nfxu 2013-01-10  
fzk128 写道
请问solr4.0下如何配置智能分词模式:
useSmart 参数如何传递。



对,我也有同样的问题~~~
21 楼 linliangyi2007 2013-01-09  
snakeling 写道
楼主啊,在lucene中具体使用IK时发现一个很严重的问题。
lucene4.0中短语检索是根据 term的position进行短语检索,而不是offset,换句话说,是根据入库时分出来的词的先后顺序来检索的,不是分出来前后位置差。
所以IK现在造成大量短语检索不准确,而入库时设为smart分词结果又太糟糕。
有办法解决吗?


能不能举个例子说明,不要把问题说的这么抽象!!
另外,IK在实际应用中,不会使用简单的PhraseQuery来处理的。
20 楼 snakeling 2013-01-09  
楼主啊,在lucene中具体使用IK时发现一个很严重的问题。
lucene4.0中短语检索是根据 term的position进行短语检索,而不是offset,换句话说,是根据入库时分出来的词的先后顺序来检索的,不是分出来前后位置差。
所以IK现在造成大量短语检索不准确,而入库时设为smart分词结果又太糟糕。
有办法解决吗?
19 楼 jiangeb 2013-01-07  
下载了一个IK Analyzer 2012 FF版本,但是里面并没有solr的内容,只有lucene。所以,配置schema后启动solr,提示无法加载org.wltea.analyzer.solr.IKTokenizerFactory
18 楼 Tao405195036 2012-12-29  
各位大神,小弟想做个繁简分词,是否可以修改IKAnalyzer类中createComponents函数Reader in字符流(把繁体字转换成简体字),再去分词???可我真的去试验了下,在本地eclipse下测试可以,但打包成jar包放到solr下,就无效了???求解答?
17 楼 fzk128 2012-11-21  
请问solr4.0下如何配置智能分词模式:
useSmart 参数如何传递。

16 楼 softwarehe 2012-11-21  
博主,看文档说BaseTokenFilterFactory只是被rename了,另外StandardAnalyzer在4.0中的配置怎么也找不到啊,相反只有StandardTokenizerFactory,求指点
15 楼 linliangyi2007 2012-11-21  
mandrakeli 写道
IKAnalyzer2012_u6.jar的源码哪里有?主干上似乎不是哦
另外:有考虑放到maven库里吗?

谢谢


maven , ant啥的太高端了,楼主是只会用IDE的人,别再跟我提这个鸟!
14 楼 mandrakeli 2012-11-20  
IKAnalyzer2012_u6.jar的源码哪里有?主干上似乎不是哦
另外:有考虑放到maven库里吗?

谢谢
13 楼 linliangyi2007 2012-11-20  
Iloseyou 写道
3.x下的:
<fieldType name="text" class="solr.TextField" > 
            <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/> 
            <analyzer type="index"> 
                <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" userSmart="false"/> 
                <filter class="solr.StopFilterFactory" 
                        ignoreCase="true" words="stopwords.txt"/> 
                <filter class="solr.WordDelimiterFilterFactory" 
                        generateWordParts="1" 
                        generateNumberParts="1" 
                        catenateWords="1" 
                        catenateNumbers="1" 
                        catenateAll="0" 
                        splitOnCaseChange="1"/> 
                <filter class="solr.LowerCaseFilterFactory"/> 
                <filter class="solr.PorterStemFilterFactory" 
                        protected="protwords.txt"/> 
                <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> 
            </analyzer> 
            <analyzer type="query"> 
                <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" userSmart="false"/> 
                <filter class="solr.StopFilterFactory" 
                        ignoreCase="true" words="stopwords.txt"/> 
                <filter class="solr.WordDelimiterFilterFactory" 
                        generateWordParts="1" 
                        generateNumberParts="1" 
                        catenateWords="1" 
                        catenateNumbers="1" 
                        catenateAll="0" 
                        splitOnCaseChange="1"/> 
                <filter class="solr.LowerCaseFilterFactory"/> 
                <filter class="solr.PorterStemFilterFactory" 
                        protected="protwords.txt"/> 
                <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> 
            </analyzer> 
        </fieldType> 

4.0下变得如此简单:
<fieldType name="text" class="solr.TextField" autoGeneratePhraseQueries="false">
            <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
        </fieldType>
原先<filter的节点不用配置了吗?如何配置


亲,为啥你们不去看看StandardAnalyzer在Solr地下如何配置呢?!
12 楼 linliangyi2007 2012-11-20  
tonytony3 写道
请问老师如何不去匹配单个字呢? 在字典里有好多单字,

而我的需求是两个字以上的才匹配,这样会快呢 可以设置无?


还有IK差一个自增加学习功能,就是两到四个字的,如果都匹配不到,是否在某些条件下可以加进字典里


希望在百忙中回答问题1啊


单字自己过滤吧,在IK API外层加个过滤就好,IK如果过滤单字,那么对分词器而言,输出就不完整了。

另外,引入自学习问题就需要解决整块算法和存储问题,并不是查不到的词就加字典这么简单的。
11 楼 Iloseyou 2012-11-19  
3.x下的:
<fieldType name="text" class="solr.TextField" > 
            <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/> 
            <analyzer type="index"> 
                <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" userSmart="false"/> 
                <filter class="solr.StopFilterFactory" 
                        ignoreCase="true" words="stopwords.txt"/> 
                <filter class="solr.WordDelimiterFilterFactory" 
                        generateWordParts="1" 
                        generateNumberParts="1" 
                        catenateWords="1" 
                        catenateNumbers="1" 
                        catenateAll="0" 
                        splitOnCaseChange="1"/> 
                <filter class="solr.LowerCaseFilterFactory"/> 
                <filter class="solr.PorterStemFilterFactory" 
                        protected="protwords.txt"/> 
                <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> 
            </analyzer> 
            <analyzer type="query"> 
                <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" userSmart="false"/> 
                <filter class="solr.StopFilterFactory" 
                        ignoreCase="true" words="stopwords.txt"/> 
                <filter class="solr.WordDelimiterFilterFactory" 
                        generateWordParts="1" 
                        generateNumberParts="1" 
                        catenateWords="1" 
                        catenateNumbers="1" 
                        catenateAll="0" 
                        splitOnCaseChange="1"/> 
                <filter class="solr.LowerCaseFilterFactory"/> 
                <filter class="solr.PorterStemFilterFactory" 
                        protected="protwords.txt"/> 
                <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> 
            </analyzer> 
        </fieldType> 

4.0下变得如此简单:
<fieldType name="text" class="solr.TextField" autoGeneratePhraseQueries="false">
            <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
        </fieldType>
原先<filter的节点不用配置了吗?如何配置
10 楼 tonytony3 2012-11-18  
请问老师如何不去匹配单个字呢? 在字典里有好多单字,

而我的需求是两个字以上的才匹配,这样会快呢 可以设置无?


还有IK差一个自增加学习功能,就是两到四个字的,如果都匹配不到,是否在某些条件下可以加进字典里


希望在百忙中回答问题1啊

相关推荐

    IKAnalyzer2012FF_hf1.zip

    标题中的"IKAnalyzer2012FF_hf1.zip"指的是IK Analyzer的2012年最终版(Final)的高频率更新1(Hot Fix 1)。IK Analyzer是一款开源的、基于Java语言开发的轻量级中文分词器,主要用于Java环境下对中文文本的分词...

    IK Analyzer 2012FF_hf1.7z

    "2012FF_hf1.7z" 是IK Analyzer的一个特定版本,可能包含了优化和改进,适应了2012年及之后的技术需求。 在Solr中,分词器扮演着至关重要的角色。它们负责将输入的中文文本分解成一系列的词汇单元,这些单元通常被...

    IKAnalyzer2012FF_u1.jar

    使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar solr-4.10.3下载地址:...

    IKAnalyzer2012FF_u1.jar下载

    IKAnalyzer2012FF_u1.jar 是一款广泛应用于Java环境中的中文分词库,尤其在搜索引擎和文本分析领域有着重要的应用。这个jar包包含了IK Analyzer的最新版本,即2012FF_u1更新版,它是一款开源的、高性能的中文分词...

    IK Analyzer 2012FF_hf1及IK Analyzer 2012FF_hf1_source位于GOOGLE_CODE的资源转发

    2012FF_hf1 版本是IK Analyzer的一个特定版本,HF1代表Hot Fix 1,即该版本是对2012FF版本的小幅修正版。 IK Analyzer 2012FF_hf1 版本在原有的基础上进行了性能优化和错误修复,确保了其在处理中文文本时的准确性...

    ikanalyzer2012ff_u1

    ikanalyzer2012ff_u1 是一个专为Solr 4.10.3版本设计的IK分词器插件。在中文信息检索和文本分析领域,分词器扮演着至关重要的角色,它能够将连续的汉字序列切分成具有语义意义的词语单元,便于后续的索引和查询操作...

    IK Analyzer 2012FF_hf1.zip

    IK Analyzer 2012FF_hf1.zipIK Analyzer 2012FF_hf1.zipIK Analyzer 2012FF_hf1.zipIK Analyzer 2012FF_hf1.zip

    IKAnalyzer2012FF_u1.jar同义词版本

    IKAnalyzer2012FF_u1.jar,同义词版本,本人亲测,木有问题,可以配置Solr的同义词,

    IK Analyzer 2012FF_hf1和IKAnalyzer2012_u6

    标题提到的 "IK Analyzer 2012FF_hf1" 和 "IKAnalyzer2012_u6" 都是该分词器的不同版本。 IK Analyzer 2012FF_hf1 是2012年发布的HotFix 1更新版,"FF" 可能代表 "Final Fix",意味着这是对之前版本的最终修复,而 ...

    原版_IK_Analyzer _2012_FF_hf_1

    3. **丰富的API**:提供的API接口使得开发者能够方便地集成到各种应用中,例如IKAnalyzer2012FF_u1.jar库文件提供了Java接口。 4. **使用手册**:IKAnalyzer中文分词器V2012_FF使用手册.pdf详尽介绍了如何安装、配置...

    IK Analyzer 2012FF_hf1

    **IK Analyzer 2012FF_hf1** 是一个基于Java实现的开源中文分词器,主要用于提高中文文本处理的效率和准确性。这个版本是针对2012年发布的基础版进行了优化和修复,增加了对某些特定场景的兼容性和性能提升。与**...

    IKAnalyzer2012FF_u1 ik solr分词器

    IKAnalyzer2012FF_u1是一款针对中文分词的开源工具,主要应用于搜索引擎和文本分析领域,尤其在Solr中被广泛使用。这个版本是IK Analyzer的2012最终版更新1(Final Full Update 1),它提供了一种高效、灵活的中文...

    IKAnalyzer2012FF_u1中文分词器

    IKAnalyzer2012FF_u1是该分词器的一个特定版本,"FF"可能代表Final Full,表示这是该系列的最终完整版,而"u1"可能是Update 1,意味着这是第一次重大更新。这个版本通常包含了对之前版本的改进和修复,以提高稳定性...

    IKAnalyzer 2012FF_u1

    **IKAnalyzer 2012FF_u1** 是一个专门针对中文处理的开源分词工具,主要用于信息检索、搜索引擎和自然语言处理等场景。这款工具是基于Java开发的,能够很好地与Lucene这样的全文检索库集成,特别是它声明支持Lucene ...

    IK Analyzer 2012FF_u1.rar

    3. 在Solr的schema.xml中配置Analyzer,指定使用IKAnalyzer,并根据需要配置词典和参数。 4. 重启Solr服务,使更改生效。 总的来说,IK Analyzer 2012FF_hf1是专为Solr4.x设计的优化版分词器,它提供了高效的中文...

    IKAnalyzer分词器 下载IKAnalyzer2012FF_u1.jar

    使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar 具体操作如下: 引用 1.在/opt/cloudera/parcels/CDH/lib/...

Global site tag (gtag.js) - Google Analytics