`
linliangyi2007
  • 浏览: 1009778 次
  • 性别: Icon_minigender_1
  • 来自: 福州
社区版块
存档分类
最新评论

发布IK Analyzer 3.1 GA升级包

阅读更多
IK Analyzer 3.1 GA升级变更:

1.修订了数词切分时,指针越界的bug

2.设计了分词结果排序器,大幅度提升分词性能30%(从49万/秒提升至65万字/秒)

3.扩充了分词词典,新增5万多新词。



下载 :IKAnalyzer3.1.1稳定版完整包.rar

更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》

或浏览:http://linliangyi2007.iteye.com/blog/429960
分享到:
评论
6 楼 rongxh7 2009-07-31  
楼主,您好!
研读IK 3.x 的源码,发现没有了正向最大匹配的中文分词,我们的项目急需正向最大匹配,而想改ChineseSegmenter,发觉代码执行的流程有点复杂,本人比较愚笨,看了一天,也没看全懂!
我们想将ChineseSegmenter改成正向最大匹配的,应该怎么做?请楼主指点一二!谢谢!
如:人类互联网史
IK3分词成:
人类
互联网
互联
联网


我们想要的结果是:
人类
互联网
5 楼 linliangyi2007 2009-07-30  
fc6029585 写道
rongxh7 写道
我们的项目有这样的需求:
输入待分词的字符串为:
@(title,body) hello world
我们想要的分词结果是:
@
hello
world
也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类,用来处理这样的需求。这一点,跟楼主的LetterSegmenter,QuantifierSegmenter,ChineseSegmenter的处理都有所不同。请楼主给予指点,非常感谢!


直接将  (*)  的内容 replaceAll "" 可以吧


我想rongxh7还需要把括号外面的词进行切分吧,因此不仅仅是替换啦
4 楼 fc6029585 2009-07-30  
rongxh7 写道
我们的项目有这样的需求:
输入待分词的字符串为:
@(title,body) hello world
我们想要的分词结果是:
@
hello
world
也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类,用来处理这样的需求。这一点,跟楼主的LetterSegmenter,QuantifierSegmenter,ChineseSegmenter的处理都有所不同。请楼主给予指点,非常感谢!


直接将  (*)  的内容 replaceAll "" 可以吧
3 楼 linliangyi2007 2009-07-29  
rongxh7 写道
我们的项目有这样的需求:
输入待分词的字符串为:
@(title,body) hello world
我们想要的分词结果是:
@
hello
world
也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类,用来处理这样的需求。这一点,跟楼主的LetterSegmenter,QuantifierSegmenter,ChineseSegmenter的处理都有所不同。请楼主给予指点,非常感谢!


我想知道,括号内和括号外都有哪些字符,如果括号内只是英文,中文,或者数字,那么会容易修改些;
否则就要修改LetterSegmenter,QuantifierSegmenter,ChineseSegmenter三个子分词器的逻辑了。当然就你的例子而言,有明确的括号分割,应该是不难的
2 楼 rongxh7 2009-07-29  
我们的项目有这样的需求:
输入待分词的字符串为:
@(title,body) hello world
我们想要的分词结果是:
@
hello
world
也就是要把@(title,body)里面的内容过滤掉。我们的想法是在IK3的源码上基础上写多一个实现了ISegmenter接口的类,用来处理这样的需求。这一点,跟楼主的LetterSegmenter,QuantifierSegmenter,ChineseSegmenter的处理都有所不同。请楼主给予指点,非常感谢!
1 楼 rongxh7 2009-07-29  
强烈支持,我们现在就用你的分词器!

相关推荐

    IKAnalyzer3.1.6GA完整包

    IK Analyzer 是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006 年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。最初,它是以开源项目 Luence 为应用主体的,结合词典分词和文法分析...

    IKAnalyzer2012完整分发包

    2. IKAnalyzer2012.jar(主jar包) 3. IKAnalyzer.cfg.xml(分词器扩展配置文件) 4. stopword.dic(停止词典) 5. LICENSE.TXT ; NOTICE.TXT (apache版权申明) 它的安装部署十分简单,将 IKAnalyzer2012.jar ...

    IKAnalyzer3.2.5Stable.jar

    描述中的"IKAnalyzer3.2.5Stable.jar包"暗示了这是一个完整的软件包,包含所有必要的组件,用户可以下载后直接使用。稳定版(Stable)意味着这个版本经过了广泛的测试,具有良好的兼容性和稳定性,适合在生产环境中...

    IKAnalyzer3.1.2GA_AllInOne

    IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词...

    IKAnalyzer2012_u6中文分词器jar包

    IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包

    IKAnalyzer3.1.6GA.jar下载

    IKAnalyzer3.1.6GA.jar IKAnalyzer3.1.6GA.jar

    IKAnalyzer6.5.0.jar

    IKAnalyzer6.5.0.jar 是一个针对中文分词的开源工具包,主要应用于Java环境。这个工具包的核心是IK Analyzer,它是一个基于Java实现的轻量级中文分词器,设计目标是提供一个可以方便地在Java项目中集成的分词组件。...

    IKAnalyzer3.0

    **IKAnalyzer3.1GA.jar** 是IKAnalyzer的jar包,包含了所有的类和库文件,用于在Java项目中引入和使用IKAnalyzer。开发者只需将这个jar文件加入到项目的类路径中,就可以直接调用IKAnalyzer的相关API进行分词操作。 ...

    Lucene的IK Analyzer 3.0 中文分词器 全解

    自2006年12月发布1.0版以来,IK Analyzer 经历了多次升级,3.0版已演变为独立于 Lucene 的通用分词组件,同时也为 Lucene 提供了优化的集成。 1. **IK Analyzer 3.0 结构设计** - IK Analyzer 3.0 的设计旨在提高...

    IKAnalyzer2012_FF_hf1.jar

    解决lucene4.0与IKAnalyzer的冲突。解决Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader;...

    IKAnalyzer 支持高版本最新Lucene 5.x、6.x、7.x

    - 将IKAnalyzer的jar包添加到项目的类路径中,然后在配置文件中指定使用IKAnalyzer作为分词器。 - 对于Lucene,需要在分析器配置中引用IKAnalyzer,并设置相应的词典路径。 - 对于Solr,需要在schema.xml中定义...

    ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_

    ikanalyzer 是一个专门为Java开发的中文分词器,它基于 Lucene 库,适用于各种文本处理和搜索引擎场景。在 Solr 环境中,ikanalyzer 的作用是为中文文档提供精确的分词服务,从而提升搜索质量和效率。Solr8.4.0 是 ...

    IKAnalyzer2012FF_hf1.zip

    标题中的"IKAnalyzer2012FF_hf1.zip"指的是IK Analyzer的2012年最终版(Final)的高频率更新1(Hot Fix 1)。IK Analyzer是一款开源的、基于Java语言开发的轻量级中文分词器,主要用于Java环境下对中文文本的分词...

    IKAnalyzer-2012_u7.jar

    IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文...

    IKAnalyzer配置文件、扩展词典和停用词词典.zip

    IKAnalyzer是一款广泛应用于Java环境中的中文分词器,它的全称是"Intelligent Chinese Analyzer for Java"。这个压缩包文件包含的是IKAnalyzer的配置文件、扩展词典和停用词词典,这些组件对于优化IKAnalyzer的性能...

    IKAnalyzer-5.0.jar及solr-analyzer-extra-5.3.jar

    标题中的"IKAnalyzer-5.0.jar"和"solr-analyzer-extra-5.3.jar"是两个在中文搜索引擎系统Solr中常见的组件,主要用于处理中文分词问题。这两个组件在构建高性能的中文搜索解决方案中扮演着至关重要的角色。 首先,...

    IK Analyzer 2012FF_hf1.7z

    IK Analyzer 是一个开源的、基于Java实现的中文分词器,专为中文信息处理而设计。这个工具在处理中文文本时表现出色,尤其在Solr这样的搜索引擎中,它作为一个插件,提供了对中文词汇切分的强大支持。"2012FF_hf1.7z...

    ikanalyzer-solr5

    1. 将 ikanalyzer-solr5 解压后,将其中的 jar 包复制到 Solr 的 `server/solr-webapp/webapp/WEB-INF/lib` 目录下,这样 Solr 就可以加载这个分词器。 2. 配置 Solr 的 schema.xml 文件,指定使用 ikanalyzer 作为...

    IKAnalyzer中文分词包

    **IKAnalyzer中文分词包** IKAnalyzer是一款针对中文处理的开源搜索引擎分析器,主要用于提高中文信息检索系统的效率和精度。这个分词包是博主在个人博客中推荐并使用的,同时也可从官方网站获取,确保了其可靠性和...

    IKAnalyzer2012FF_u1.jar

    使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar solr-4.10.3下载地址:...

Global site tag (gtag.js) - Google Analytics