`
linliangyi2007
  • 浏览: 1009734 次
  • 性别: Icon_minigender_1
  • 来自: 福州
社区版块
存档分类
最新评论

应网友需求发布IKAnalyzer3.1.1GA2

阅读更多
3.1.1GA2版本变更:
1.修订了大文本处理时,缓冲区边界指针位置不正确的异常
2.添加“正向最大切分算法”
新增API更新如下:

 类org.wltea.analyzer.lucene.IKAnalyzer
 public IKAnalyzer(boolean isMaxWordLength)
说明:新构造函数,从版本V3.1.1起
参数1 :boolean isMaxWordLength , 当为true时,分词器进行最大词长切分  ;当为false时,分词器进行最细粒度切分。


 类org.wltea.analyzer.IKSegmentation
 public IKSegmentation(Reader input , boolean isMaxWordLength)
说明:IK主分词器新构造函数,从版本V3.1.1起
参数1:Reader input , 字符输入读取
参数2:boolean isMaxWordLength , 当为true时,分词器进行最大词长切分  ;当为false时,分词器进行最细粒度切分。


下载 :IKAnalyzer3.1.1稳定版完整包.rar

更多详细请参看《IKAnalyzer中文分词器V3.1.1使用手册.pdf》


分享到:
评论
6 楼 linliangyi2007 2009-08-05  
andylau8250 写道
感謝樓主心苦的開發!
我最近再研究樓主的分詞套件!
用這一版本有個問題!
我用最大分詞!跑出的結果為:

中華民族
共和國

1911

建立
從此
開始

新中國

偉大
大篇
篇章

1.1911年沒有正確分到
2."的", "了" 贅詞也沒過濾掉!

請問這樣是這確的嗎?

以下是用2.0.2跑出來的結果:
2:0 - 2 = 中華
2:2 - 4 = 民主
3:4 - 7 = 共和國
5:8 - 13 = 1911年
2:13 - 15 = 建立
2:16 - 18 = 從此
2:18 - 20 = 開始
3:21 - 24 = 新中國
2:25 - 27 = 偉大
2:26 - 28 = 大篇
2:27 - 29 = 篇章

似乎2.0.2的比較正確!

還是我這版(3.1.1GA2)的寫法寫錯了?

Analyzer analyzer = new IKAnalyzer(true);

請樓主指證一下,謝謝!

你的用法没有错,在3.0中,对数词和量没有做合并处理,原因是用户希望用“1911”搜索的时候,如果合并了,就搜不到结果了。 第二,对介词,副词,3.0也不做过滤的,原因是,分词器要完整的输出文章的全部,而且2.0.2的算法会造成部分的姓名的一部分字被当成无用词给过滤掉,因此3.0取消了对无用词的过滤
5 楼 andylau8250 2009-08-05  
感謝樓主心苦的開發!
我最近再研究樓主的分詞套件!
用這一版本有個問題!
我用最大分詞!跑出的結果為:

中華民族
共和國

1911

建立
從此
開始

新中國

偉大
大篇
篇章

1.1911年沒有正確分到
2."的", "了" 贅詞也沒過濾掉!

請問這樣是這確的嗎?

以下是用2.0.2跑出來的結果:
2:0 - 2 = 中華
2:2 - 4 = 民主
3:4 - 7 = 共和國
5:8 - 13 = 1911年
2:13 - 15 = 建立
2:16 - 18 = 從此
2:18 - 20 = 開始
3:21 - 24 = 新中國
2:25 - 27 = 偉大
2:26 - 28 = 大篇
2:27 - 29 = 篇章

似乎2.0.2的比較正確!

還是我這版(3.1.1GA2)的寫法寫錯了?

Analyzer analyzer = new IKAnalyzer(true);

請樓主指證一下,謝謝!
4 楼 star022 2009-08-05  
哈哈~~~ 好东西,下载下来分析下~~
对楼主的分享精神赞一个!
3 楼 linliangyi2007 2009-08-05  
感谢了要顶贴哈,嘎嘎嘎(邪恶的奸笑中ing)
2 楼 sw2-long 2009-08-05  
我07年毕业设计是做个简单的全文搜索,也用到了楼主的分词器,呵呵,感谢楼主
1 楼 neptune 2009-08-05  
一直用你的分词,努力呀

相关推荐

    IKAnalyzer3.1.1中文分词器

    IKAnalyzer3.1.1中文分词器是针对中文文本处理的一款强大工具,主要用于中文文本的分词。在自然语言处理、搜索引擎构建、信息检索等领域,分词是基础且关键的一步,因为中文没有明显的空格来区分单词,所以需要通过...

    IKAnalyzer3.1.1Stable_AllInOne

    IKAnalyzer3.1.1Stable_AllInOne是一款流行的中文分词工具,广泛应用于信息检索、文本挖掘等领域。它是基于Java开发的,旨在提供高效、灵活的中文分词解决方案。这款分词器以其稳定性、准确性和易用性而受到开发者们...

    IKAnalyzer3.1.6GA完整包

    IK Analyzer 是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006 年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。最初,它是以开源项目 Luence 为应用主体的,结合词典分词和文法分析...

    IKAnalyzer3.2.5Stable.jar

    IKAnalyzer的设计理念是易于扩展和配置,可以根据实际需求定制词典,支持热更新,使得在运行时可以动态添加或修改词典内容。它的核心特点是支持多种分词模式,包括精确模式、全模式、快速模式以及智能模糊模式,能...

    IKAnalyzer3.1.2GA_AllInOne

    IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词...

    IKAnalyzer3.1.6GA.jar下载

    IKAnalyzer3.1.6GA.jar IKAnalyzer3.1.6GA.jar

    IKAnalyzer2012完整分发包

    2. IKAnalyzer2012.jar(主jar包) 3. IKAnalyzer.cfg.xml(分词器扩展配置文件) 4. stopword.dic(停止词典) 5. LICENSE.TXT ; NOTICE.TXT (apache版权申明) 它的安装部署十分简单,将 IKAnalyzer2012.jar ...

    IKAnalyzer6.5.0.jar

    IK Analyzer的名字来源于“Intelligent Keyword”(智能关键词),它的设计理念是通过灵活的配置来满足不同场景下的分词需求。 IK Analyzer的6.5.0版本是其发展过程中的一个重要里程碑,它在前一版本的基础上进行了...

    IKAnalyzer 支持高版本最新Lucene 5.x、6.x、7.x

    - 使用IKAnalyzer配合Solr,可以构建企业级的搜索应用,满足大规模数据的高效检索需求。 5. **安装和使用IKAnalyzer**: - 将IKAnalyzer的jar包添加到项目的类路径中,然后在配置文件中指定使用IKAnalyzer作为...

    IKAnalyzer配置文件、扩展词典和停用词词典.zip

    IKAnalyzer是一款广泛应用于Java环境中的中文分词器,它的全称是"Intelligent Chinese Analyzer for Java"。这个压缩包文件包含的是IKAnalyzer的配置文件、扩展词典和停用词词典,这些组件对于优化IKAnalyzer的性能...

    IKAnalyzer2012FF_hf1.zip

    标题中的"IKAnalyzer2012FF_hf1.zip"指的是IK Analyzer的2012年最终版(Final)的高频率更新1(Hot Fix 1)。IK Analyzer是一款开源的、基于Java语言开发的轻量级中文分词器,主要用于Java环境下对中文文本的分词...

    ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_

    2. **添加依赖**:将解压后的 ikanalyzer 相关 jar 文件添加到 Solr 的 lib 目录下。这使得 Solr 在启动时能够自动加载 ikanalyzer 类库。 3. **配置Schema.xml**:在 Solr 的 schema.xml 文件中,我们需要定义字段...

    IKAnalyzer-5.0.jar及solr-analyzer-extra-5.3.jar

    标题中的"IKAnalyzer-5.0.jar"和"solr-analyzer-extra-5.3.jar"是两个在中文搜索引擎系统Solr中常见的组件,主要用于处理中文分词问题。这两个组件在构建高性能的中文搜索解决方案中扮演着至关重要的角色。 首先,...

    IK Analyzer 2012FF_hf1.7z

    "2012FF_hf1.7z" 是IK Analyzer的一个特定版本,可能包含了优化和改进,适应了2012年及之后的技术需求。 在Solr中,分词器扮演着至关重要的角色。它们负责将输入的中文文本分解成一系列的词汇单元,这些单元通常被...

    Lucene的IK Analyzer 3.0 中文分词器 全解

    - 安装过程简单,只需将IKAnalyzer3.0GA.jar添加到项目的lib目录,配置文件IKAnalyzer.cfg.xml则应放在代码根目录或WEB-INF/classes目录下。 - 对于Lucene用户,可以快速入门通过Java代码示例进行索引和查询操作,...

    IKAnalyzer2012FF_u1.jar下载

    IK Analyzer就是为此目的设计的,它采用了基于词典的分词方法,同时结合了动态词典和智能词组策略,能够适应不同场景下的分词需求。 IK Analyzer的核心特性包括: 1. **灵活的词典管理**:IK提供了丰富的词典管理...

    IKAnalyzer中文分词计算句子相似度

    1. **灵活的词典管理**:IKAnalyzer支持动态词典加载,用户可以根据实际需求自定义词典,增加或删除词汇。 2. **智能的词语识别**:采用了正向最大匹配(MaxMatch)和逆向最大匹配(Reverse MaxMatch)两种策略,...

    IKAnalyzer2012_u6中文分词器以及手册正式版.zip

    IKAnalyzer2012_u6中文分词器以及手册正式版 Mode LastWriteTime Length Name ---- ------------- ------ ---- d----- 2017/10/29 1:41 doc -a---- 2017/10/29 1:41 414 IKAnalyzer.cfg.xml -a---- 2017/10/29 1...

Global site tag (gtag.js) - Google Analytics