`

ik-analyzer

    博客分类:
  • JAVA
阅读更多
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
IKAnalyzer3.0特性:

采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。

采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。

优化的词典存储,更小的内存占用。支持用户词典扩展定义

针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。

分享到:
评论

相关推荐

    ik-analyzer-7.4.0.jar

    - **运行分词**:通过Analyzer接口,创建IKAnalyzer实例,对输入的中文文本进行分词处理。 3. **优化与改进**: - **新词发现**:ik-analyzer-7.4.0版本增强了新词识别能力,能较好地处理网络热词和专业术语。 -...

    ik-analyzer-7.6.0-jar

    Analyzer analyzer = new IKAnalyzer(true); TokenStream tokenStream = analyzer.tokenStream("content", new StringReader("你的中文文本")); for (Token token : TokenIterator(tokenStream)) { System.out....

    ik-analyzer-8.5.0-jar

    2. 创建Analyzer对象,通常使用`org.wltea.analyzer.lucene.IKAnalyzer`作为入口。 3. 使用Analyzer对象的`tokenStream`方法获取TokenStream,这是Lucene的抽象概念,代表分词流。 4. 遍历TokenStream,获取分词结果...

    ik-analyzer-solr-6.x.jar

    solr更新到6.x的版本了,ik-analyzer-5.x.jar又不好使了。 无意间从"随-忆"的博客中看到了如何去修改源代码,从而让分词器能够适应6.x的版本,亲自尝试了一下,果然可以,于是奉上了自己重新编译的jar包。 6.x的版本...

    ik-analyzer-5.3.1.RELEASE.7z

    《ik-analyzer-5.3.1.RELEASE:中文分词器详解》 ik-analyzer是Java语言开发的一款高效、灵活的中文分词工具,专为处理中文文本而设计。这款开源项目在IT行业中广受好评,特别是在搜索引擎、信息检索、自然语言处理...

    ik-analyzer.rar

    例如,我们可以在字段类型定义中设置Analyzer为"org.wltea.analyzer.lucene.IKAnalyzer",这样Solr就会使用ik-analyzer进行分词。 标签中提到的“ik-analyzer-solr”表明这是一个专门为Solr优化的版本,可能包含了...

    ik-analyzer-solr7.zip

    解压"ik-analyzer-solr7.zip"后,你会得到ik-analyzer-solr7.x目录,这个目录包含了IKAnalyzer在Solr中的所有相关组件。通常,这些组件包括配置文件、分词器的JAR库以及可能的字典文件。配置文件(如`schema.xml`或`...

    ik-analyzer-5.3.0

    《ik-analyzer-5.3.0:中文分词利器详解》 ik-analyzer是一款针对中文的全文检索分析器,其主要功能是对中文文本进行分词处理,是Java开发的开源项目,广泛应用于搜索引擎、信息检索系统等领域。本文将深入探讨ik-...

    ik-analyzer-8.3.1分词插件.rar

    cp ik-analyzer-8.3.1.jar ../solr/WEB-INF/lib 另:为了方便自定义ik-analyzer的设置,可以把ik-analyzer-8.3.0.jar中的配置文件 也复制过来 cp -r ik-analyzer-8.3.1/* ../solr/WEB-INF/classes 2、修改/usr/...

    ik-analyzer-solr7

    《ik-analyzer-solr7:为Solr7提供强大文本分析能力》 "ik-analyzer-solr7"是一个专门为Solr7版本设计的中文分词器插件,它在处理中文文本时能展现出强大的分析性能。这个压缩包包含了ik-analyzer与Solr7集成所需的...

    ik-analyzer-8.3.0分词插件.zip

    "ik-analyzer-8.3.0分词插件.zip" 文件提供了一个解决方案,它是一款专为Solr设计的中文分词插件,使得Solr能够处理中文文档的分词任务。下面我们将深入探讨ik-analyzer、中文分词以及它在Solr中的应用。 ik-...

    solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0

    1. **下载与解压**:获取ik-analyzer-7.5.0.jar文件,解压缩后将jar包放入Solr的lib目录下,确保Solr运行时能加载到该分词器。 2. **配置Solr schema.xml**:在Solr的schema.xml文件中,定义字段类型(fieldType),...

    ik-analyzer-7.5.0.jar

    使用solr时的中文分词jar包 ik-analyzer-7.5.0

    ik-analyzer-8.1.1.jar

    ik-analyzer-8.1.1.jar

    ik-analyzer-3.2.8.jar

    各位Java码农们苦苦找寻的IKAnalyzer-3.2.8.jar,直接使用maven命令行安装到本地仓库即可。也可以上传到nexus; mvn deploy:deploy-file -Dmaven.test.skip=true -Dfile=这个jar包存放的路径,不要带中文,不要带...

    ik-analyzer-solr5-5.x.jar

    ik-analyzer分词器,支持solr5-5.x

    ik-analyzer-solr7-7.x.zip

    标题“ik-analyzer-solr7-7.x.zip”表明这是一个与Solr7相关的压缩包,其中包含了IK Analyzer,一个广泛使用的中文分词工具。这个压缩包特别为Solr7版本进行了优化,提供了完整的配置文件,使得用户可以方便地集成到...

Global site tag (gtag.js) - Google Analytics