`
neptune
  • 浏览: 362154 次
  • 性别: Icon_minigender_1
  • 来自: 沈阳
社区版块
存档分类
最新评论

IK分词器

阅读更多
感谢各位的建议。新版分词器已经发布,整合了二元分词
下载地址:http://download.csdn.net/source/227957

来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。

1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP)

2. 对数量词、地名、路名的优化处理

3. 对未知词汇采用自识别结合二元切分算法,确保搜索召回率

新版IKAnalyzer V2.0.2 Lucene中文分词器下载地址 : http://download.csdn.net/source/236243

V 2.0.2 修订 Bata版对二元切分的缺陷

正向全切分分词器:org.mira.lucene.analysis.IK_CAnalyzer(适合建索引时使用)

正向最大全切分分词器:org.mira.lucene.analysis.MIK_CAnalyzer(适合用户输入检索时使用

字符集问题

      对于UTF-8的支持,醉兄可以直接修改 org.mira.lucene.analysis.dict.Dictionary 词典管理类代码,目前是
         BufferedReader br = new BufferedReader(new InputStreamReader(is , "GBK"), 512);
      改为
         BufferedReader br = new BufferedReader(new InputStreamReader(is , "UTF-8"), 512);就OK了,当然啦字典文件要先进行编码转化啊,别忘了哦!
分享到:
评论

相关推荐

    ik分词器tar包 7.10.2

    **IK分词器详解** IK分词器是针对Elasticsearch(ES)的一款热门中文分词插件,其全称为“Intelligent Chinese Analyzer for Elasticsearch”。它由Java编写,旨在为中文文档提供高效、准确的分词处理。版本7.10.2...

    ik分词器7.17.10

    **ik分词器7.17.10详解** 在中文搜索引擎和数据分析领域,分词器扮演着至关重要的角色。ik分词器是为Elasticsearch(ES)设计的一款高效、可扩展的中文分词工具,它能有效地将中文文本拆分成一个个独立的词语,便于...

    IK分词器elasticsearch-analysis-ik-7.17.16

    **IK分词器详解** IK分词器是针对Elasticsearch设计的一款强大的中文分词插件,其全称为"elasticsearch-analysis-ik"。在Elasticsearch中,分词器的作用至关重要,它负责将用户输入的文本进行词汇切分,以便进行...

    elasticsearch7.8.0版本的IK分词器

    **Elasticsearch 7.8.0 版本的 IK 分词器** Elasticsearch 是一个功能强大的开源全文搜索引擎,广泛应用于数据检索、数据分析和实时分析等场景。在中文处理方面,IK (Intelligent Chinese) 分词器是 Elasticsearch ...

    maven 构建好的 IK 分词器,可直接使用

    "Maven 构建好的 IK 分词器,可直接使用" 这个标题告诉我们,这里提供的是一个已经使用 Maven 构建完成的 IK 分词器,专为 Elasticsearch 2.2 版本设计。IK 分词器是针对中文文本进行分词处理的工具,通常用于提高...

    ik分词器jar包.zip

    IK分词器是Java开发的一款高效、灵活的中文分词工具,主要应用于全文检索和自然语言处理领域。在Solr中,IK分词器作为重要的插件被广泛使用,用于对中文文本进行精确且高效的分词,从而提高搜索质量和效率。 标题中...

    es安装ik分词器

    ### Elasticsearch 安装 IK 分词器详解 #### 一、背景及需求分析 Elasticsearch 是一款基于 Lucene 的搜索引擎,广泛应用于日志处理、全文检索等场景。它提供了多种内置分词器来处理文本数据,但在实际应用过程中...

    ik分词器jar包,以及配置文件

    IK分词器是一款广泛应用于Java环境中的中文分词工具,主要为了解决中文文本处理中的分词问题。在中文自然语言处理(NLP)领域,分词是预处理的重要步骤,它将连续的汉字序列切分成有意义的词汇,以便进行后续的分析...

    solr ik分词器 6.6.1版本

    Solr是中国最流行的全文搜索引擎框架Apache Lucene的一个扩展,它提供了高级的搜索功能,而IK分词器则是Solr在处理中文文本时的关键组件。"solr ik分词器 6.6.1版本"指的是该分词器的一个特定稳定版本,针对的是Solr...

    elasticserach 7.17.4版本的中文 IK分词器

    **Elasticsearch 7.17.4 版本中的中文 IK 分词器** Elasticsearch 是一个流行的、开源的全文搜索引擎,它基于 Lucene 库,并提供了分布式、实时、可扩展的搜索和分析功能。在处理中文文本时,一个合适的分词器是至...

    elasticsearch-analysis-ik-7.4.0 ik分词器7.4.0

    type: ik_max_word # 使用IK分词器的全模式 dictionary: my_dict # 自定义词典路径 ``` **依赖库** 在提供的文件列表中,我们看到有如下几个依赖库: - `httpclient-4.5.2.jar`:Apache HttpClient,用于 HTTP ...

    solr ik分词器

    本教程将详细解释如何在Solr中安装和使用IK分词器。 首先,让我们理解一下什么是分词器。在文本检索和自然语言处理领域,分词是将连续的文本分解成有意义的词语单元(如单词或短语)的过程。对于中文,由于没有明显...

    多个版本ik分词器源码

    《多个版本ik分词器源码》 在中文信息处理领域,分词是至关重要的一步,它直接影响到后续的文本分析、搜索引擎优化、情感分析等任务的精度。IK Analyzer(以下简称IK)是一款针对中文的开源分词器,以其高效、灵活...

    IK分词器完整资源包 有配置文件和jar包

    IK分词器是一款广泛应用于Java环境中的开源中文分词组件,尤其在搜索引擎和文本分析领域中有着重要地位。它的全称是"Intelligent Chinese Analyzer for Java",由Lucene项目衍生而来,专为提高中文分词效率和准确性...

    ik分词器5.5.1

    《Ik分词器5.5.1:Elasticsearch中的高效中文分词工具》 Ik分词器,全称为“Internet Keywords”分词器,是一款针对中文文本处理的开源分词组件,广泛应用于搜索引擎、信息检索系统等领域。Ik分词器以其高效的性能...

    IK分词器源码

    IK分词器是一款广泛应用于Java开发中的中文分词工具,主要为搜索引擎和其他需要处理中文文本的应用提供服务。它最初由尹吉团队开发,因此命名为"尹吉分词器"(IK Analyzer)。在本压缩包文件`ik-analyzer-solr6-...

    elasticsearch7.6.1-ik分词器

    **Elasticsearch 7.6.1 - IK 分词器详解** Elasticsearch 是一个流行的、高度可扩展的全文搜索引擎,广泛应用于数据检索、分析和实时数据存储。在中文环境中,为了实现精确的中文分词,我们需要使用适合中文的分词...

    es中文分词器 ik分词器.zip

    1. 下载IK分词器插件:你可以从IK分词器的GitHub仓库或官方Maven仓库下载最新的版本。 2. 将下载的插件解压,并将其复制到ES的`plugins`目录下。 3. 重启ES实例,使插件生效。 4. 配置索引的分析器:在索引模板或...

    针对Solr6.6.0的IK分词器

    Solr6.6.0中的IK分词器是用于对中文文本进行精细化分词的工具,它是基于Apache Lucene的开源搜索引擎项目Solr的一个插件。这个插件的主要任务是将中文句子分解成一系列有意义的词语,以便于索引和搜索。在Solr中,...

    7.17.1系列Elasticsearch的elasticsearch-analysis-ik分词器

    elasticsearch-analysis-ik 是一个常用的中文分词器,在 Elasticsearch 中广泛应用于中文文本的分析和搜索。下面是 elasticsearch-analysis-ik 分词器的几个主要特点: 中文分词:elasticsearch-analysis-ik 是基于...

Global site tag (gtag.js) - Google Analytics