`

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

阅读更多

word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。

 

word分词器分词效果评估主要评估下面7种分词算法:

 

正向最大匹配算法:MaximumMatching
逆向最大匹配算法:ReverseMaximumMatching
正向最小匹配算法:MinimumMatching
逆向最小匹配算法:ReverseMinimumMatching
双向最大匹配算法:BidirectionalMaximumMatching
双向最小匹配算法:BidirectionalMinimumMatching
双向最大最小匹配算法:BidirectionalMaximumMinimumMatching

 

所有的双向算法都使用ngram来消歧,分词效果评估分别评估bigramtrigram

 

查看原文

 

  • evaluation.rar (6.5 MB)
  • 描述: ansj、mmseg4j和ik-analyzer的评估程序
  • 下载次数: 154
3
1
分享到:
评论

相关推荐

    基于 Java 的中文分词器分词效果评估对比项目

    分词器支持:用户可以通过程序选择不同的分词器进行评估,目前支持的分词器有 word、HanLP、Ansj、smartcn、Jieba、Jcseg、MMSeg4j、IKAnalyzer 等。 数据集使用:用户可以通过程序使用不同的数据集进行评估,目前...

    IKAnalyzer 分词源码

    IKAnalyzer是一款广泛使用的开源中文分词器,它主要针对Java平台设计,具有良好的性能和扩展性。该分词器适用于各种文本处理场景,如搜索引擎构建、信息检索、文本挖掘等。其核心在于提供高效的中文词语切分功能,...

    elasticsearch-analysis-ansj-5.2.2.0-release.zip

    "elasticsearch-analysis-ansj-5.2.2.0-release"就是这样一个专门为ES设计的分词插件,用于替换或增强默认的ikanalyzer。安装此插件后,ES可以利用Ansj的强大功能,实现更精准的中文分词,从而提高搜索效果。 3. **...

    ansj中文分词工具

    2. 创建`Seg`对象,初始化分词器。 3. 调用`seg.seg()`方法,传入待分词的文本,获取分词结果。 4. 遍历分词结果,进行后续处理,如词性标注、关键词提取等。 **五、持续发展与社区支持** 随着自然语言处理技术的...

    ansj分词ansj_seg-5.1.5.jar

    《深入理解ANSJ分词与NLP实践》 在自然语言处理(NLP)领域,分词是基础且至关重要的一步。ANSJ分词库,全称“Anyang Standard Segmentation”,是由李东创建的一个高性能的Java实现的中文分词工具。它提供了强大的...

    elasticsearch-2.3.1 ik ansj head

    在2.3.1版本中,它已经集成了两种常用的中文分词器:IK分词器和Ansj分词器,以及Head插件,这为中文文档的索引和搜索提供了更丰富的功能。 IK分词器(Intelligent Chinese Analyzer for Elasticsearch)是专为...

    Ansj中文分词(强大)

    Ansj中文分词是一款纯Java、主要用于自然语言处理、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”。 内容简介:http://www.iteye.com/magazines/102#234 此分词具有自己学习的功能,所以拜托大家...

    ansj中文分词器源码

    **ansj中文分词器源码详解** **一、ansj分词器概述** ansj中文分词器是由ansj工作室开发的一款高效、精准的中文处理工具,它以其快速的分词速度和较高的准确率在业界获得了广泛的认可。在Mac Air这样的轻薄型设备...

    常用中文分词器及地址链接

    IKAnalyzer是一种流行的中文分词器,使用Java语言编写。IKAnalyzer具有分词、词性标注等功能,能够满足大多数中文文本处理需求。IKAnalyzer的优点是分词准确率高、支持多种语言、可扩展性强等。 4. Paoding ...

    ANSJ中文分词器

    aAnsj中文分词 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟

    mlcsseg, solr分词器大补贴, 包括IK ANSJ、过滤器,动态加载词库.zip

    本文将深入探讨"mlcsseg"项目,它是一个针对Solr的开源分词器解决方案,其中包括了IK分词器和ANSJ分词器,以及各种过滤器和动态加载词库功能。以下是对这些知识点的详细说明: 1. **Solr分词器**:Solr是Apache ...

    ansj分词器手册

    ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

    ansj词典加载及简要分词过程

    首先,词典是分词器的基石。ansj库中的词典主要包括两个核心文件:`ansj-core词典.xlsx`和`ansj词性表.xlsx`。前者是核心词汇库,包含了大量常用词汇及其对应的词性;后者则是词性表,定义了每个词汇可能携带的语义...

    ansj elasticsearch 分词插件

    ansj elasticsearch 分词

    mmseg4j 词库

    对于不再提供1.9.0版本下载的情况,开发者可以选择使用其他版本的mmseg4j,并自行准备词库,或者选择其他分词工具如jieba、ansj等,它们同样提供了丰富的词库支持和接口供开发者调用。 总之,mmseg4j 1.9.0版本的...

    跟益达学Solr5之使用Ansj分词器

    相比于常用的IK分词器和jieba分词器,Ansj在分词速度和效果上都有一定的优势,尤其对于复杂语境下的分词处理更为出色。 集成Ansj到Solr5的过程分为以下几个步骤: 1. **下载与准备**:首先,从Ansj的官方网站或...

    ansj_seg-master

    1. `src/main/java`:源代码目录,包含分词器、词典管理、模型训练等相关类。 2. `src/main/resources`:资源文件夹,存放字典文件和其他配置文件。 3. `pom.xml`:Maven项目配置文件,用于构建和依赖管理。 4. `...

    Ansj中文分词

    Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现,具有使用简单、开箱即用等特点。 Ansj分词速度达到每秒钟大约100万字左右(Mac Air下测试),准确率能达到96%以上。 ...

Global site tag (gtag.js) - Google Analytics