`
zhao_rock
  • 浏览: 191830 次
  • 性别: Icon_minigender_1
  • 来自: 大连
社区版块
存档分类
最新评论

自然语言处理之分词器ansj和hanlp介绍

 
阅读更多

1.ansj
ansj是ictclas(中科院分词)的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化
内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)
文件读取分词每秒钟大约30万字
准确率能达到96%以上
目前实现了: 1.中文分词 2.中文姓名识别 3.用户自定义词典
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.

 

源码下载:
https://github.com/ansjsun/ansj_seg/
文档说明:
http://ansjsun.github.io/ansj_seg/
在线演示:
http://demo.ansj.org/page/index.html

 

入门sample
public static void main(String[] agrs){
 String text = "我要碎觉超级困";
 //未定义词典分词
 System.out.println(ToAnalysis.parse(text));
 //自定义词典 参数依次为:自定义词,词性,词频(值越大,重要度越高)
 UserDefineLibrary.insertWord("碎觉", "n", 1000);
 //定义词典后,分词
 System.out.println(ToAnalysis.parse(text));
}

 

 

2.hanlp
hanlp由一系列模型与算法组成的Java工具包,目标是促进自然语言处理在生产环境中的应用。
HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

 

和ansj相比,hanlp在功能上的扩展主要体现在以下几个方面:
•关键词提取
•自动摘要
•短语提取
•拼音转换
•简繁转换
•文本推荐

 

项目主页:
https://github.com/hankcs/HanLP
下载地址:
https://github.com/hankcs/HanLP/releases

 

词语推荐部分的sample,支持三种推荐模式:语义推荐 字符推荐 拼音推荐

public static void main(String[] agrs){
  Suggester suggester = new Suggester();
        String[] titleArray =
        (
                "威廉王子发表演说 呼吁保护野生动物\n" +
                "《时代》年度人物最终入围名单出炉 普京马云入选\n" +
                "“黑格比”横扫菲:菲吸取“海燕”经验及早疏散\n" +
                "日本保密法将正式生效 日媒指其损害国民知情权\n" +
                "英报告说空气污染带来“公共健康危机”"
        ).split("\\n");
        for (String title : titleArray)
             suggester.addSentence(title);
        //根据语义的推荐   通过IdVectorScorer(单词语义向量打分器)实现
        System.out.println(suggester.suggest("发言", 1));
        //根据字符的推荐   通过EditDistanceScorer(编辑距离打分器 )实现
        System.out.println(suggester.suggest("危机公共", 1));
        //根据拼音的推荐   通过PinyinScorer(拼音打分器)实现
        System.out.println(suggester.suggest("mayun", 1));
    }

0
0
分享到:
评论

相关推荐

    ansj中文分词工具

    ansj(Ansj for NLP,自然语言处理)是由李东创建并维护的一款高性能、高准确度的中文分词和词性标注系统。它基于字典匹配和统计模型相结合的方法,能够处理各种复杂语境下的中文分词问题,广泛应用于搜索引擎、信息...

    word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

    在自然语言处理领域,中文分词是至关重要的一步,它为后续的文本分析、信息检索、情感分析等任务提供基础。本话题将深入探讨四种常用的Java分词工具:word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer,以及...

    ansj分词ansj_seg-5.1.5.jar

    在自然语言处理(NLP)领域,分词是基础且至关重要的一步。ANSJ分词库,全称“Anyang Standard Segmentation”,是由李东创建的一个高性能的Java实现的中文分词工具。它提供了强大的分词功能,适用于多种场景,如...

    ansj中文分词器源码

    1. **中文分词**:ansj分词器的核心是中文分词,它采用基于HMM(隐马尔可夫模型)和CRF(条件随机场)的混合算法,对中文文本进行高效、准确的分词处理,能够识别出词汇的边界,为后续的自然语言处理任务提供基础...

    Ansj中文分词(强大)

    Ansj中文分词是一款纯Java、主要用于自然语言处理、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”。 内容简介:http://www.iteye.com/magazines/102#234 此分词具有自己学习的功能,所以拜托大家...

    ANSJ中文分词器

    aAnsj中文分词 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟

    ansj词典加载及简要分词过程

    无论是对于搜索引擎、信息检索,还是机器学习和自然语言理解,ansj都提供了可靠的分词支持。然而,值得注意的是,虽然ansj在许多场景下表现优秀,但在特定领域的应用或面对复杂文本时,可能需要结合领域知识或定制化...

    ansj分词器手册

    ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

    springMVC+ansj中文分词

    自动摘要技术涉及自然语言处理(NLP)、信息检索和机器学习等领域。常见的方法有基于提取的关键句子选择和基于生成的文本重写。 "ansj中文分词"是针对中文文本处理的重要工具。中文分词是NLP的基础任务,因为中文...

    ansj分词、关键词匹配

    Ansj,全名“ANSJ Library”,是由李航开发的一款高性能的中文分词和命名实体识别库,广泛应用于搜索引擎、推荐系统等场景。 首先,我们要理解SpringMVC的角色。SpringMVC是Spring框架的一个模块,用于构建Web应用...

    elasticsearch-2.3.1 ik ansj head

    在2.3.1版本中,它已经集成了两种常用的中文分词器:IK分词器和Ansj分词器,以及Head插件,这为中文文档的索引和搜索提供了更丰富的功能。 IK分词器(Intelligent Chinese Analyzer for Elasticsearch)是专为...

    分词工具ANSJ 1.3版本

    具体描述请看这里http://ansjsun.github.io/ansj_seg/ 这是最新的ANSJ版本,需要配合另一个tree-split jar包使用,请从这里下载:http://maven.ansj.org/org/ansj/

    跟益达学Solr5之使用Ansj分词器

    相比于常用的IK分词器和jieba分词器,Ansj在分词速度和效果上都有一定的优势,尤其对于复杂语境下的分词处理更为出色。 集成Ansj到Solr5的过程分为以下几个步骤: 1. **下载与准备**:首先,从Ansj的官方网站或...

    基于 Java 的中文分词器分词效果评估对比项目

    分词器支持:用户可以通过程序选择不同的分词器进行评估,目前支持的分词器有 word、HanLP、Ansj、smartcn、Jieba、Jcseg、MMSeg4j、IKAnalyzer 等。 数据集使用:用户可以通过程序使用不同的数据集进行评估,目前...

    mlcsseg, solr分词器大补贴, 包括IK ANSJ、过滤器,动态加载词库.zip

    总结来说,"mlcsseg"项目为Solr用户提供了一套强大的分词工具,包括IK和ANSJ两种优秀的分词器,以及过滤器和动态加载词库功能,这在处理中文文本时极大地提升了搜索质量和效率。对于需要搭建或优化Solr搜索引擎的...

    ansj elasticsearch 独立分词插件

    ANSJ(全称:Advanced NLP Simple Java)是由国内知名自然语言处理专家杨晨曦开发的Java分词工具,它包含了丰富的词典资源和高效的分词算法。ANSJ库支持多种分词模式,如精确模式、全模式、搜索引擎模式等,可以满足...

    Ansj中文分词

    Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现,具有使用简单、开箱即用等特点。 Ansj分词速度达到每秒钟大约100万字左右(Mac Air下测试),准确率能达到96%以上。 ...

    毕业设计-基于Ansj中文分词技术的关键词抽取以及网络爬虫技术的简易搜索引擎(java)

    毕业设计——基于Ansj中文分词技术的关键词抽取以及网络爬虫技术的简易搜索引擎(java)

    ansj_seg-master_java_中文自然语言_

    标题中的"ansj_seg-master_java_中文自然语言_"暗示了我们正在讨论的是一个关于Java编程的项目,专门用于处理中文自然语言处理(NLP)任务,特别是中文分词。这个项目可能是一个开源库或者框架,名为"ansj_seg"的一...

Global site tag (gtag.js) - Google Analytics