1.ansj
ansj是ictclas(中科院分词)的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化
内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)
文件读取分词每秒钟大约30万字
准确率能达到96%以上
目前实现了: 1.中文分词 2.中文姓名识别 3.用户自定义词典
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.
源码下载:
https://github.com/ansjsun/ansj_seg/
文档说明:
http://ansjsun.github.io/ansj_seg/
在线演示:
http://demo.ansj.org/page/index.html
入门sample
public static void main(String[] agrs){
String text = "我要碎觉超级困";
//未定义词典分词
System.out.println(ToAnalysis.parse(text));
//自定义词典 参数依次为:自定义词,词性,词频(值越大,重要度越高)
UserDefineLibrary.insertWord("碎觉", "n", 1000);
//定义词典后,分词
System.out.println(ToAnalysis.parse(text));
}
2.hanlp
hanlp由一系列模型与算法组成的Java工具包,目标是促进自然语言处理在生产环境中的应用。
HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
和ansj相比,hanlp在功能上的扩展主要体现在以下几个方面:
•关键词提取
•自动摘要
•短语提取
•拼音转换
•简繁转换
•文本推荐
项目主页:
https://github.com/hankcs/HanLP
下载地址:
https://github.com/hankcs/HanLP/releases
词语推荐部分的sample,支持三种推荐模式:语义推荐 字符推荐 拼音推荐
public static void main(String[] agrs){
Suggester suggester = new Suggester();
String[] titleArray =
(
"威廉王子发表演说 呼吁保护野生动物\n" +
"《时代》年度人物最终入围名单出炉 普京马云入选\n" +
"“黑格比”横扫菲:菲吸取“海燕”经验及早疏散\n" +
"日本保密法将正式生效 日媒指其损害国民知情权\n" +
"英报告说空气污染带来“公共健康危机”"
).split("\\n");
for (String title : titleArray)
suggester.addSentence(title);
//根据语义的推荐 通过IdVectorScorer(单词语义向量打分器)实现
System.out.println(suggester.suggest("发言", 1));
//根据字符的推荐 通过EditDistanceScorer(编辑距离打分器 )实现
System.out.println(suggester.suggest("危机公共", 1));
//根据拼音的推荐 通过PinyinScorer(拼音打分器)实现
System.out.println(suggester.suggest("mayun", 1));
}
相关推荐
ansj(Ansj for NLP,自然语言处理)是由李东创建并维护的一款高性能、高准确度的中文分词和词性标注系统。它基于字典匹配和统计模型相结合的方法,能够处理各种复杂语境下的中文分词问题,广泛应用于搜索引擎、信息...
在自然语言处理领域,中文分词是至关重要的一步,它为后续的文本分析、信息检索、情感分析等任务提供基础。本话题将深入探讨四种常用的Java分词工具:word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer,以及...
在自然语言处理(NLP)领域,分词是基础且至关重要的一步。ANSJ分词库,全称“Anyang Standard Segmentation”,是由李东创建的一个高性能的Java实现的中文分词工具。它提供了强大的分词功能,适用于多种场景,如...
1. **中文分词**:ansj分词器的核心是中文分词,它采用基于HMM(隐马尔可夫模型)和CRF(条件随机场)的混合算法,对中文文本进行高效、准确的分词处理,能够识别出词汇的边界,为后续的自然语言处理任务提供基础...
Ansj中文分词是一款纯Java、主要用于自然语言处理、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”。 内容简介:http://www.iteye.com/magazines/102#234 此分词具有自己学习的功能,所以拜托大家...
aAnsj中文分词 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟
无论是对于搜索引擎、信息检索,还是机器学习和自然语言理解,ansj都提供了可靠的分词支持。然而,值得注意的是,虽然ansj在许多场景下表现优秀,但在特定领域的应用或面对复杂文本时,可能需要结合领域知识或定制化...
ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典
自动摘要技术涉及自然语言处理(NLP)、信息检索和机器学习等领域。常见的方法有基于提取的关键句子选择和基于生成的文本重写。 "ansj中文分词"是针对中文文本处理的重要工具。中文分词是NLP的基础任务,因为中文...
Ansj,全名“ANSJ Library”,是由李航开发的一款高性能的中文分词和命名实体识别库,广泛应用于搜索引擎、推荐系统等场景。 首先,我们要理解SpringMVC的角色。SpringMVC是Spring框架的一个模块,用于构建Web应用...
在2.3.1版本中,它已经集成了两种常用的中文分词器:IK分词器和Ansj分词器,以及Head插件,这为中文文档的索引和搜索提供了更丰富的功能。 IK分词器(Intelligent Chinese Analyzer for Elasticsearch)是专为...
具体描述请看这里http://ansjsun.github.io/ansj_seg/ 这是最新的ANSJ版本,需要配合另一个tree-split jar包使用,请从这里下载:http://maven.ansj.org/org/ansj/
相比于常用的IK分词器和jieba分词器,Ansj在分词速度和效果上都有一定的优势,尤其对于复杂语境下的分词处理更为出色。 集成Ansj到Solr5的过程分为以下几个步骤: 1. **下载与准备**:首先,从Ansj的官方网站或...
总结来说,"mlcsseg"项目为Solr用户提供了一套强大的分词工具,包括IK和ANSJ两种优秀的分词器,以及过滤器和动态加载词库功能,这在处理中文文本时极大地提升了搜索质量和效率。对于需要搭建或优化Solr搜索引擎的...
ANSJ(全称:Advanced NLP Simple Java)是由国内知名自然语言处理专家杨晨曦开发的Java分词工具,它包含了丰富的词典资源和高效的分词算法。ANSJ库支持多种分词模式,如精确模式、全模式、搜索引擎模式等,可以满足...
Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现,具有使用简单、开箱即用等特点。 Ansj分词速度达到每秒钟大约100万字左右(Mac Air下测试),准确率能达到96%以上。 ...
分词器支持:用户可以通过程序选择不同的分词器进行评估,目前支持的分词器有 word、HanLP、Ansj、smartcn、Jieba、Jcseg、MMSeg4j、IKAnalyzer 等。 数据集使用:用户可以通过程序使用不同的数据集进行评估,目前...
标题中的"ansj_seg-master_java_中文自然语言_"暗示了我们正在讨论的是一个关于Java编程的项目,专门用于处理中文自然语言处理(NLP)任务,特别是中文分词。这个项目可能是一个开源库或者框架,名为"ansj_seg"的一...
中文分词器是一种非常重要的自然语言处理技术,能够将中文文本分割成单个词语,以便于文本挖掘、信息检索和机器学习等应用。当前有多种中文分词器可供选择,每种分词器都有其特点和优势,本文将对当前常用的中文分词...