最新文章列表

中文分词之9271组反义词

这9271组反义词出自Java分布式中文分词组件 - word分词,这里列出50组反义词,更多同义词请看这里。 ​ 一丘之貉 比众不同 一丝不苟 草草了事 粗心 ...
yangshangchuan 评论(0) 有5409人浏览 2015-05-06 15:00

一种利用ngram模型来消除歧义的中文分词方法

这里的歧义是指:同样的一句话,可能有两种或者更多的切分方法,这些切分结果,有的正确,有的不正确。 消除歧义的目的就是从切分结果中挑选切分正确的。 假设我们要切分句子:结婚的和尚未结婚的,使用逆向最大匹配和正向最大匹配算法的结果如下:
yangshangchuan 评论(0) 有7696人浏览 2015-05-06 04:44

一种基于词性序列的人名识别方法

在人名识别:[我, 爱, 杨, 尚, 川] 中,爱、杨、尚都是姓,会有多个识别结果,那么我们如何消歧并选择一个最合理的结果呢? 下面看看人名识别:[我, 爱, 杨, 尚, 川] 的计算机分析过程,此过程的分析程序出自Java分布式中文分词组件 - word分词: 人名识别:[我, 爱, 杨, 尚, 川] 识别到人名:爱杨尚 识别到人名:杨尚川 识别到人名:尚川 开始从多个识别 ...
yangshangchuan 评论(0) 有6636人浏览 2015-05-05 20:20

中文分词之11946组同义词

这11946组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里。 一下子 一会儿 一忽儿 转瞬 须臾 一丘之貉 全无分别 半斤八两 泾渭分明 难兄难弟 一丝一毫 一点一滴 一丝不挂 寸丝不挂 袒裼裸裎 赤身露体 一丝不苟 小心翼翼 小心谨慎 尽心竭力 精益求精 谨小慎微 一举两得 一石二鸟 一箭双雕 一箭双鵰 两全其美 面面俱到 一举 ...
yangshangchuan 评论(0) 有5323人浏览 2015-04-30 21:17

Java分布式中文分词组件word分词v1.2发布

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch、Luke插件。   自1.0之后,在1.1和1.2中,word分词有了重大改进,优化了分词算法、利用多线程提升分词速度、支持分布式、 ...
yangshangchuan 评论(0) 有4933人浏览 2015-04-16 00:09

jieba中文分词

package com.huaban.analysis.jieba.test; import java.util.Iterator; import java.util.List; import com.huaban.analysis.jieba.JiebaSegmenter; import com.huaban.analysis.jieba.SegToken; import co ...
java--hhf 评论(1) 有8128人浏览 2015-01-30 21:55

ansj_seg源码分析之用户自定义词库

    最近,工作上用到中文分词ansj,先前我是整合到ES里面,但是觉得这样不利于源码分析,所以我们先把源码部署起来:     在线演示:[url]http://ansj.sdapp.cn/demo/seg.jsp [/url]     官网地址:[url]http://www.ansj.org/ [/url]     github:https://github.com/NLPchina/a ...
yucang52555 评论(0) 有13403人浏览 2014-12-10 14:41

solr 4.0 集成 IK Analyzer 中文分词

环境 jdk 1.7 tomcat1.7 solr 4.10 IK Analyzer 2012FF_hf1.zip solr的下载 官网http://lucene.apache.org/solr/ 下载:http://www.eu.apache.org/dist/lucene/solr/ IK Analyzer下载 (找个免费 VPN 翻) google Code:https://code.go ...
Luob. 评论(0) 有2988人浏览 2014-12-09 15:42

ElasticSearch 中文分词插件安装

1. ik 现在不支持bin/plugin -install medcl/elasticsearch-analysis-ik/1.1.3 在elasticsearch/plugins目录下建analysis-ik目录 然后直接下载安装包 https://github.com/medcl/elasticsearch-rtf/tree/master/elasticsearch/plugins/an ...
aoyouzi 评论(0) 有1639人浏览 2014-09-17 13:29

Windows下面安装和配置Solr 4.9 支持中文分词器

配置solr4.9自带的中文分词器请看这片文章:http://www.cnblogs.com/qiyebao/p/3888181.html 配置 流行的 IK Analyzer分词器 schema.xml文件中增加配置: <fieldType name="ik_text" class="solr.TextField"> < ...
高军威 评论(0) 有1698人浏览 2014-09-01 14:03

Java开源项目cws_evaluation:中文分词器分词效果评估

cws_evaluation 是一个Java开源项目,用于对Java中文分词器分词效果进行评估。   cws_evaluation 是通过对前文《word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估》中写的评估程序进行重构改进后形成的。   支持的分词器有:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcs ...
yangshangchuan 评论(5) 有13096人浏览 2014-05-01 02:44

Java分布式中文分词组件 - word分词

Java分布式中文分词组件 - word分词
yangshangchuan 评论(2) 有25217人浏览 2014-04-29 11:29

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。   word分词器分词效果评估主要评估下面7种分词算法:   正向最大匹配算法:MaximumMatching逆向最大匹配算 ...
yangshangchuan 评论(0) 有7558人浏览 2014-04-29 09:33

Solr4.7.0中整合中文分词mmseg4j-1.9.1

             刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库,而且是纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本而出名。              几年过去了,Lucene和Solr都发展到了4.7.x版本,重拾中文分词,发现庖丁中文分词 ...
Josh_Persistence 评论(5) 有8881人浏览 2014-04-20 02:22

中文分词效果对比

使用40个句子,在word分词、搜狗分词和ansj分词之间看看区别有多大。   word分词效果:   杨尚川 是 apdplat 应用 级 产品 开发 平台 的 作者 他 说 ...
yangshangchuan 评论(0) 有4382人浏览 2014-04-10 18:18

中文分词算法 之 基于词典的逆向最小匹配算法

在之前的博文中介绍了基于词典的逆向最大匹配算法,比如我们切分句子: 中华人民共和国万岁万岁万万岁,使用逆向最大匹配算法的切分结果为:[中华人民共和国, 万岁, 万岁, 万万岁],可以看到,切分出来的词是很长的,粒度很粗,如果我们想要切分出很细粒度的词,该怎么办呢?   本文介绍逆向最小匹配算法,该算法和逆向最大匹配算法相得益彰,一个强调细粒度,一个强调粗粒度。   使用逆向最小匹配算法, ...
yangshangchuan 评论(0) 有5764人浏览 2014-04-03 12:34

中文分词算法 之 基于词典的正向最小匹配算法

在之前的博文中介绍了基于词典的正向最大匹配算法,比如我们切分句子: 中华人民共和国万岁万岁万万岁,使用正向最大匹配算法的切分结果为:[中 ...
yangshangchuan 评论(0) 有7725人浏览 2014-04-03 12:00

中文分词算法 之 词典机制性能优化与测试

在之前的两篇博文中文分词算法 之 基于词典的正向最大匹配算法和中文分词算法 之 基于词典的逆向最大匹配算法中,我们对分词实现和词典实现都做了优化,本文对词典实现做进一步优化,并和之前的多个实现做一个对比,使用的词典下载地址,使用的测试文本下载地址。   优化TrieV3的关键在于把虚拟根节点(/)的子节点(词表首字母)提升为多个相互独立的根节点,并对这些根节点建立索引。优化的依据是根节点(词 ...
yangshangchuan 评论(0) 有8555人浏览 2014-03-23 08:29

中文分词算法 之 基于词典的逆向最大匹配算法

在之前的博文中介绍了基于词典的正向最大匹配算法,用了不到50行代码就实现了,然后分析了词典查找算法的时空复杂性,最后使用前缀树来实现词典查找算法,并做了3次优化。   下面我们看看基于词典的逆向最大匹配算法的实现,实验表明,对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效,如下代码所示:   public static List<String> segRev ...
yangshangchuan 评论(0) 有22512人浏览 2014-03-20 02:10

中文分词算法 之 基于词典的正向最大匹配算法

基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。   算法流程图如下:   Java实现代码如下:   /** * 基于词典的正向最大匹配算法 * @author 杨尚川 */ public class WordSeg { private static final List<String&g ...
yangshangchuan 评论(12) 有29739人浏览 2014-03-17 00:59

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics