本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
一种利用ngram模型来消除歧义的中文分词方法
这里的歧义是指:同样的一句话,可能有两种或者更多的切分方法,这些切分结果,有的正确,有的不正确。
消除歧义的目的就是从切分结果中挑选切分正确的。
假设我们要切分句子:结婚的和尚未结婚的,使用逆向最大匹配和正向最大匹配算法的结果如下:
一种基于词性序列的人名识别方法
在人名识别:[我, 爱, 杨, 尚, 川] 中,爱、杨、尚都是姓,会有多个识别结果,那么我们如何消歧并选择一个最合理的结果呢?
下面看看人名识别:[我, 爱, 杨, 尚, 川] 的计算机分析过程,此过程的分析程序出自Java分布式中文分词组件 - word分词:
人名识别:[我, 爱, 杨, 尚, 川]
识别到人名:爱杨尚
识别到人名:杨尚川
识别到人名:尚川
开始从多个识别 ...
中文分词之11946组同义词
这11946组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里。
一下子 一会儿 一忽儿 转瞬 须臾
一丘之貉 全无分别 半斤八两 泾渭分明 难兄难弟
一丝一毫 一点一滴
一丝不挂 寸丝不挂 袒裼裸裎 赤身露体
一丝不苟 小心翼翼 小心谨慎 尽心竭力 精益求精 谨小慎微
一举两得 一石二鸟 一箭双雕 一箭双鵰 两全其美 面面俱到
一举 ...
Java分布式中文分词组件word分词v1.2发布
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch、Luke插件。
自1.0之后,在1.1和1.2中,word分词有了重大改进,优化了分词算法、利用多线程提升分词速度、支持分布式、 ...
ansj_seg源码分析之用户自定义词库
最近,工作上用到中文分词ansj,先前我是整合到ES里面,但是觉得这样不利于源码分析,所以我们先把源码部署起来:
在线演示:[url]http://ansj.sdapp.cn/demo/seg.jsp [/url]
官网地址:[url]http://www.ansj.org/ [/url]
github:https://github.com/NLPchina/a ...
solr 4.0 集成 IK Analyzer 中文分词
环境
jdk 1.7
tomcat1.7
solr 4.10
IK Analyzer 2012FF_hf1.zip
solr的下载
官网http://lucene.apache.org/solr/
下载:http://www.eu.apache.org/dist/lucene/solr/
IK Analyzer下载 (找个免费 VPN 翻)
google Code:https://code.go ...
ElasticSearch 中文分词插件安装
1. ik 现在不支持bin/plugin -install medcl/elasticsearch-analysis-ik/1.1.3 在elasticsearch/plugins目录下建analysis-ik目录 然后直接下载安装包 https://github.com/medcl/elasticsearch-rtf/tree/master/elasticsearch/plugins/an ...
Windows下面安装和配置Solr 4.9 支持中文分词器
配置solr4.9自带的中文分词器请看这片文章:http://www.cnblogs.com/qiyebao/p/3888181.html
配置 流行的 IK Analyzer分词器
schema.xml文件中增加配置:
<fieldType name="ik_text" class="solr.TextField">
< ...
Java开源项目cws_evaluation:中文分词器分词效果评估
cws_evaluation 是一个Java开源项目,用于对Java中文分词器分词效果进行评估。
cws_evaluation 是通过对前文《word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估》中写的评估程序进行重构改进后形成的。
支持的分词器有:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcs ...
word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。
word分词器分词效果评估主要评估下面7种分词算法:
正向最大匹配算法:MaximumMatching逆向最大匹配算 ...
Solr4.7.0中整合中文分词mmseg4j-1.9.1
刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库,而且是纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本而出名。
几年过去了,Lucene和Solr都发展到了4.7.x版本,重拾中文分词,发现庖丁中文分词 ...
中文分词算法 之 基于词典的逆向最小匹配算法
在之前的博文中介绍了基于词典的逆向最大匹配算法,比如我们切分句子: 中华人民共和国万岁万岁万万岁,使用逆向最大匹配算法的切分结果为:[中华人民共和国, 万岁, 万岁, 万万岁],可以看到,切分出来的词是很长的,粒度很粗,如果我们想要切分出很细粒度的词,该怎么办呢?
本文介绍逆向最小匹配算法,该算法和逆向最大匹配算法相得益彰,一个强调细粒度,一个强调粗粒度。
使用逆向最小匹配算法, ...
中文分词算法 之 词典机制性能优化与测试
在之前的两篇博文中文分词算法 之 基于词典的正向最大匹配算法和中文分词算法 之 基于词典的逆向最大匹配算法中,我们对分词实现和词典实现都做了优化,本文对词典实现做进一步优化,并和之前的多个实现做一个对比,使用的词典下载地址,使用的测试文本下载地址。
优化TrieV3的关键在于把虚拟根节点(/)的子节点(词表首字母)提升为多个相互独立的根节点,并对这些根节点建立索引。优化的依据是根节点(词 ...
中文分词算法 之 基于词典的逆向最大匹配算法
在之前的博文中介绍了基于词典的正向最大匹配算法,用了不到50行代码就实现了,然后分析了词典查找算法的时空复杂性,最后使用前缀树来实现词典查找算法,并做了3次优化。
下面我们看看基于词典的逆向最大匹配算法的实现,实验表明,对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效,如下代码所示:
public static List<String> segRev ...
中文分词算法 之 基于词典的正向最大匹配算法
基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。
算法流程图如下:
Java实现代码如下:
/**
* 基于词典的正向最大匹配算法
* @author 杨尚川
*/
public class WordSeg {
private static final List<String&g ...