中文分词热门博客列表 - ITeye博客频道 - 第2页

中文分词之9271组反义词

这9271组反义词出自Java分布式中文分词组件 - word分词，这里列出50组反义词，更多同义词请看这里。一丘之貉比众不同一丝不苟草草了事粗心� ...

word 反义词中文分词反义处理

yangshangchuan 评论(0) 有5445人浏览 2015-05-06 15:00

一种利用ngram模型来消除歧义的中文分词方法

这里的歧义是指：同样的一句话，可能有两种或者更多的切分方法，这些切分结果，有的正确，有的不正确。消除歧义的目的就是从切分结果中挑选切分正确的。假设我们要切分句子：结婚的和尚未结婚的，使用逆向最大匹配和正向最大匹配算法的结果如下：

word ngram 中文分词词义消歧

yangshangchuan 评论(0) 有7738人浏览 2015-05-06 04:44

一种基于词性序列的人名识别方法

在人名识别：[我, 爱, 杨, 尚, 川] 中，爱、杨、尚都是姓，会有多个识别结果，那么我们如何消歧并选择一个最合理的结果呢？下面看看人名识别：[我, 爱, 杨, 尚, 川] 的计算机分析过程，此过程的分析程序出自Java分布式中文分词组件 - word分词：人名识别：[我, 爱, 杨, 尚, 川] 识别到人名：爱杨尚识别到人名：杨尚川识别到人名：尚川开始从多个识别 ...

word 中文分词人名识别词性序列

yangshangchuan 评论(0) 有6674人浏览 2015-05-05 20:20

中文分词之11946组同义词

这11946组同义词出自Java分布式中文分词组件 - word分词，这里列出50组同义词，更多同义词请看这里。一下子一会儿一忽儿转瞬须臾一丘之貉全无分别半斤八两泾渭分明难兄难弟一丝一毫一点一滴一丝不挂寸丝不挂袒裼裸裎赤身露体一丝不苟小心翼翼小心谨慎尽心竭力精益求精谨小慎微一举两得一石二鸟一箭双雕一箭双鵰两全其美面面俱到一举 ...

word 同义词中文分词同义处理

yangshangchuan 评论(0) 有5362人浏览 2015-04-30 21:17

Java分布式中文分词组件word分词v1.2发布

word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch、Luke插件。自1.0之后，在1.1和1.2中，word分词有了重大改进，优化了分词算法、利用多线程提升分词速度、支持分布式、 ...

word分词中文分词 solr lucene elasticsearch

yangshangchuan 评论(0) 有4968人浏览 2015-04-16 00:09

jieba中文分词

package com.huaban.analysis.jieba.test; import java.util.Iterator; import java.util.List; import com.huaban.analysis.jieba.JiebaSegmenter; import com.huaban.analysis.jieba.SegToken; import co ...

结巴 jieba 中文分词分词 junit

java--hhf 评论(1) 有8174人浏览 2015-01-30 21:55

ansj_seg源码分析之用户自定义词库

最近，工作上用到中文分词ansj，先前我是整合到ES里面，但是觉得这样不利于源码分析，所以我们先把源码部署起来：在线演示：[url]http://ansj.sdapp.cn/demo/seg.jsp [/url] 官网地址：[url]http://www.ansj.org/ [/url] github:https://github.com/NLPchina/a ...

中文分词 ansj源码自定义词库开源 java

yucang52555 评论(0) 有13500人浏览 2014-12-10 14:41

环境 jdk 1.7 tomcat1.7 solr 4.10 IK Analyzer 2012FF_hf1.zip solr的下载官网http://lucene.apache.org/solr/ 下载:http://www.eu.apache.org/dist/lucene/solr/ IK Analyzer下载 (找个免费 VPN 翻) google　Code:https://code.go ...

tomcat solr4.xx Ik Analyzer 中文分词

Luob. 评论(0) 有3016人浏览 2014-12-09 15:42

ElasticSearch 中文分词插件安装

1. ik 现在不支持bin/plugin -install medcl/elasticsearch-analysis-ik/1.1.3 在elasticsearch/plugins目录下建analysis-ik目录然后直接下载安装包 https://github.com/medcl/elasticsearch-rtf/tree/master/elasticsearch/plugins/an ...

ElasticSearch 中文分词插件安装

aoyouzi 评论(0) 有1680人浏览 2014-09-17 13:29

Windows下面安装和配置Solr 4.9 支持中文分词器

配置solr4.9自带的中文分词器请看这片文章：http://www.cnblogs.com/qiyebao/p/3888181.html 配置流行的 IK Analyzer分词器 schema.xml文件中增加配置： <fieldType name="ik_text" class="solr.TextField"> < ...

IK Analyzer分词器分词器 solr4.9 分词配置中文分词

高军威评论(0) 有1752人浏览 2014-09-01 14:03

Java开源项目cws_evaluation：中文分词器分词效果评估

cws_evaluation 是一个Java开源项目，用于对Java中文分词器分词效果进行评估。 cws_evaluation 是通过对前文《word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估》中写的评估程序进行重构改进后形成的。支持的分词器有：word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcs ...

中文分词效果评估 cws_evaluation Java 开源

yangshangchuan 评论(5) 有13138人浏览 2014-05-01 02:44

Java分布式中文分词组件 - word分词

word分词 word 中文分词开源中文分词 Java中文分词

yangshangchuan 评论(2) 有25266人浏览 2014-04-29 11:29

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。 word分词器分词效果评估主要评估下面7种分词算法：正向最大匹配算法：MaximumMatching逆向最大匹配算 ...

word分词 word分词器 word分词组件 word分词库中文分词开源中文分词 Java中文分词

yangshangchuan 评论(0) 有7606人浏览 2014-04-29 09:33

Solr4.7.0中整合中文分词mmseg4j-1.9.1

刚接触Lucene2.x和Solr2.x的时候，谈到中文分词，会让我立即想到用庖丁中文分词，庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库，而且是纯文本格式，一行一词，使用后台线程检测词库的更新，自动编译更新过的词库到二进制版本而出名。几年过去了，Lucene和Solr都发展到了4.7.x版本，重拾中文分词，发现庖丁中文分词 ...

Solr4.x mmseg4j 中文分词庖丁分词 Exception

Josh_Persistence 评论(5) 有8915人浏览 2014-04-20 02:22

中文分词效果对比

使用40个句子，在word分词、搜狗分词和ansj分词之间看看区别有多大。 word分词效果：杨尚川是 apdplat 应用级产品开发平台的作者他说 � ...

中文分词搜狗分词 word分词

yangshangchuan 评论(0) 有4417人浏览 2014-04-10 18:18

中文分词算法之基于词典的逆向最小匹配算法

在之前的博文中介绍了基于词典的逆向最大匹配算法，比如我们切分句子: 中华人民共和国万岁万岁万万岁，使用逆向最大匹配算法的切分结果为：[中华人民共和国, 万岁, 万岁, 万万岁]，可以看到，切分出来的词是很长的，粒度很粗，如果我们想要切分出很细粒度的词，该怎么办呢？本文介绍逆向最小匹配算法，该算法和逆向最大匹配算法相得益彰，一个强调细粒度，一个强调粗粒度。使用逆向最小匹配算法， ...

中文分词逆向最小匹配基于词典

yangshangchuan 评论(0) 有5802人浏览 2014-04-03 12:34

中文分词算法之基于词典的正向最小匹配算法

在之前的博文中介绍了基于词典的正向最大匹配算法，比如我们切分句子: 中华人民共和国万岁万岁万万岁，使用正向最大匹配算法的切分结果为：[中� ...

中文分词正向最小匹配基于词典

yangshangchuan 评论(0) 有7786人浏览 2014-04-03 12:00

中文分词算法之词典机制性能优化与测试

在之前的两篇博文中文分词算法之基于词典的正向最大匹配算法和中文分词算法之基于词典的逆向最大匹配算法中，我们对分词实现和词典实现都做了优化，本文对词典实现做进一步优化，并和之前的多个实现做一个对比，使用的词典下载地址，使用的测试文本下载地址。优化TrieV3的关键在于把虚拟根节点（/）的子节点（词表首字母）提升为多个相互独立的根节点，并对这些根节点建立索引。优化的依据是根节点（词 ...

中文分词性能优化性能测试前缀树 Trie

yangshangchuan 评论(0) 有8591人浏览 2014-03-23 08:29

中文分词算法之基于词典的逆向最大匹配算法

在之前的博文中介绍了基于词典的正向最大匹配算法，用了不到50行代码就实现了，然后分析了词典查找算法的时空复杂性，最后使用前缀树来实现词典查找算法，并做了3次优化。下面我们看看基于词典的逆向最大匹配算法的实现，实验表明，对于汉语来说，逆向最大匹配算法比(正向)最大匹配算法更有效，如下代码所示： public static List<String> segRev ...

中文分词逆向最大匹配基于词典

yangshangchuan 评论(0) 有22574人浏览 2014-03-20 02:10

中文分词算法之基于词典的正向最大匹配算法

基于词典的正向最大匹配算法（最长词优先匹配），算法会根据词典文件自动调整最大长度，分词的好坏完全取决于词典。算法流程图如下： Java实现代码如下： /** * 基于词典的正向最大匹配算法 * @author 杨尚川 */ public class WordSeg { private static final List<String&g ...

中文分词正向最大匹配基于词典最长词优先匹配

yangshangchuan 评论(12) 有29828人浏览 2014-03-17 00:59

博客专栏推荐

本月博客排行

年度博客排行

最新文章列表

中文分词之9271组反义词

一种利用ngram模型来消除歧义的中文分词方法

一种基于词性序列的人名识别方法

中文分词之11946组同义词

Java分布式中文分词组件word分词v1.2发布

jieba中文分词

ansj_seg源码分析之用户自定义词库

solr 4.0 集成 IK Analyzer 中文分词

ElasticSearch 中文分词插件安装

Windows下面安装和配置Solr 4.9 支持中文分词器

Java开源项目cws_evaluation：中文分词器分词效果评估

Java分布式中文分词组件 - word分词

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

Solr4.7.0中整合中文分词mmseg4j-1.9.1

中文分词效果对比

中文分词算法之基于词典的逆向最小匹配算法

中文分词算法之基于词典的正向最小匹配算法

中文分词算法之词典机制性能优化与测试

中文分词算法之基于词典的逆向最大匹配算法

中文分词算法之基于词典的正向最大匹配算法

最近博客热门TAG

博客人气排行榜

博客电子书下载排行

相关资讯

相关讨论