本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- xiangjie88
- zysnba
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sam123456gz
- sichunli_030
- arpenker
- tanling8334
- gaojingsong
- kaizi1992
- xpenxpen
- 龙儿筝
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- mengjichen
- jbosscn
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
(转载)Lucene几种中文分词的总结
Lucene几种中文分词的总结
博客分类:
聚类搜索引擎
luceneApachePHP.netBlog
IK_CAnalyzer下载地址:http://cn.ziddu.com/download.php?uid=ZrKcmJepZbOb4palZLKWlJiiZaycmps%3D4
目前最新版本的lucene自身提供的StandardAnalyzer已经具备中 ...
中文分词程序分析系列之Smartcn
现在有很多中文分词程序,他们的实现原理么样?分词效果如何?分词速度如何?之间有什么关系?本系列将针对主流的中文分词程序进行逐一分析,并在ITeye的博客(http://zhangywibb.iteye.com/)上原创发布,欢迎大家批评斧正。
Smartcn为Apache2.0协议的开源中文分词系统,Java语言编写,修改的中科院计算所ICTCLAS分词系统。很早以前看到L ...
发布 IK Analyzer 2012 版本
新版本改进:
支持分词歧义处理
支持数量词合并
词典支持中英文混合词语,如:Hold住
IK Analyzer 2012特性
采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;
在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S) ...
如何使用Lucene的中文分词搜索
以下文章主要介绍的是如何进行Lucene进行中文分词和全文搜索
package com.sf.module.extension.lucene;
import java.io.File;
import java.io.Serializable;
import java.io.StringReader;
import java.util.ArrayList;
import java.u ...
IKAnalyzer分词单独使用例子
最近用了一下中文分词工具,网上说中科院研究的盘古分词比较好,找了一下没有java版本的,只有.net版本的,所以选用的IKAnalyzer分词工具.
IKAnalyzer官方说有以下特点(我没有做过测试,不知是真是假):
采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。
采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗 ...