最新文章列表

(转载)Lucene几种中文分词的总结

Lucene几种中文分词的总结     博客分类:     聚类搜索引擎 luceneApachePHP.netBlog IK_CAnalyzer下载地址:http://cn.ziddu.com/download.php?uid=ZrKcmJepZbOb4palZLKWlJiiZaycmps%3D4       目前最新版本的lucene自身提供的StandardAnalyzer已经具备中 ...
itfafa 评论(0) 有1852人浏览 2012-04-13 14:40

中文分词程序分析系列之Smartcn

       现在有很多中文分词程序,他们的实现原理么样?分词效果如何?分词速度如何?之间有什么关系?本系列将针对主流的中文分词程序进行逐一分析,并在ITeye的博客(http://zhangywibb.iteye.com/)上原创发布,欢迎大家批评斧正。     Smartcn为Apache2.0协议的开源中文分词系统,Java语言编写,修改的中科院计算所ICTCLAS分词系统。很早以前看到L ...
zhangywibb 评论(0) 有3459人浏览 2012-03-31 12:03

数学之美系列二:谈谈中文分词

发表者: 吴军, Google 研究员 谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在 ...
abc123456789cba 评论(0) 有1000人浏览 2012-03-08 13:50

发布 IK Analyzer 2012 版本

新版本改进: 支持分词歧义处理 支持数量词合并 词典支持中英文混合词语,如:Hold住 IK Analyzer 2012特性 采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式; 在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S) ...
linliangyi2007 评论(99) 有36176人浏览 2012-03-08 11:23

tire树 简介

测试下阿萨德
黎明lm 评论(0) 有1327人浏览 2011-12-26 11:45

如何使用Lucene的中文分词搜索

以下文章主要介绍的是如何进行Lucene进行中文分词和全文搜索 package com.sf.module.extension.lucene; import java.io.File; import java.io.Serializable; import java.io.StringReader; import java.util.ArrayList; import java.u ...
gznofeng 评论(1) 有5209人浏览 2011-07-21 16:26

IKAnalyzer分词单独使用例子

最近用了一下中文分词工具,网上说中科院研究的盘古分词比较好,找了一下没有java版本的,只有.net版本的,所以选用的IKAnalyzer分词工具. IKAnalyzer官方说有以下特点(我没有做过测试,不知是真是假): 采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗 ...
lishanlin000 评论(2) 有5128人浏览 2011-07-05 18:00

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics