- 浏览: 117628 次
- 性别:
- 来自: 广州
文章分类
- 全部博客 (63)
- struts (7)
- spring (12)
- Hibernate (14)
- struts+spring+hibernate (11)
- Ajax (1)
- DWR (0)
- JSON (0)
- Junit (0)
- Lucene (15)
- Compass (0)
- Tomcat(Jsp) (0)
- MySql (0)
- JavaScript (0)
- Html (0)
- UML (0)
- Log4j (0)
- Ant (0)
- Acegi (0)
- (My)eclipse (0)
- java2 (0)
- Jakarta Commons (0)
- java Web (0)
- Ruby (0)
- Ruby On Rails (0)
- IBatis (0)
- 版本控制 (0)
- eXtremeComponents (0)
- SiteMesh (0)
- IT相关 (0)
- 电子商务 (0)
- 随笔 (0)
- 正则表达式 (0)
- 测试资料 (0)
- 个人收藏 (0)
- 开发经验 (0)
- 名词解释(java,j2ee) (1)
- 英语 (0)
- java规则引擎 (0)
- CMS系统 (0)
- XML操作 (0)
- jvm (0)
- 开源工具收集 (0)
- webService (2)
最新评论
-
锦毛鼠:
请问下您现在有没有这个demo啊?可以发我看看吗?
cxf webservice身份验证 -
z276356445t:
LZ,你写的类文件怎么和配置文件中的不一样呢,求解.
spring 定时器 -
j2eeli:
感谢共享!
spring 定时器 -
gimy:
写的很清楚,谢谢!
Spring-MultiActionController -
valgrind:
Exception in thread "main& ...
Lucene中文分词组件 JE-Analysis 1.4.0
本站申明: 该组件免费安装使用传播,无限制商业应用,但暂不开源,也不提供任何保证 分词效率: 第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平 运行环境: Lucene 1.9+ 内存消耗: 30M+ 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-06-23 修正在某些情况下分词遗漏的问题 1.3 —— 2006-06-22 实现了词尾消歧算法中第一层的过滤 增加日期时间的匹配 1.2.2 —— 2006-06-13 完善了中英文噪声词典 1.2.1 —— 2006-06-10 修正中文数字成语无法识别的问题 1.2 —— 2006-06-08 增加中文数字的匹配(如:二零零六) 数量词采用“n”作为数字通配符 优化词典结构以便修改调整 1.1 —— 2006-06-06 增加扩展词典的静态读取方法 1.0.1 —— 2006-06-02 修正无法识别生僻字的问题 1.0 —— 2006-05-29 支持英文、数字、中文(简体)混合分词 常用的数量和人名的匹配 超过22万词的词库整理 实现正向最大匹配算法 支持分词粒度控制
|
|||||||||
//采用正向最大匹配的中文分词算法,相当于分词粒度等于0 //增加一个新词典,采用每行一个词的读取方式
package demo.analysis; | 晨 | 5时 | 53分 | 发生 | 里氏 | 6.2级 | 地震 | 已经 | 造成 | 至少 | 5427人 | 死亡 | 20000 | 余人 | 受伤 | 近 | 20万人 | 无家可归 |
package demo.analysis; 的里氏6.2级地震已经造成至少5427人死亡,20000余人受伤,近20万人无家可归。
package demo.analysis; 里氏<B>6.2级</B><B>地震</B>已经造成至少5427人死亡,20000余人受伤,近20万人无家可归 来源:http://www.jesoft.cn/posts/list/5.page |
评论
发表评论
-
lucene学习笔记 3
2007-09-27 18:05 1649搜索 Lucene搜索的api的类主要有4个 IndexSe ... -
lucene学习笔记 2
2007-09-27 18:04 1682Boosting特性 luncene对Document和Fi ... -
lucene学习笔记 1
2007-09-27 18:04 1230Doug Cutting 于2000年开始的项目 2001年9 ... -
使用Lucene进行全文检索---进行搜索
2007-09-27 18:03 1444无论是建立索引还是分析内容,都是为了用户的搜索服务. 在 ... -
使用Lucene进行全文检索---得到有效的内容
2007-09-27 18:02 1331在使用lucene对相关内容进行索引时,会遇到各种格式的内 ... -
lucene-2.0.0的基本应用
2007-09-27 18:00 1289首先肯定是建立索引了啊 public void creatI ... -
Lucene-2.0学习文档
2007-09-27 17:58 1176Lucene-2.0学习文档 Lucene是apache组织的 ... -
lucene搜索引擎技术的分析与整理
2007-09-27 17:56 25884. Lucene文档结构 Lucene ... -
实战 Lucene
2007-09-27 17:56 953文首先介绍了Lucene的一些基本概念,然后开发了一个应用程序 ... -
Lucene 中文分词的 highlight 显示
2007-09-27 17:55 15051 、问题的来源 增加分词以后结果的准确度提高了,但是用户 ... -
使用Lucene进行全文检索---处理索引
2007-09-27 17:53 1393http://www.jscud.com 转载请注明来源/作者 ... -
深入 Lucene 索引机制
2007-09-27 17:52 1115架构概览 图一显示了 Lucene 的索引机制的架构。Luce ... -
几个免费的中文分词模块
2007-09-27 17:50 4947一、什么是中文分词 众 ... -
Lucene站点推荐
2007-09-27 17:48 1331地址:http://www.lucene.com 简介:R ...
相关推荐
//采用正向最大匹配的中文分词算法,相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来 MMAnalyzer analyzer = new ...
标题中的“jsmartco_zh_CN+je-analysis-1.4.0+lucene-core-2.0.0+heritrix.14.4”表明这是一个关于搜索引擎开发的资源集合,主要包括了jsmartco中文版、je-analysis 1.4.0、lucene核心库2.0.0以及Heritrix爬虫14.4...
总之,"je-analysis-1.4.0.jar"是一个专为开发搜索引擎而设计的工具,它包含了一个中文分词器和可能集成的Lucene库。这个jar包简化了中文文本处理的复杂性,使得开发者可以更专注于搜索算法的设计和优化。
在您提供的资源中,"je-analysis-1.5.1.jar"、"lucene-core-3.5.0.jar" 和 "IKAnalyzer2012.zip" 是三个关键组件,它们在文本分词过程中扮演着重要角色。 首先,"je-analysis-1.5.1.jar" 是一个Java库,很可能是一...
在分词工具方面,"je-analysis-1.4.0.jar"是一个重要的组件,它包含了对中文文本进行分词处理的算法和实现。在中文环境下,搜索引擎需要先将文本分词才能进行有效的索引和查询。"je-analysis"可能是一个早期的中文...
lucene 2.0虽然是比较老的技术,它对实时搜索支持交差,不过很多普通的搜索引擎对实时性要求并不是很高,并且对于分词上没有太多的...其中je-analysis-1.4.0.jar 为分词接口的包 lucene-core-2.0.0.jar是和搜索相关的包
- `je-analysis-1.4.0.jar`:可能是基于Java的中文分词工具,与IKAnalyzer类似。 - `lukeall-0.8.1.jar`:Luke是一个用于查看和分析Lucene索引的工具,可以帮助开发者调试和理解索引结构。 - `log4j-1.2.12.jar`...