搜索篇:lucene的简单实例<一>

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 47668 次

锁定老帖子主题：搜索篇:lucene的简单实例<一> 该帖已经被评为良好帖
作者	正文
lighter 等级: 性别: 文章: 808 积分: 1335 来自: 广州	发表时间：2006-12-21 Lucas Lee 写道还不错啦。不过代码的示例作用有限，大概只能运行起来而已。是不是能处理中文的检索，我特别关心中文分词的算法。中文分词的算法的实现工具,目前应该最好一个应该是C语言版ICTCLAS,中国科学院什么所研究的
返回顶楼	回帖地址 0 0 请登录后投票

LucasLee 等级: 性别: 文章: 1217 积分: 1303 来自: 上海	发表时间：2006-12-21 那如果没有一个可用的中文分词算法，那lucene目前对我们搞中文应用的，没有直接的意义咯？我倒是看到lucene2.0里有对中文专门处理的一个包，尚没深入研究。另外，我看到一些资料说，简单二元分词法，虽然粗糙，但是简单可用，不依赖于词典，例如：中国人民，会分词为"中国","国人","人民"。
返回顶楼	回帖地址 0 0 请登录后投票

lighter 等级: 性别: 文章: 808 积分: 1335 来自: 广州	发表时间：2006-12-21 Lucas Lee 写道那如果没有一个可用的中文分词算法，那lucene目前对我们搞中文应用的，没有直接的意义咯？我倒是看到lucene2.0里有对中文专门处理的一个包，尚没深入研究。另外，我看到一些资料说，简单二元分词法，虽然粗糙，但是简单可用，不依赖于词典，例如：中国人民，会分词为"中国","国人","人民"。只是用过网上一些公开的分词包,java版的fenci,AutoSplit等几个分词，测试一下速度和其他一些数据,具体的实现没有研究过。二元分词法，lucene有提供，好像叫CJKAnalyzer..
返回顶楼	回帖地址 0 0 请登录后投票

limx 等级: 初级会员性别: 文章: 49 积分: 72 来自: 深圳	发表时间：2006-12-21 Field 这个类 2.0做了修改？请楼主讲讲2.0相对以前都有哪些改进
返回顶楼	回帖地址 0 0 请登录后投票

toyota2006 等级: 性别: 文章: 29 积分: 226 来自: 石家庄	发表时间：2006-12-21 成啊！
返回顶楼	回帖地址 0 0 请登录后投票

znjq 等级: 文章: 219 积分: 426	发表时间：2006-12-21 中文主要看分词库和对应的算法，lucene自带的中文Analyzer是简单二元分词法，效果并不好
返回顶楼	回帖地址 0 0 请登录后投票

lighter 等级: 性别: 文章: 808 积分: 1335 来自: 广州	发表时间：2006-12-21 limx 写道 Field 这个类 2.0做了修改？请楼主讲讲2.0相对以前都有哪些改进看这一篇文章,里面有讲一些 http://hi.baidu.com/netpet/blog/item/4fb2d2c42a2ef7cb38db49b5.html
返回顶楼	回帖地址 0 0 请登录后投票

galaxystar 等级: 性别: 文章: 630 积分: 2483 来自: 杭州	发表时间：2006-12-21 好像跟ajax and lucene书上差不多！不错很经典的说！
返回顶楼	回帖地址 0 0 请登录后投票

balaschen 等级: 性别: 文章: 209 积分: 921	发表时间：2006-12-21 中文分词，如果不追求索引文件大小的话，一个汉字一个汉字的切分就可以了，对于词组的查询，可以转换成对短语的查询，比如查询中国，可转成“中国”，采用一个字一个字切分，最大的好处就是简单，查全率高，坏处就是查准率稍微低点，比如上面的例子会把“发展中国家”也查出来，使用特定的分词算法，要牺牲点效率，带来的好处就是索引文件小，查准率高，但由于中文分词不可能100％准确，总存在歧义，查全率差点。个人认为非internet的应用，数据量非天量的情况，用一个汉字一个汉字切分的方法，足以应付绝大多数应用。我们一个法律法规查询的系统，就采用这种方式，用了快两年，客户从没抱怨过什么问题。
返回顶楼	回帖地址 0 0 请登录后投票

lighter 等级: 性别: 文章: 808 积分: 1335 来自: 广州	发表时间：2006-12-21 windyboy 写道我前端时间也在做lucene方面的事情，主要是帮论坛做搜索关于中文切分词也研究过一下，之前网上流传的那个海量的词库，如果在java中用的话，也是可以的，但是发现对于某些特殊字符会抛出异常，究竟是dll的问题，还是JNI的问题也就没有深究。后来的解决方法是找了一个词典文件，做了一个树状结构，效率还是相当的高的。后来遇到的主要问题在于对于大量的数据，如果使用磁盘的索引形式会大大影响索引效率，后来用了折中的办法，让近期的帖子放在内存中，时间长的放在磁盘上。虽然说解决了一部分问题，但觉得还是不理想，不知道大家在使用过程中是否也遇到了同样的问题？如何解决的？还没有真正地在项目运用lucene 中文的切分词各家有各家的难题啊,不过这一方向研究的人慢慢地多啦,解决的方法会越来越优的 btw:讨论的人多了,很有意思啦,有一点念头想成立一个关于lucene,compass,stripes的圈子
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: