论坛首页 Java企业应用论坛

Lucene搜索方法总结

浏览 36692 次
精华帖 (1) :: 良好帖 (7) :: 新手帖 (2) :: 隐藏帖 (4)
作者 正文
   发表时间:2010-01-15  
偷懒的小鱼 写道
楼主能讲讲不同文件格式文档的(比如pdf,xml)解析和建索引吗

PDF,要先转化为TXT才行。你可以看看PDFBOX。
0 请登录后投票
   发表时间:2010-01-15  
lucene就是不同版本之間的api變化太大
0 请登录后投票
   发表时间:2010-01-15  
ferly_j 写道
writer.updateDocument(doc);
更新索引,也许以前的版本是没有的


多谢,收藏进来。
0 请登录后投票
   发表时间:2010-01-15  
Clayz 写道
lucene已经提供了更新索引的方法了.



确实,已经有朋友提到了,我现在加进来。
0 请登录后投票
   发表时间:2010-01-18  
huangfox 写道
summerbell 写道
Clayz 写道
lucene已经提供了更新索引的方法了.



确实,已经有朋友提到了,我现在加进来。



3.0中的实现机制貌似还是先删再添加~

没错。准确的说3.0的update是
writer.updateDocument(term, doc);
这里的term是删除索引用的,doc是建立新索引用的。有着2个参数自己都能实现update。
0 请登录后投票
   发表时间:2010-01-18  
楼主辛苦了。
0 请登录后投票
   发表时间:2010-01-18  
楼主,更多内容咋看不了呢,权限不足
0 请登录后投票
   发表时间:2010-01-18  
wpfwupengfeiwpf 写道
楼主,更多内容咋看不了呢,权限不足


这个……好像javaeye规定要登录才可以看……不是我个人设置的……
0 请登录后投票
   发表时间:2010-01-19  
同样不能看lz给的更多内容的链接..
你给的链接是不是你编辑文章时候的那个链接?而不是发布之后的?(猜测...)

lz 能不能讲解下 RemoteSearchable 这个相关使用?
对lz的分布式搜索比较感兴趣~~

谢谢~
0 请登录后投票
   发表时间:2010-01-19  
sonyfe25cp 写道
同样不能看lz给的更多内容的链接..
你给的链接是不是你编辑文章时候的那个链接?而不是发布之后的?(猜测...)

lz 能不能讲解下 RemoteSearchable 这个相关使用?
对lz的分布式搜索比较感兴趣~~

谢谢~


链接问题是我自己大意了~已修正。
至于RemoteSearchable,lucene java项目自己是没有提供的。
据说可以采用分布式文件系统,如Hadoop中的HDFS。
另一个很直观的做法就是自己写一个分布式通信系统,轮询多台存放lucene索引的节点,并整合每个节点返回的结果作为最后的搜索结果。

我自己使用的是最偷懒的做法,放弃了lucene java,而转用mysql的全文检索功能。这样每个mysql数据库维护一套索引,用的时候直接查就好,通信系统mysql自带了。我觉得mysql比lucene唯一有缺陷的地方在于mysql没有一个很好的评级公式,来计算文档与查询的相关度。不过我们可以自己实现该评级公式,仿造lucene或者原创一个。效果也挺好的。

主要因为我在实验室里,对性能什么要求不高,少写代码多办事是王道。

细节就比较麻烦了,大概思路是这样,多多交流了。

0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics