锁定老帖子 主题:Lucene搜索方法总结
精华帖 (1) :: 良好帖 (7) :: 新手帖 (2) :: 隐藏帖 (4)
|
|
---|---|
作者 | 正文 |
发表时间:2010-01-15
偷懒的小鱼 写道 楼主能讲讲不同文件格式文档的(比如pdf,xml)解析和建索引吗
PDF,要先转化为TXT才行。你可以看看PDFBOX。 |
|
返回顶楼 | |
发表时间:2010-01-15
lucene就是不同版本之間的api變化太大
|
|
返回顶楼 | |
发表时间:2010-01-15
ferly_j 写道 writer.updateDocument(doc);
更新索引,也许以前的版本是没有的 多谢,收藏进来。 |
|
返回顶楼 | |
发表时间:2010-01-15
Clayz 写道 lucene已经提供了更新索引的方法了.
确实,已经有朋友提到了,我现在加进来。 |
|
返回顶楼 | |
发表时间:2010-01-18
huangfox 写道 summerbell 写道 Clayz 写道 lucene已经提供了更新索引的方法了.
确实,已经有朋友提到了,我现在加进来。 3.0中的实现机制貌似还是先删再添加~ 没错。准确的说3.0的update是 writer.updateDocument(term, doc); 这里的term是删除索引用的,doc是建立新索引用的。有着2个参数自己都能实现update。 |
|
返回顶楼 | |
发表时间:2010-01-18
楼主辛苦了。
|
|
返回顶楼 | |
发表时间:2010-01-18
楼主,更多内容咋看不了呢,权限不足
|
|
返回顶楼 | |
发表时间:2010-01-18
wpfwupengfeiwpf 写道 楼主,更多内容咋看不了呢,权限不足
这个……好像javaeye规定要登录才可以看……不是我个人设置的…… |
|
返回顶楼 | |
发表时间:2010-01-19
同样不能看lz给的更多内容的链接..
你给的链接是不是你编辑文章时候的那个链接?而不是发布之后的?(猜测...) lz 能不能讲解下 RemoteSearchable 这个相关使用? 对lz的分布式搜索比较感兴趣~~ 谢谢~ |
|
返回顶楼 | |
发表时间:2010-01-19
sonyfe25cp 写道 同样不能看lz给的更多内容的链接..
你给的链接是不是你编辑文章时候的那个链接?而不是发布之后的?(猜测...) lz 能不能讲解下 RemoteSearchable 这个相关使用? 对lz的分布式搜索比较感兴趣~~ 谢谢~ 链接问题是我自己大意了~已修正。 至于RemoteSearchable,lucene java项目自己是没有提供的。 据说可以采用分布式文件系统,如Hadoop中的HDFS。 另一个很直观的做法就是自己写一个分布式通信系统,轮询多台存放lucene索引的节点,并整合每个节点返回的结果作为最后的搜索结果。 我自己使用的是最偷懒的做法,放弃了lucene java,而转用mysql的全文检索功能。这样每个mysql数据库维护一套索引,用的时候直接查就好,通信系统mysql自带了。我觉得mysql比lucene唯一有缺陷的地方在于mysql没有一个很好的评级公式,来计算文档与查询的相关度。不过我们可以自己实现该评级公式,仿造lucene或者原创一个。效果也挺好的。 主要因为我在实验室里,对性能什么要求不高,少写代码多办事是王道。 细节就比较麻烦了,大概思路是这样,多多交流了。 |
|
返回顶楼 | |