论坛首页 Java企业应用论坛

Lucene 2.0 对 html文件建立索引的bug

浏览 4921 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2007-01-21  
大家都谈论lucene的优点,但是对于一些关键性的问题,还是要提出来,如果解决不料,lucene就无法进入真正的企业级应用。
lucene2。0的demo中有个建立 text文件索引和 html文件索引的测试文件,但是 html文件在建立索引的时候,对于中文的网页,有 javascript的网页会报错,根本无法建立索引,而在现实的企业级应用中,我们大都是对 html建立索引,而不是简简单单的对 txt文件建立索引(因为都是定期生成网站的静态html页面,谁生成txt文件页面啊)。 但是lucene自带的 html解析器不完善,几乎无法使用,很少html页面没有js代码的,起码要有 include吧。 大家在用 lucene得时候详细也都遇到了,毕竟这是lucene自带的2个例子之一? 我换了一个 html解析器,是 htmlparser2.0,这个可以支持所有的html页面分析,但是无法像 lucene那样得到 html的摘要信息,就是 summary,导致也是无法使用,谁有什么好的解决方法?
   发表时间:2007-01-21  
两个一同用行不行?一个取摘要,一个解析页面
0 请登录后投票
   发表时间:2007-01-21  
这不是bug,lucene只是一个平台,还不是完整的东西,它只是关注搜索这一部分。
分词,文章解析,格式解析,已经提供了方便的接口进行扩展。
0 请登录后投票
   发表时间:2007-01-21  
文章的解析式属于Spider的工作,而不应该是lucene的工作。

你最终提供给lucene的应该是内容的文本形式。

楼主所说的这个问题也是存在的

因为我们希望索引的是generated source,这个问题不知道谁有比较好的方案阿
0 请登录后投票
   发表时间:2007-01-22  
文本解析要根据自己的需求来实现.
lucene提供的那个只是个demo.

想得到sumary,读下lucene的源代码,把相关代码copy出来就可以了.

0 请登录后投票
   发表时间:2007-01-22  
这个不是什么bug真正的网页抓取要有自己的算法的,而lunene只是给你一个平台,你可以些自己的爬虫,网上有一个基于lunene的网页搜索开远框架nutch,你自己可以看看。
这个号称一个月3亿的网页抓取量。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics