浏览 4921 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2007-01-21
lucene2。0的demo中有个建立 text文件索引和 html文件索引的测试文件,但是 html文件在建立索引的时候,对于中文的网页,有 javascript的网页会报错,根本无法建立索引,而在现实的企业级应用中,我们大都是对 html建立索引,而不是简简单单的对 txt文件建立索引(因为都是定期生成网站的静态html页面,谁生成txt文件页面啊)。 但是lucene自带的 html解析器不完善,几乎无法使用,很少html页面没有js代码的,起码要有 include吧。 大家在用 lucene得时候详细也都遇到了,毕竟这是lucene自带的2个例子之一? 我换了一个 html解析器,是 htmlparser2.0,这个可以支持所有的html页面分析,但是无法像 lucene那样得到 html的摘要信息,就是 summary,导致也是无法使用,谁有什么好的解决方法? ![]() 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2007-01-21
两个一同用行不行?一个取摘要,一个解析页面
|
|
返回顶楼 | |
发表时间:2007-01-21
这不是bug,lucene只是一个平台,还不是完整的东西,它只是关注搜索这一部分。
分词,文章解析,格式解析,已经提供了方便的接口进行扩展。 |
|
返回顶楼 | |
发表时间:2007-01-21
文章的解析式属于Spider的工作,而不应该是lucene的工作。
你最终提供给lucene的应该是内容的文本形式。 楼主所说的这个问题也是存在的 因为我们希望索引的是generated source,这个问题不知道谁有比较好的方案阿 |
|
返回顶楼 | |
发表时间:2007-01-22
文本解析要根据自己的需求来实现.
lucene提供的那个只是个demo. 想得到sumary,读下lucene的源代码,把相关代码copy出来就可以了. |
|
返回顶楼 | |
发表时间:2007-01-22
这个不是什么bug真正的网页抓取要有自己的算法的,而lunene只是给你一个平台,你可以些自己的爬虫,网上有一个基于lunene的网页搜索开远框架nutch,你自己可以看看。
这个号称一个月3亿的网页抓取量。 |
|
返回顶楼 | |