Lucene 2.0 对 html文件建立索引的bug

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 4921 次

锁定老帖子主题：Lucene 2.0 对 html文件建立索引的bug 精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
lyo 等级: 性别: 文章: 488 积分: 1266 来自: 北京	发表时间：2007-01-21 相关推荐: .net5 开启Lucene的全文搜索之旅 Lucene文件检索项目实战 Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考 22：lucene.net全文检索开源主流分布式文件系统简单介绍更多相关推荐企业应用 Lucene 大家都谈论lucene的优点，但是对于一些关键性的问题，还是要提出来，如果解决不料，lucene就无法进入真正的企业级应用。 lucene2。0的demo中有个建立　ｔｅｘｔ文件索引和 html文件索引的测试文件，但是 html文件在建立索引的时候，对于中文的网页，有 javascript的网页会报错，根本无法建立索引，而在现实的企业级应用中，我们大都是对 html建立索引，而不是简简单单的对 txt文件建立索引（因为都是定期生成网站的静态html页面，谁生成txt文件页面啊）。但是lucene自带的 html解析器不完善，几乎无法使用，很少html页面没有js代码的，起码要有 include吧。大家在用 lucene得时候详细也都遇到了，毕竟这是lucene自带的2个例子之一？我换了一个 html解析器，是 htmlparser2.0,这个可以支持所有的html页面分析，但是无法像 lucene那样得到 html的摘要信息，就是 summary,导致也是无法使用，谁有什么好的解决方法？声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

deafwolf 等级: 性别: 文章: 222 积分: 164	发表时间：2007-01-21 两个一同用行不行？一个取摘要，一个解析页面
返回顶楼	回帖地址 0 0 请登录后投票

dwangel 等级: 文章: 631 积分: 700	发表时间：2007-01-21 这不是bug，lucene只是一个平台，还不是完整的东西，它只是关注搜索这一部分。分词，文章解析，格式解析，已经提供了方便的接口进行扩展。
返回顶楼	回帖地址 0 0 请登录后投票

kj23 等级: 性别: 文章: 96 积分: 343 来自: 上海	发表时间：2007-01-21 文章的解析式属于Spider的工作，而不应该是lucene的工作。你最终提供给lucene的应该是内容的文本形式。楼主所说的这个问题也是存在的因为我们希望索引的是generated source，这个问题不知道谁有比较好的方案阿
返回顶楼	回帖地址 0 0 请登录后投票

codeutil 等级: 文章: 666 积分: 752	发表时间：2007-01-22 文本解析要根据自己的需求来实现. lucene提供的那个只是个demo. 想得到sumary,读下lucene的源代码,把相关代码copy出来就可以了.
返回顶楼	回帖地址 0 0 请登录后投票

asdfasdf 等级: 初级会员性别: 文章: 48 积分: 31 来自: 北京	发表时间：2007-01-22 这个不是什么bug真正的网页抓取要有自己的算法的，而lunene只是给你一个平台，你可以些自己的爬虫，网上有一个基于lunene的网页搜索开远框架nutch，你自己可以看看。这个号称一个月3亿的网页抓取量。
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: