`
wu_quanyin
  • 浏览: 208268 次
  • 性别: Icon_minigender_1
  • 来自: 福建省
社区版块
存档分类
最新评论

Lucene---全文检索(文档pdf/txt/office/html)

阅读更多

一,最近做了一些使用lucene对文档的一些搜索

主要使用

1,PDFBOX---处理.pdf文件

2,poi--------处理office文件

 

经最近公司重新开发lucene应用,发现以下代码多处bug,,,,可查看...http://wuquanyin1011.iteye.com/admin/blogs/832694

进行相应修改

 

上传文件的jar包如下:

 

上传的源码如下上传文件中:

 

 

  • 大小: 13.1 KB
1
0
分享到:
评论
1 楼 smartzjp 2011-04-14  
非常感谢分享

相关推荐

    Lucene.Net 文件检索doc,xls,ppt,txt,pdf文件(实例)

    本文将深入探讨如何使用Lucene.Net进行文件检索,特别是针对doc、xls、ppt、txt和pdf等常见文件类型的检索。通过实例化和理解Lucene.Net的关键概念,你可以构建出强大的文件搜索解决方案。 首先,我们需要了解...

    lucene检索文件

    在描述中提到的"lucene全文检索文件"指的是利用Lucene进行文档检索的能力,涵盖了多种文件格式,如TXT、DOC、XLS、PPT和PDF,这表明Lucene不仅限于纯文本,还能处理包含富文本和二进制数据的文档。 1. **Lucene核心...

    lucene.net 用于doc,docx,xls,xlsx,ppt,pptx,pdf等文件检索

    Lucene.NET是一个基于Apache Lucene的全文检索库,专为.NET Framework设计。它提供了一种高效、可扩展的全文检索和分析引擎,适用于各种应用程序,包括文档检索、内容分析和信息提取。在描述中提到,Lucene.NET可以...

    Lucene in Action英文版

    - **多格式支持**:Lucene能够处理多种文档格式,包括PDF、Microsoft Office文档等。 - **第三方工具集成**:可以通过集成如Apache Tika等工具来增强对文档格式的支持。 #### 七、工具与扩展 - **性能监控**:使用...

    实现多种文件格式的Lucene全文搜索功能的dom实例

    在IT领域,全文搜索引擎是数据检索的重要工具,而Apache Lucene是一个开源的、高性能的全文检索库,广泛应用于各种项目中。本项目“实现多种文件格式的Lucene全文搜索功能的DOM实例”专注于利用Lucene来处理不同类型...

    c#检索excel word ppt pdf

    本文将深入探讨如何使用C#进行多格式文档(如Excel、Word、PowerPoint和PDF)的全文检索。 一、Excel全文检索 在C#中,可以使用Microsoft Office Interop库来操作Excel文件。首先,需要引用`Microsoft.Office....

    全文检索需求及选型

    1. **支持多种文档格式**:系统需支持多种格式的文档,如PDF、CEB、TXT、HTML、Office文档(Word、Excel)、WPS文档等。对于特定格式(如CEB),还提出了两种处理方式的选择。 2. **权限管理**:系统需具备完善的...

    tika+lucene完整jar包

    它内置了多种解析器,能够处理从简单文本到复杂的PDF、Microsoft Office文档等各种格式。Tika的核心组件是`TikaParser`,它通过识别文件的MIME类型,调用相应的解析器进行内容抽取。在"tika-app-1.20.jar"中,包含了...

    基于Lucene的Lucene

    **基于Lucene的文件检索系统详解** Lucene是一款开源的全文搜索引擎库,由Apache软件基金会维护,被广泛应用于各种搜索引擎的开发。它提供了一个高效、可扩展的框架,用于索引和搜索大量文本数据。本篇文章将深入...

    lucene实战

    Lucene是一个开源的全文检索库,被广泛用于构建高效、强大的搜索引擎。以下是书中的主要知识点: **Part 1 CORE LUCENE** 1. **Meet Lucene**: 这部分介绍了Lucene的基本概念和架构,包括它的核心组件,如索引、...

    C#检索不同格式文件源代码

    Lucene.NET支持多种文档格式的索引和搜索,包括但不限于Word、Excel、PDF和PowerPoint等。 #### 2. 索引构建流程概述 构建索引的过程主要包括以下几个步骤: - **指定资源文件和索引文件的存放路径**:在构建索引...

    基于Lucene的医院搜索引擎

    标题中的“基于Lucene的医院搜索引擎”指的是使用Apache Lucene这个全文搜索引擎库来构建一个针对医院数据的搜索系统。Lucene是一个高效的、可扩展的开源Java库,它提供了索引和搜索文本的能力,并且能够对搜索结果...

    Lucene In Action

    - **PDF 文档**:通过 PDF 解析器库来提取文本内容。 - **HTML 页面**:解析 HTML 内容并提取有用的文本。 #### 八、工具和扩展 为了更好地利用 Lucene,有许多工具和扩展可以使用: - **Solr**:基于 Lucene 的...

    开源的搜索引擎工具包和web搜索引擎系统 - austin lius fashion - 博客园.pdf

    2. LIUS(Lucene Index Update and Search):作为一个基于Lucene的文本索引框架,LIUS扩展了Lucene的功能,支持多种文档格式的索引,包括MS Office、PDF、XML等,并提供了索引更新和混合索引功能。它还支持...

    lucence资源

    Lucene作为强大的全文检索引擎,其在4.10及后续版本中持续优化,提供了对多种文件格式的支持,包括Office文档。通过熟练掌握Lucene的索引建立、删除和读取功能,开发者能够构建出高效、灵活的全文搜索引擎。同时,...

    修改wcp开源代码,Lucene为附件创建索引

    在这个项目中,开发者对wcp的源代码进行了修改,以支持更多类型的文件格式,包括Office文档(如Word、Excel、PowerPoint)、纯文本文件(txt)以及PDF文件。这涉及到几个关键的技术点: 1. **文件解析**:为了从...

    知识库管理系统(源码+数据)

    通过maven构建,使用git版本控制和团队合作,采用springmvc+mybatis框架,集成Lucene全文检索,openoffice转化office文档,ffmpeg处理视频文件,red5搭建流媒体服务,基于pageRank、TF-IDF算法提取处理知识点,...

    sourcecode-fulltext-search:用C#编写的用于使用Lucene.Net进行全文本搜索的源代码的小工具-Search source code

    该工具为开发者提供了在源代码、Office文档和PDF文件中进行全文检索的能力,极大地提高了代码管理和文档查找的效率。 首先,Lucene.Net是一个高性能、全文本搜索库,它是Apache Lucene项目在.NET平台上的实现。...

Global site tag (gtag.js) - Google Analytics