`
isiqi
  • 浏览: 16355561 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

Lucene实现各种常见文档的全文检索

阅读更多

Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。


作为一个开放源代码项目,Lucene从问世之后,引发了开放源代码社群的巨大反响,程序员们不仅使用它构建具体的全文检索应用,而且将之集成到各种系统软件中去,以及构建Web应用,甚至某些商业软件也采用了Lucene作为其内部全文检索子系统的核心。


Lucene提供了一个全文检索引擎得架构,而没有提供各种类型文档的全文检索功能,用户需要利用其它软件工具包来提取各种类型文档的内容,然后再利用Lucene的工具包来建立索引。

下面简单介绍一下能够配合Lucene使用的,比较著名的,能够提取各种常见类型文档的工具包。

Apache POI(支持word,excel,powerpoint,visio等格式)
Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程式对Microsoft Office格式档案
读和写的功能。它可以配合Lucene,建立包括doc,docx,xls,xlsx,ppt,pptx等格式的文件的索引。
HSSF - 提供读写Microsoft Excel格式档案的功能。
XSSF - 提供读写Microsoft Excel OOXML格式档案的功能。
HWPF - 提供读写Microsoft Word格式档案的功能。
HSLF - 提供读写Microsoft PowerPoint格式档案的功能。
HDGF - 提供读写Microsoft Visio格式档案的功能。
网址:
http://poi.apache.org/

PDFBox(支持pdf格式)
PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并
提取文档中的内容。它可以配合Lucene来建立PDF文档的索引。
它具有以下特性:
将一个PDF文档转换输出为一个文本文件。
可以从文本文件创建一个PDF文档。
加密/解密PDF文档。
向已有PDF文档中追加内容。
可以从PDF文档生成一张图片。
可以与Jakarta Lucene搜索引擎的整合。
网址:
http://sourceforge.net/projects/pdfbox/

JTidy(支持html格式)
JTidy 是 HTML Tidy 用Java语言实现的版本,提供了一个HTML的语法检查器和很好的打印功能。JTidy可
以用来清除格式不好和不对的 HTML。此外,JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。它可以配合Lucene来建立HTML文档的索引。
网址:
http://sourceforge.net/projects/jtidy/

分享到:
评论

相关推荐

    使用Lucene对doc、docx、pdf、txt文档进行全文检索功能的实现 - 干勾鱼的CSDN博客 - CSDN博客1

    在Java开发中,Lucene被广泛用于实现文件的全文检索功能,包括对doc、docx、pdf、txt等常见格式文档的文本内容检索。在本文中,我们将探讨如何使用Lucene对这些文件类型进行全文检索的实现。 首先,为了实现全文...

    lucene实现全文搜索

    在Lucene中,实现全文搜索涉及到以下几个关键概念: 1. **Document**:是Lucene中表示索引目标的基本单元,可以代表一个文件、一条记录或任何可被索引的数据。开发者可以通过`Document`对象来组织要索引的信息。 2...

    lucene帮助文档 (全文搜索)

    Lucene 是一个开源的全文检索库,由 Apache 软件基金会开发,被广泛应用于构建高效的全文搜索引擎。它提供了一个简单但功能强大的API,可以方便地集成到各种应用程序中,支持Java语言,并且可以跨平台运行。Lucene的...

    lucene-4.6.0官方文档

    Lucene是Apache软件基金会的一个项目,它提供了一个高性能、可扩展的信息检索库,广泛应用于各种搜索应用和信息管理系统中。这个文档集成了Lucene的核心概念、API使用、最佳实践以及常见问题解答,对于开发者来说是...

    lucene word ppt excel pdf全文检索

    本篇将深入探讨如何利用Lucene实现对Word、PPT、Excel、PDF和TXT等常见文件类型的全文检索。 首先,我们要理解什么是全文检索。全文检索是指在文档集合中,通过搜索文档中的所有词汇,找出包含特定查询词的文档。与...

    全文检索(Lucene)详解

    它提供了一个简单但功能强大的API,用于在各种数据源中进行高效的全文检索。Lucene不仅用于网站搜索引擎,还广泛应用于企业级应用程序,帮助用户快速找到所需的信息。 1. **Lucene的基本概念** - **索引**: Lucene...

    基于lucene框架开发的全文搜索引擎含源代码

    本系统是基于lucene框架开发的全文搜索引擎,能实现txt、doc、pdf、excel、ppt等常见文档的全文检索,可以直接部署到tomcat下即可运行,需要研究lucene或实际应用lucene框架的朋友,欢迎下载。

    Lucene 全文检索的 各种例子

    在这个“Lucene全文检索的各种例子”中,我们将探讨如何使用不同的分词器,如ikAnalyzer和smartChineseAnalyzer,来实现中文文本的索引和搜索。 首先,让我们深入理解一下Lucene。Lucene的核心功能包括文档的索引和...

    lucene2.3API中文文档、lucene-3.5.0JAR包

    总之,Lucene作为强大的全文检索工具,其API文档和相关总结是学习和应用的基础。从2.3到3.5.0的版本升级,不仅带来了功能增强,也反映了Lucene在搜索领域的持续发展。对于开发者来说,深入理解和熟练运用这些知识点...

    Lucene开源的全文检索框架

    - **初期阶段**:Lucene最初作为一款简单的文本检索库,主要用于帮助开发者实现基本的文档搜索功能。 - **扩展阶段**:随着技术的发展,Lucene不断引入新的特性,如更复杂的分析器、高级搜索技巧等。 - **成熟...

    Lucene 全文检索

    6. **实战应用**:提供示例代码展示如何在实际项目中集成Lucene,处理常见的检索需求,比如搜索建议、近似搜索等。 **标签:** - **源码**:暗示文章可能包含对Lucene源代码的分析,这对于开发者了解其工作原理和...

    Lucene.Net 2.0 源码+文档

    Lucene.Net是一个开源的全文搜索引擎库,它是Apache Lucene项目在.NET平台上的实现,由DotLucene发展而来,广泛应用于各种信息检索和文本挖掘场景。这个资料包包含了Lucene.Net 2.0的源码和相关文档,对于想要深入...

    精品资料(2021-2022收藏)Lucene:基于Java的全文检索引擎简介.docx

    Cutting创建Lucene的目的是为了简化在各种规模的应用程序中实现全文检索的复杂性。自2001年起,Lucene成为了Apache基金会的一部分,并且随着时间的推移,许多知名的Java项目如Jive、Cocoon和Eclipse都采用了Lucene...

    用Lucene实现简单搜索引擎【文档+代码】

    Apache Lucene是一个高性能、全文本搜索库,被广泛用于构建自定义的搜索引擎。它提供了丰富的搜索功能,包括分词、索引、查询解析、排序等。在这个项目中,我们将深入探讨如何使用Java和Lucene来创建一个简单的搜索...

    lucene 3.6 全文检索

    Lucene是一个开源的全文检索库,由Apache软件基金会开发,广泛应用于各种搜索场景。在本文中,我们将深入探讨Lucene 3.6版本中的核心概念和技术,以帮助你更好地理解和应用这一强大的全文检索工具。 一、Lucene的...

    Lucene学习例子与文档

    Lucene被广泛应用于各种需要全文检索的项目中,如网站、文档管理、内容管理系统等。本压缩包包含了Lucene的一些学习实例和相关文档,旨在帮助对Lucene感兴趣的开发者更好地理解和掌握其用法。 首先,我们来看看...

    Lucene笔记:全文检索的实现机制

    ### Lucene笔记:全文检索的实现机制 #### 全文检索与中文支持 在全文检索领域,Lucene作为一款开源的高性能全文检索引擎,被广泛应用于各种场景之中。特别是对于中文用户而言,如何确保Lucene能够高效地支持中文...

    lucene电子文档搜索

    **Lucene电子文档搜索**...通过这个Demo,开发者可以深入理解Lucene.Net的工作原理,并将其应用于实际项目中,实现高效的全文搜索功能。无论是小型的个人项目还是大型的企业级应用,Lucene.Net都能提供强大的搜索支持。

    我写的lucene全文检索,只支持英文

    在你提到的项目中,“我写的lucene全文检索,只支持英文”表明这个实现是针对英文文本进行全文检索的,可能并未集成对中文字符集的支持。 Lucene的工作原理主要分为两个阶段:索引和搜索。在索引阶段,程序会读取...

Global site tag (gtag.js) - Google Analytics