`

什么是Lucene

 
阅读更多
一,Lucene是什么?

Lucene是一款高性能的,可扩展的信息检索(IR)工具库。信息检索库是指文档搜索,文档内信息检索或者文档相关元数据搜索等操作。Lucene能够融入到你的应用程序,以增加搜索功能。它是一款以java实现的成熟,自用,开源的软件项目,也是Apache软件基金(Apache Software Foundation)中的一个项目,并且基于Apache软件许可协议授权。因此,Lucene在近年来已经成为最受欢迎的开源信息检索工具库。

相关介绍大家还可以百度一下,很多相关的介绍!它可以帮助你对要搜索的信息建立索引,并且进行搜索!

二,Lucene能做什么?

Lucene允许你向自己的应用程序中添加搜索功能。Lucene能够把你从文本中解析出来的数据进行索引和搜索。Lucene并不关心你的数据来源,格式,甚至不关心数据的语种。

只要能把他转换为文本格式即可!当然,你也可以对存储在数据库中的数据进行索引,对文件进行索引以及对你抓取的网页进行索引并查询!!当然,网页抓取并不包含在Lucene中,需要你单独去写爬虫程序!!

Lucene说白了,就是“建立索引,搜索索引”!!

第一个开源的web搜索引擎Nutch也是就用Lucene的~~

Lucene作为一个核心搜索库,并不提供任何功能来实现内容的获取。内容获取的实现完全依赖于你的应用程序或者一款其他软件。目前,有大量的开源爬虫软件可以实现这个功能,如:

1,Solr:(http://lucene.apache.org/solr)Apache Lucene的子项目,支持从关系数据库和xml文档中提原始数据,以及能够通过集成Tika来处理复杂文档。

2,Nutch:(http://lucene.apache.org/nutch),另一个Apache Lucene子项目,它包含大规模的爬虫工具,能够抓取和分辨web站点数据。

3,Grub:(http://www.grub.org)比较流行的开源web爬虫工具。

4,Heritrix:(http://crawler.archive.org)是一款开源的Internate文档搜索程序

5,Drods:是另一个Apache Lucene子项目

6,Aperture:它支持从web站点,文件系统和邮箱中抓去,并解析和索引和其中的文本数据。

7,google企业连接管理工程(http://code.google.com/p/google-enterprise-connector-manager)提供大量针对非web形式的内容连接方案。
分享到:
评论
发表评论

文章已被作者锁定,不允许评论。

相关推荐

    Lucene示例 BM25相似度计算

    首先,我们需要了解什么是Lucene。Lucene是一个由Apache软件基金会开发的高性能、全文本搜索库,提供了对文本的索引和搜索功能。在4.7.1版本中,Lucene已经相当成熟,支持多种索引优化策略和查询方式。 索引构建是...

    java Lucene初级教程

    1.1 什么是lucene  Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 2 lucene的工作方式  lucene提供的服务...

    lucene索引查看程序及代码

    首先,我们要了解什么是Lucene索引。Lucene的索引是一种倒排索引,它通过分析文档内容,将每个单词映射到包含该单词的文档集合,从而实现快速查找。然而,对于开发者来说,直接查看这些索引结构通常并不直观,这就...

    lucene.ppt

    **什么是Lucene** Lucene是一个高性能、可伸缩的全文检索工具包,它不是一个完整的搜索引擎产品,而是一个用于构建搜索引擎的基础库。Lucene提供了一套文本分析接口,支持多种语言和文件格式的分析。它的索引文件...

    全文检索(Lucene)详解

    **全文检索(Lucene)详解** Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发并维护。它提供了一个简单但功能强大的API,用于在各种数据源中进行高效的全文检索。Lucene不仅用于网站搜索引擎,还广泛...

    Lucene开发手册

    **2.1 什么是Lucene** Lucene是一个全文搜索框架,不是独立的搜索引擎。它可以被用于构建各种类型的搜索应用,比如网站搜索引擎、文档库等。类似Servlet在构建Web应用程序中的角色,Lucene提供了底层功能,开发者...

    lucene-analyzers-3.3.0 jar包和源码

    首先,我们要明白什么是Lucene。Lucene是Apache软件基金会的一个项目,它提供了一个高性能、可扩展的全文检索库。这个库可以被用来构建搜索功能,使得开发者能够在自己的应用程序中实现高效的文本搜索。Lucene-...

    Lucene 全文检索

    **Lucene 全文检索** Lucene 是一个高性能、全文本搜索库,由 Apache 软件基金会开发,被广泛应用于各种搜索引擎的构建。它提供了一个简单但功能强大的 API,可以方便地集成到 Java 应用程序中,实现对文本数据的...

    lucene笔记

    **1.1 什么是Lucene** Lucene是一个由Apache基金会维护的开源全文检索引擎工具包。它为开发者提供了一个简便的接口,使得在应用程序中实现高效的全文检索功能成为可能。Lucene不仅仅是一个简单的搜索工具,而是一个...

    基于Lucene的Web站内信息搜索系统

    **一、什么是Lucene?** Apache Lucene是一个开源的Java库,专门用于实现高性能、可扩展的全文检索。它提供了索引和搜索文本的功能,并且支持多种复杂的搜索语法,使得开发者能够快速地构建出复杂的搜索引擎。...

    Lucene入门学习文档

    **一、什么是Lucene** Lucene是Apache软件基金会下的一个开源全文检索库,它提供了一个高性能、可扩展的信息检索服务。Lucene最初由Doug Cutting开发,现在已经成为Java社区中事实上的标准全文检索引擎库。Lucene...

    Lucene In Action second edition

    ##### 2.1 什么是 Lucene? Apache Lucene 是一个高性能、全功能的文本搜索引擎库。它提供了一套完整的 API 来支持索引创建、文档检索以及查询优化等功能。由于其高度可扩展性和灵活性,Lucene 成为了构建复杂搜索...

    Lucene简单应用

    - **什么是Lucene**:Lucene是一款成熟且免费的Java全文索引检索工具包,由Doug Cutting开发。它支持跨平台使用,被贡献给Apache基金会,成为Apache项目的一部分。Lucene并非成品软件或网络爬虫,而是一个可以集成到...

    lucene in Action 中文版

    在这一章中,读者将了解到什么是Lucene,它为何重要,以及它在信息检索领域的地位。Lucene被定义为一个全文搜索引擎库,用于帮助开发者构建高效、可扩展的搜索功能。本章会介绍Lucene的历史、设计目标以及其在开源...

    Lucene初级教程

    **1.1 什么是Lucene** Lucene是一款高性能、全文检索的开源搜索引擎库,由Java语言编写。与Baidu.com或Google Desktop这类直接使用的搜索引擎不同,Lucene更像是一个构建块,开发者可以利用它来构建自己的搜索引擎...

    Java搜索引擎 Lucene.7z

    1. **什么是Lucene?** Lucene是一个纯Java库,它可以将数据结构化为索引,以便快速搜索。它处理文本,将其分词并创建倒排索引,这是一种高效的数据结构,用于存储文档中每个单词的出现位置信息。这使得搜索操作...

    lucene,lucene教程,lucene讲解

    lucene,lucene教程,lucene讲解。 为了对文档进行索引,Lucene 提供了五个基础的类 public class IndexWriter org.apache.lucene.index.IndexWriter public abstract class Directory org.apache.lucene.store....

Global site tag (gtag.js) - Google Analytics