`
cfan_haifeng
  • 浏览: 121934 次
  • 性别: Icon_minigender_1
  • 来自: 郑州
社区版块
存档分类
最新评论

lucene-相关概念与定义

阅读更多

 

这里主要描述了一些Lucene的相关概念和定义

 

定义

 

Analyzer  - 用于在分析文本,英语和拉丁语系通常用StandardAnalyzer 。编制索引的文本Lucene的类。大多数应用程序可以使用英语和拉丁语的语言StandardAnalyzer。

 

Payloads(有效载荷) - payload 是一个字节数组(array of bytes),用于存储term的位置。

 

Snowball Stemmers(雪球词干分析器 ) --Snowball Stemmers是lucene引入的词干分析器之一。 更多信息请参看 nowball website 。

 

Stemmer (词干分析器 - 以下解释来自于维基:“这种算法用来降低干扰词、同义词的影响……,以用于降低索引大小……” 。这一段原文如下:

 

 

"A stemming algorithm, or stemmer, is a computer program or algorithm for reducing inflected (or sometimes derived) words to their stem, base or root form — generally a written word form." Stemmers are often used to reduce the search space and index size. Often times a user searching for "widgets" is interested in documents that contain the term "widget".
 

 

 

核心类

 

Document

A Lucene Document is a record in the index. A Document has a list of fields; each field has a name and a textual value.

 

Term

Term is Lucene's unit of indexing. In western languages, a Term is often a word.

 

TermEnum

TermEnum 通常用于统计某个field中的term个数,但不考虑这些term出现在哪个document中。

 

一些查询子类就是通过对比terms 来实现查询的,例如: WildcardQuery,PrefixQueryRangeQuery.

 

 

 

原文

TermEnum is used to enumerate all terms in the index for a given field, regardless of which documents the terms occur in (or where they occur).

Some query subclasses are implemented by enumerating terms that match a pattern, and building a large OR query from the enumeration. E.g. WildcardQuery,PrefixQueryRangeQuery.

See LuceneFAQHow do I retrieve all the values of a particular field that exists within an index, across all documents? which also includes sample code.

 

 

 

TermDocs

不像TermEnum (see above), TermDocs 通常用于确定哪些文档包括给定的Term。另外,TermDocs 也提供了term 在文档中出现的频率。

 

TermFreqVector

TermFreqVector (aka Term Frequency Vector or just Term Vector) is a data structure containing a given Document's term and frequency information and can be retrieved from the IndexReader only when Term Vectors are stored during indexing.

 

TermFreqVector 是一个包含 given Document's term 和**的数据结构。

 

 原文
TermFreqVector (aka Term Frequency Vector or just Term Vector) is a data structure containing a given Document's term and frequency information and can be retrieved from the IndexReader only when Term Vectors are stored during indexing.
 

Directory

 

IndexReader

 

IndexSearcher

 

分享到:
评论

相关推荐

    lucene-highlighter-2.2.0-src.zip

    高亮显示是搜索引擎返回结果时的一个重要特性,它能够突出显示与用户查询相关的部分,使用户快速定位到关键信息。在Lucene中,高亮器(Highlighter)负责完成这项工作。它通过对原始文档内容进行分词,然后对比用户...

    lucene-1.4.3

    Lucene 1.4.3包含了几种预定义的分析器,如StandardAnalyzer,它们可以根据语言规则对文本进行分词、去停用词等处理。 2. 文档(Document):文档是Lucene中的基本单位,用于存储待索引的信息。你可以添加字段...

    lucene-3.5.0.jar

    1. **核心概念与组件** - **索引**:Lucene通过分析文本并创建倒排索引来实现快速搜索。倒排索引将每个词与其在文档中的位置关联起来,使得搜索时能快速定位到包含特定词的文档。 - **Analyzer**:Analyzer负责...

    java全文搜索lucene-3.0.0-src+lib.zip

    1.1 Lucene的基本概念 Lucene是一个纯Java库,用于索引和搜索大量文本数据。它提供了完整的搜索功能,包括分词、建立倒排索引、查询解析、评分以及结果排序等。Lucene的设计目标是使开发者能够轻松地在应用程序中...

    Lucene-Demo.rar Lucene分词的demo

    在索引文本时,开发者会调用Lucene提供的API将文本内容和相关信息(如标题、作者等)添加到索引中;在搜索时,他们会构造查询语句并执行,Lucene会返回匹配的文档结果。 通过深入研究这个Demo,开发者不仅可以理解...

    最新版linux lucene-8.8.1.tgz

    8. **扩展与插件**:Lucene社区还开发了多个相关的模块,如Solr和Elasticsearch,它们提供了更高级的功能,如集群管理、分布式搜索、实时索引和丰富的分析功能。 总之,Linux Lucene 8.8.1是构建高效全文搜索引擎的...

    Lucene-2.3.1 源代码阅读学习

    1. **Lucene基本概念** - **索引**:Lucene的核心是构建索引,它将文本数据转换为倒排索引,以便快速查找包含特定词的文档。 - **文档**:在Lucene中,文档是信息的基本单位,可以包含多个字段,每个字段都有特定...

    lucene-3.0.2-dev-src

    本文将重点探讨Lucene 3.0.2-dev版本的源码,帮助读者深入理解其内部机制和核心概念。 1. **索引原理** Lucene的核心功能之一是建立倒排索引,这是一种高效的文本检索方式。在`lucene-3.0.2-dev`源码中,`...

    最新版windows lucene-8.5.2.zip

    《Windows环境下Lucene 8.5.2的深入解析与应用》 Apache Lucene是一个开源全文搜索引擎库,它为开发者提供了强大的文本搜索功能。在Windows操作系统中,Lucene 8.5.2版本是一个重要的更新,它带来了诸多性能优化...

    Lucene-in-Action-2nd-Edition---Manning

    #### 二、核心概念与基础知识 **1. 信息检索术语** - **文档(Document)**:索引的基本单位,通常对应一个网页或数据库中的记录。 - **字段(Field)**:文档的一个属性,如标题、作者、内容等。 - **索引(Index)**:...

    lucene-2.3.2-src

    - `org.apache.lucene.document`:定义了Document和Field的类,以及相关辅助类。 - `org.apache.lucene.queryparser`:包含了查询解析器的实现,如ClassicQueryParser、MultiFieldQueryParser等。 4. Lucene ...

    conquiris-lucene-3.5.0.zip

    标题 "conquiris-lucene-3.5.0.zip" 提供了我们即将探讨的知识点:Lucene,一个开源的全文搜索引擎库。Lucene是由Apache软件基金会开发的Java库,它提供了高级文本分析和索引功能,使得开发者可以轻松地在应用程序中...

    lucene-4.6.0全套jar包

    一、Lucene核心概念 1. 文档(Document):在Lucene中,文档是搜索的基本单位,可以包含多个字段(Field),如标题、内容等。每个字段都有类型,如文本、数值或日期,以便进行不同方式的处理。 2. 字段(Field):...

    lucene-4.8.0源代码,比较全

    Lucene的核心概念包括文档(Document)、字段(Field)、索引(Index)和查询(Query)。在Lucene中,数据被组织成文档,每个文档由多个字段组成,字段包含文本或其他类型的数据。这些文档经过索引过程,形成可以...

    lucene-4.6.0官方文档

    这个文档集成了Lucene的核心概念、API使用、最佳实践以及常见问题解答,对于开发者来说是理解和掌握Lucene不可或缺的学习材料。 1. **Lucene基础** Lucene的核心功能包括文本分析、索引构建、搜索和结果排序。文本...

    lucene-2.0

    《深入理解Lucene 2.0:开源全文检索框架解析》 Lucene 2.0是一款强大的开源全文检索库,...随着技术的发展,虽然新的版本提供了更多的功能和优化,但Lucene 2.0的基本概念和机制仍然在现代搜索引擎中占据着重要地位。

    lucene-2.4.0.rar

    1. **Lucene的基本概念** - **全文检索**:Lucene的核心是全文检索,它能够对文本进行索引,然后快速找出包含特定查询词的文档。 - **倒排索引**:Lucene采用倒排索引结构,将每个文档中出现的词汇及其对应位置...

    lucene-1.rar

    【Lucene核心概念】 Lucene是一个高性能、全文检索库,它是Apache软件基金会的顶级项目,广泛应用于各种搜索引擎的开发。Lucene提供了丰富的API,可以方便地进行文本分析、索引构建和查询处理。 1. **文本分析**:...

    C#调用Lucene方法-实现快速搜索

    首先,让我们了解Lucene的基本概念。Lucene是一个开源的Java库,提供了索引和搜索文本的高级工具。它能够对文本进行分词,建立倒排索引,并支持布尔查询、短语查询等多种查询类型。为了在C#中使用Lucene,我们需要...

    lucene-2.4.1搜索框架

    《Lucene 2.4.1搜索框架:深入学习与应用》 Lucene是一个高性能、全文本搜索引擎库,由Apache软件基金会开发并维护。在2.4.1这个版本中,它提供了强大的文本检索功能,被广泛应用于各种信息检索系统,如网站搜索、...

Global site tag (gtag.js) - Google Analytics