`
qzxfl008
  • 浏览: 78523 次
  • 性别: Icon_minigender_1
  • 来自: 浙江
社区版块
存档分类
最新评论

lucene 索引过程的核心类

阅读更多
IndexWriter

IndexWriter 是索引过程的核心组件。用于创建一个新的索引并把文档加到已有的索引中去。不能用于读取或搜索索引


**********************************************
Directory

Directory类描述了Lucene索引存放的位置,是个抽象的类
public abstract class Directory
extends Object
implements Closeable

FSDirectory继承Directory,具体实现在文件系统的一个目录下创建索引文件

**********************************************
Analyzer是个抽象类
public abstract class Analyzer
extends Object
implements Closeable

文本在被索引之前,需要经过分析器的处理,即分词处理,应用程序在IndexWriter之前要制定所需要使用的分析器,负责从将被索引的文本文件中提取词汇单元(tokens),并提出剩下的无用信息,例子
引用
http://qzxfl008.iteye.com/admin/blogs/1018962

***********************************************
Document

顾名思义文档的意思,一个Document代表多个域(Field)的集合。Document是承载数据的实体,

************************************************
Field


每个Field都对应于一段数据,这些数据在索引过程中可能被查询活着在索引表中被检索

Lucene提供四种不同类型的Field:
Keyword域——不需要被分析,但会被逐字地被索引并存储。该类适用于原始值,即需要别全部保留的Field,如URL,日期等

UnIndexed 域——既不需要被分析也不进行索引,但是该值同样被存储在索引文件中。适用于需要和搜索结果一起被现实出来的,但用户不会将它的值直接用于搜索的情形。但不适合存储大文本的索引

UnStored 域——与UnIndexed刚好相反,

Text 域——需要被分析切索引。

分享到:
评论

相关推荐

    Lucene索引和查询

    **Lucene索引和查询** Lucene是Apache软件基金会的开放源码全文搜索引擎库,它提供了文本检索的核心工具,使得开发者能够快速构建自己的搜索应用。本项目中的代码旨在展示如何利用Lucene对多个文件夹下的数据进行...

    luke源码--查看lucene索引文件

    源码目录(src)是Luke的核心部分,包含了所有Java源代码,这些代码负责解析、显示和解释Lucene索引。通过阅读和研究源码,我们可以了解到Luke如何读取索引段、字段和文档,以及如何展示这些信息。例如,Luke提供了...

    lucene索引结构原理

    **Lucene索引结构原理** Lucene是Apache软件基金会的开放源代码全文搜索引擎库,它为Java开发人员提供了强大的文本搜索功能。理解Lucene的索引结构原理对于优化搜索性能和设计高效的搜索应用至关重要。 首先,我们...

    lucene 索引小示例

    《Lucene索引小示例解析》 Lucene是一个高性能、全文检索库,它由Apache软件基金会开发并维护。在Java编程环境中,Lucene被广泛应用于构建搜索功能,特别是对于大量文本数据的高效检索。本篇文章将通过一个简单的小...

    Lucene读取索引文件

    在开发过程中,有时会遇到需要查看二进制索引文件内容的情况,这时可以使用工具如jd-gui.exe(Java反编译器),虽然它主要用于查看Java字节码,但在某些情况下也可以辅助理解Lucene索引文件的组成。然而,由于Lucene...

    深入 Lucene 索引机制深入 Lucene 索引机制

    Apache Lucene 是一个高性能、全文检索库,由Java编写,其核心设计目标是提供一个灵活、可扩展的搜索功能。它允许开发者在自己的应用程序中嵌入强大的搜索引擎,从而实现高效的文本检索。本文将深入探讨Lucene的索引...

    Lucene索引分析工具

    通过这些组件,用户可以使用Lucene索引分析工具来查看、分析、修改甚至重建Lucene索引,这对于开发、调试和优化基于Lucene.net的搜索系统非常有帮助。该工具的盘古分词支持意味着用户可以直接在工具中查看和评估分词...

    如何将Lucene索引写入Hadoop?

    Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS提供了一个分布式文件系统,允许数据在集群中的多个节点上存储和访问;MapReduce则是一种编程模型,用于处理和生成大规模数据集。 将...

    Lucene索引数据分析器

    **Lucene索引数据分析器** Lucene是一款强大的开源全文搜索引擎库,由Apache软件基金会开发,广泛应用于各种数据检索系统。它的核心功能在于高效地构建、管理和搜索文本索引,为开发者提供快速的数据查询能力。本篇...

    Lucene3.0创建索引

    - `IndexWriter`是创建和维护索引的核心组件。 - `new StandardAnalyzer(Version.LUCENE_30)`:这里使用了标准分析器,用于对文档内容进行分析。 - `true`:指示要创建新的索引。 - `IndexWriter.MaxFieldLength...

    经典的lucene实例代码及详细解析以及lucene结构流程介绍

    词典是Lucene索引的核心组件,它存储了所有的词项信息。倒排索引是Lucene搜索的关键组件,它使得Lucene能够快速地检索文档。 Lucene搜索 Lucene搜索是指根据用户的查询请求从索引中检索文档的过程。Lucene提供了...

    lucene包,lucene实现核心代码

    - `IndexWriter`:这是创建和更新Lucene索引的主要类。通过这个类,你可以将文档添加到索引中,或者对已有索引进行修改和删除。 - `Analyzer`:用于分词和标准化文本,如去除停用词、词干提取等。Lucene提供了一些...

    lucene 对 xml建立索引

    - Lucene的核心能力在于文档索引和查询,它提供了强大的API来实现高效的文档检索。 2. **XML简介** - XML(Extensible Markup Language,可扩展标记语言)是一种用来标记数据的语言,它定义了用于描述结构化文档...

    lucene 索引工具源码(桌面版)

    IndexWriter 类是这个过程的主要接口,它可以添加、删除和更新文档,并控制段合并策略,以优化索引性能。 5. **倒排索引(Inverted Index)**:这是 Lucene 的核心数据结构。倒排索引将每个词元映射到包含该词元的...

    lucene索引

    对于"IndexChineseWordBo.java",我们可以推测这可能是用于操作Lucene索引的自定义类,可能包含了特定的中文词汇处理逻辑,比如定制的分词规则或相关性计算方法。 索引完成后,查询阶段开始。`IndexSearcher`对象...

    lucene实现索引查询

    创建索引是Lucene的核心过程,它涉及到以下步骤: 1. **定义索引目录**:首先,你需要指定一个目录来存储索引文件。这通常是一个文件夹,可以通过`File`对象表示,然后使用`FSDirectory.open()`方法打开。 2. **...

    lucene索引的简单使用

    创建Lucene索引主要包括以下几个步骤: 1. **创建Analyzer**:Analyzer负责分词,即将输入的文本拆分成一个个有意义的词语。根据语言特性,可以选择不同的Analyzer,如StandardAnalyzer(默认)适用于英文,...

    lucene 4.7.2 Demo

    《Lucene 4.7.2 Demo:Java全文搜索引擎的核心技术探索》 Lucene,作为Apache软件基金会的一个开源项目,是Java平台上的一个全文搜索引擎库。它的主要功能是提供高效、可扩展的文本检索和分析能力。在4.7.2这个版本...

    Lucene 索引、删除、检索 实例

    Lucene 的索引过程主要包括以下几个步骤: - **创建Analyzer**: Analyzer是处理文本的关键组件,负责将输入的文本分解为独立的词语(称为“术语”或“tokens”)。例如,Analyzer可能会去除停用词、转换为小写等。 ...

    ik分词器2012和lucene的资源和jar包以及lucene索引查看工具

    例如Luke工具(Lucene Index Viewer),它是一个GUI应用程序,可以打开并浏览Lucene索引的详细信息,包括字段、文档、术语及其频率等。这个工具对于开发和优化搜索性能非常有用。 5. **使用流程**: - **创建索引*...

Global site tag (gtag.js) - Google Analytics