`
weishuwei
  • 浏览: 326938 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

lucene之分词,索引,存储

阅读更多

全文检索(lucene):
刚接触lucene时,对分词,索引,存储不是很了解,经过深入的学习,逐渐连接了这三个的概念;
1,分词:就是剔除掉常见到词(当然这里可以自定义那些要被剔掉的词),如"我是java程序员,我用eclipse开发java",一般

人搜索不会输入"我","用","开发"这些词,我们把它们剔除掉,就剩下"java","程序员","eclipse","java"了;

2,索引:分为先分词再索引和不分词直接索引;
1)分词索引:比如上面那个经过分词后剩下"java","程序员","eclipse","java",按照一定的索引机制:对"java","程序员

","eclipse","java"建立索引(如"程序员",可能会建立两个索引,"程序","程序员"),以便能通过"eclipse"或者是"java"

等搜索到,输入分词时剔除掉的字就搜不到东西.
2)不分词直接索引,就是直接对"我是java程序员,我用eclipse开发java"建立索引,索引里有"我","是"等,所以你可以通过这些词搜索到内容.

3,存储:存储就是把原内容完完全全,原封不动地保存到索引里面;例如上面,把"我是java程序员,我用eclipse开发java",

直接保存到索引里,

4,索引:这里说的索引不是指的是一个文件,而是一个目录,这个目录下的所有东西集统称为索引

分享到:
评论

相关推荐

    lucene.NET 中文分词

    4. **建立索引**:使用analyzer进行索引构建,确保分词后的结果被正确地存储和索引。 ### 3. 高亮显示 在Lucene.NET中,高亮显示搜索结果是一项常用功能,它可以帮助用户快速定位搜索关键词。高亮通常通过...

    Lucene-Demo.rar Lucene分词的demo

    在运行这个Demo时,注意描述中提到的"存储地址",这通常指的是Lucene创建的索引文件的保存位置。开发者需要根据自己的环境修改这个路径,确保Lucene能够正确读写索引。在索引文本时,开发者会调用Lucene提供的API将...

    lucene中文分词器(paoding解牛)

    5. **处理结果**:根据分词结果进行后续的索引、存储或者分析操作。 6. **优化调整**:根据实际效果,可以调整词典、分词模式等参数,以达到最佳的分词效果。 总的来说,Paoding分词器是Lucene进行中文信息处理的...

    基于lucene技术的增量索引

    Lucene通过分析这些文本,将其拆分为术语,并在倒排索引中存储每个术语的位置信息,以便快速定位到包含特定术语的文档。 **2. 增量索引的概念** 增量索引的目的是避免重新构建整个索引,尤其是在大型数据集上,这...

    lucene工程,分词、索引

    Lucene的核心功能之一就是创建索引,索引的过程是将原始文本转换为倒排索引(Inverted Index),以便快速查找匹配查询的文档。在"lucene工程"中,我们可以学习如何创建索引: 1. 创建Analyzer:首先,我们需要定义...

    如何使用Lucene的中文分词搜索

    1. **索引(Indexing)**:Lucene的核心操作之一是构建索引,即将文本数据转换为可搜索的结构。索引过程包括分析(Analyzer)文本、创建文档(Document)、字段(Field)和倒排索引(Inverted Index)。 2. **分析...

    ik分词器2012和lucene的资源和jar包以及lucene索引查看工具

    - **监控和调试**:使用索引查看工具检查索引结构,确认分词是否正确,文档是否被正确地索引和存储。 6. **扩展应用**: 除了基础的文本搜索,IK分词器和Lucene还可以结合其他技术,如NLP(自然语言处理)和信息...

    Lucene.net 盘古分词C#

    【标题】"Lucene.net 盘古分词C#" 涉及到的是在.NET环境中使用Lucene库进行全文检索,并结合盘古分词工具进行中文分词处理。Lucene是一个开源的全文检索库,提供了高效的索引和搜索功能。在.NET平台上,Lucene.net是...

    深入了解Lucene之二 索引结构.ppt

    《深入理解Lucene之二:索引结构》 Lucene是一个强大的全文搜索引擎库,它的核心功能之一就是构建高效的索引结构,使得数据的检索过程快速而精准。本篇内容将详细解析Lucene的索引结构,帮助你更好地理解和运用这个...

    Lucene与中文分词技术的研究及应用

    - **文档**:是Lucene中的基本存储单位,由多个字段组成。 - **字段**:包含具体的文本内容,是文档的组成部分。 - **索引**:Lucene通过构建倒排索引来提高搜索效率。倒排索引是一种数据结构,它将每个词映射到包含...

    Lucene 索引的简单使用

    - **索引(Index)**:索引是Lucene处理数据的核心,它将文本数据转换为可供快速搜索的结构。 - **分词器(Tokenizer)**:分词器将输入的文本分解为一系列的词语,这是建立索引的第一步。 - **分析器(Analyzer)...

    Lucene读取索引文件

    它的核心功能之一就是构建和读取索引文件,以高效地进行文本搜索。本文将深入探讨Lucene如何读取索引文件,帮助开发者更好地理解和利用这一强大的工具。 首先,我们需要了解Lucene索引的基本结构。一个Lucene索引是...

    lucene实现索引查询

    以下是关于使用Lucene实现索引查询的详细知识: ### 一、创建索引 创建索引是Lucene的核心过程,它涉及到以下步骤: 1. **定义索引目录**:首先,你需要指定一个目录来存储索引文件。这通常是一个文件夹,可以...

    Lucene.NET全文索引搜索Demo项目

    1. **文档模型**:在Lucene.NET中,每一条记录被称为一个文档,由一组字段(Field)组成,每个字段有其特定的属性,如是否被索引、是否存储原始内容等。 2. **倒排索引**:Lucene.NET采用倒排索引结构,其中每个词...

    引入局部统计识别高频词汇的Lucene中文分词程序src.rar

    2. **源码文件**:`.java`文件,包含了实现Lucene分词器的类,可能包括`Tokenizer`、`Analyzer`等,这些类会覆盖或扩展Lucene的默认分词逻辑。 3. **测试代码**:`.java`或`.test`文件,用于验证分词器功能的正确性...

    盘古分词+Lucene

    索引的过程会将文本分词,并将分词后的词语作为索引项存储。 4. **查询处理**:在用户输入查询语句后,同样使用盘古分词对查询进行分词,然后在已构建的索引中进行匹配和搜索,返回最相关的搜索结果。 5. **优化与...

    Lucene索引器实例

    **Lucene索引器实例详解** Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发,被广泛应用于各种搜索引擎的构建。它提供了一个高级的、灵活的、可扩展的接口,使得开发者能够轻松地在应用程序中实现全文...

    lucene 中文分词

    1. **创建索引**:首先,我们需要对要搜索的文档进行分词,然后将这些词汇和对应的文档信息一起存入Lucene的索引库中。索引库是一个高效的数据结构,用于快速查找包含特定词汇的文档。 2. **使用分词器**:在创建...

    luke8用于查看lucene保存的索引库数据和文档数据

    这一过程包括分词、建立倒排索引、存储字段值等步骤。Lucene支持多种高级特性,如模糊搜索、短语搜索、评分机制等,使得搜索体验更加智能化。 **2. luke8的用途** luke8是Lucene的官方可视化工具,主要功能有: -...

    lucene索引结构原理

    2. **词项(Term)**:每个分词后的词汇单元称为词项,是Lucene索引的基本单位。词项由一个词典中的词汇(如“apple”)和文档中出现的位置(或位置编码)组成。 3. **词典(Dictionary)**:词典是所有唯一词项的...

Global site tag (gtag.js) - Google Analytics