lucene之分词,索引,存储 - weishuwei - ITeye博客

`

weishuwei

浏览: 329023 次
性别:
来自: 上海

最近访客更多访客>>

guanjing1993

minxiaomin

ztcwh

xinghuo2089

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xiaobojava：把HessianOutput作为参数报：HessianOutp ...
将文件流组装到hessianOutPut里,远程上传文件使用
云峰飞：问楼主formula这个属性在映射文件中的表查询其他的表数据都 ...
hibernate的formula
mlin：不错不错，今天我也遇到了上面提到的第一个问题，看到你的文章才解 ...
json-lib包笔记
775901421： ...
Lucene之Field
limeiyong：定义后怎么用？
hibernate自定义主键

lucene之分词,索引,存储

博客分类：

Lucene

lucene Eclipse Java 全文检索

阅读更多

全文检索(lucene):
刚接触lucene时,对分词,索引,存储不是很了解,经过深入的学习,逐渐连接了这三个的概念;
1,分词:就是剔除掉常见到词(当然这里可以自定义那些要被剔掉的词),如"我是java程序员,我用eclipse开发java",一般

人搜索不会输入"我","用","开发"这些词,我们把它们剔除掉,就剩下"java","程序员","eclipse","java"了;

2,索引:分为先分词再索引和不分词直接索引;
1)分词索引:比如上面那个经过分词后剩下"java","程序员","eclipse","java",按照一定的索引机制:对"java","程序员

","eclipse","java"建立索引(如"程序员",可能会建立两个索引,"程序","程序员"),以便能通过"eclipse"或者是"java"

等搜索到,输入分词时剔除掉的字就搜不到东西.
2)不分词直接索引,就是直接对"我是java程序员,我用eclipse开发java"建立索引,索引里有"我","是"等,所以你可以通过这些词搜索到内容.

3,存储:存储就是把原内容完完全全,原封不动地保存到索引里面;例如上面,把"我是java程序员,我用eclipse开发java",

直接保存到索引里,

4,索引:这里说的索引不是指的是一个文件,而是一个目录,这个目录下的所有东西集统称为索引

分享到：

批处理启动数据库tomcat | 批处理读取注册表的中文问题

2007-03-21 14:57
浏览 3879
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Lucene-Demo.rar Lucene分词的demo: 在运行这个Demo时，注意描述中提到的"存储地址"，这通常指的是Lucene创建的索引文件的保存位置。开发者需要根据自己的环境修改这个路径，确保Lucene能够正确读写索引。在索引文本时，开发者会调用Lucene提供的API将...

lucene.NET 中文分词: 4. **建立索引**：使用analyzer进行索引构建，确保分词后的结果被正确地存储和索引。 ### 3. 高亮显示在Lucene.NET中，高亮显示搜索结果是一项常用功能，它可以帮助用户快速定位搜索关键词。高亮通常通过...

lucene中文分词器（paoding解牛）: 5. **处理结果**：根据分词结果进行后续的索引、存储或者分析操作。 6. **优化调整**：根据实际效果，可以调整词典、分词模式等参数，以达到最佳的分词效果。总的来说，Paoding分词器是Lucene进行中文信息处理的...

基于lucene技术的增量索引: Lucene通过分析这些文本，将其拆分为术语，并在倒排索引中存储每个术语的位置信息，以便快速定位到包含特定术语的文档。 **2. 增量索引的概念** 增量索引的目的是避免重新构建整个索引，尤其是在大型数据集上，这...

lucene工程，分词、索引: Lucene的核心功能之一就是创建索引，索引的过程是将原始文本转换为倒排索引（Inverted Index），以便快速查找匹配查询的文档。在"lucene工程"中，我们可以学习如何创建索引： 1. 创建Analyzer：首先，我们需要定义...

如何使用Lucene的中文分词搜索: 1. **索引（Indexing）**：Lucene的核心操作之一是构建索引，即将文本数据转换为可搜索的结构。索引过程包括分析（Analyzer）文本、创建文档（Document）、字段（Field）和倒排索引（Inverted Index）。 2. **分析...

ik分词器2012和lucene的资源和jar包以及lucene索引查看工具: - **监控和调试**：使用索引查看工具检查索引结构，确认分词是否正确，文档是否被正确地索引和存储。 6. **扩展应用**：除了基础的文本搜索，IK分词器和Lucene还可以结合其他技术，如NLP（自然语言处理）和信息...

Lucene.net 盘古分词C#: 【标题】"Lucene.net 盘古分词C#" 涉及到的是在.NET环境中使用Lucene库进行全文检索，并结合盘古分词工具进行中文分词处理。Lucene是一个开源的全文检索库，提供了高效的索引和搜索功能。在.NET平台上，Lucene.net是...

深入了解Lucene之二索引结构.ppt: 《深入理解Lucene之二：索引结构》 Lucene是一个强大的全文搜索引擎库，它的核心功能之一就是构建高效的索引结构，使得数据的检索过程快速而精准。本篇内容将详细解析Lucene的索引结构，帮助你更好地理解和运用这个...

Lucene与中文分词技术的研究及应用: - **文档**：是Lucene中的基本存储单位，由多个字段组成。 - **字段**：包含具体的文本内容，是文档的组成部分。 - **索引**：Lucene通过构建倒排索引来提高搜索效率。倒排索引是一种数据结构，它将每个词映射到包含...

Lucene 索引的简单使用: - **索引（Index）**：索引是Lucene处理数据的核心，它将文本数据转换为可供快速搜索的结构。 - **分词器（Tokenizer）**：分词器将输入的文本分解为一系列的词语，这是建立索引的第一步。 - **分析器（Analyzer）...

Lucene读取索引文件: 它的核心功能之一就是构建和读取索引文件，以高效地进行文本搜索。本文将深入探讨Lucene如何读取索引文件，帮助开发者更好地理解和利用这一强大的工具。首先，我们需要了解Lucene索引的基本结构。一个Lucene索引是...

lucene实现索引查询: 以下是关于使用Lucene实现索引查询的详细知识： ### 一、创建索引创建索引是Lucene的核心过程，它涉及到以下步骤： 1. **定义索引目录**：首先，你需要指定一个目录来存储索引文件。这通常是一个文件夹，可以...

Lucene.NET全文索引搜索Demo项目: 1. **文档模型**：在Lucene.NET中，每一条记录被称为一个文档，由一组字段（Field）组成，每个字段有其特定的属性，如是否被索引、是否存储原始内容等。 2. **倒排索引**：Lucene.NET采用倒排索引结构，其中每个词...

引入局部统计识别高频词汇的Lucene中文分词程序src.rar: 2. **源码文件**：`.java`文件，包含了实现Lucene分词器的类，可能包括`Tokenizer`、`Analyzer`等，这些类会覆盖或扩展Lucene的默认分词逻辑。 3. **测试代码**：`.java`或`.test`文件，用于验证分词器功能的正确性...

盘古分词+Lucene: 索引的过程会将文本分词，并将分词后的词语作为索引项存储。 4. **查询处理**：在用户输入查询语句后，同样使用盘古分词对查询进行分词，然后在已构建的索引中进行匹配和搜索，返回最相关的搜索结果。 5. **优化与...

Lucene索引器实例: **Lucene索引器实例详解** Lucene是一个高性能、全文本搜索库，由Apache软件基金会开发，被广泛应用于各种搜索引擎的构建。它提供了一个高级的、灵活的、可扩展的接口，使得开发者能够轻松地在应用程序中实现全文...

lucene 中文分词: 1. **创建索引**：首先，我们需要对要搜索的文档进行分词，然后将这些词汇和对应的文档信息一起存入Lucene的索引库中。索引库是一个高效的数据结构，用于快速查找包含特定词汇的文档。 2. **使用分词器**：在创建...

luke8用于查看lucene保存的索引库数据和文档数据: 这一过程包括分词、建立倒排索引、存储字段值等步骤。Lucene支持多种高级特性，如模糊搜索、短语搜索、评分机制等，使得搜索体验更加智能化。 **2. luke8的用途** luke8是Lucene的官方可视化工具，主要功能有： -...

lucene索引结构原理: 2. **词项（Term）**：每个分词后的词汇单元称为词项，是Lucene索引的基本单位。词项由一个词典中的词汇（如“apple”）和文档中出现的位置（或位置编码）组成。 3. **词典（Dictionary）**：词典是所有唯一词项的...

Global site tag (gtag.js) - Google Analytics