`

lucene 中的关键词

阅读更多

1.1 什么是lucene 
    Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 
2 lucene的工作方式 
    lucene提供的服务实际包含两部分:一入一出。所谓入是写入,即将你提供的源(本质是字符串)写入索引或者将其从索引中删除;所谓出是读出,即向用户提供全文搜索服务,让用户可以通过关键词定位源。 
2.1写入流程 
    源字符串首先经过analyzer处理,包括:分词,分成一个个单词;去除stopword(可选)。 
将源中需要的信息加入Document的各个Field中,并把需要索引的Field索引起来,把需要存储的Field存储起来。 
    将索引写入存储器,存储器可以是内存或磁盘。 
2.2读出流程 
    用户提供搜索关键词,经过analyzer处理。 
对处理后的关键词搜索索引找出对应的Document。 
用户根据需要从找到的Document中提取需要的Field。 
一些需要知道的概念 
3.1 analyzer 
    Analyzer是分析器,它的作用是把一个字符串按某种规则划分成一个个词语,并去除其中的无效词语,这里说的无效词语是指英文中的ofthe,中文中的等词语,这些词语在文章中大量出现,但是本身不包含什么关键信息,去掉有利于缩小索引文件、提高效率、提高命中率。 
  分词的规则千变万化,但目的只有一个:按语义划分。这点在英文中比较容易实现,因为英文本身就是以单词为单位的,已经用空格分开;而中文则必须以某种方法将连成一片的句子划分成一个个词语。具体划分方法下面再详细介绍,这里只需了解分析器的概念即可。 
3.2 document 
  用户提供的源是一条条记录,它们可以是文本文件、字符串或者数据库表的一条记录等等。一条记录经过索引之后,就是以一个Document的形式存储在索引文件中的。用户进行搜索,也是以Document列表的形式返回。 
3.3 field 
    一个Document可以包含多个信息域,例如一篇文章可以包含标题正文最后修改时间等信息域,这些信息域就是通过FieldDocument中存储的。 
    Field有两个属性可选:存储和索引。通过存储属性你可以控制是否对这个Field进行存储;通过索引属性你可以控制是否对该Field进行索引。这看起来似乎有些废话,事实上对这两个属性的正确组合很重要,下面举例说明:还是以刚才的文章为例子,我们需要对标题和正文进行全文搜索,所以我们要把索引属性设置为真,同时我们希望能直接从搜索结果中提取文章标题,所以我们把标题域的存储属性设置为真,但是由于正文域太大了,我们为了缩小索引文件大小,将正文域的存储属性设置为假,当需要时再直接读取文件;我们只是希望能从搜索解果中提取最后修改时间,不需要对它进行搜索,所以我们把最后修改时间域的存储属性设置为真,索引属性设置为假。上面的三个域涵盖了两个属性的三种组合,还有一种全为假的没有用到,事实上Field不允许你那么设置,因为既不存储又不索引的域是没有意义的。 
3.4 term 
  term是搜索的最小单位,它表示文档的一个词语,term由两部分组成:它表示的词语和这个词语所出现的field。 
3.5 tocken 
    tockenterm的一次出现,它包含trem文本和相应的起止偏移,以及一个类型字符串。一句话中可以出现多次相同的词语,它们都用同一个term表示,但是用不同的tocken,每个tocken标记该词语出现的地方。 
3.6 segment 
    添加索引时并不是每个document都马上添加到同一个索引文件,它们首先被写入到不同的小文件,然后再合并成一个大索引文件,这里每个小文件都是一个segment。 
如何建索引 
4.1 最简单的能完成索引的代码片断 
IndexWriter writer = new IndexWriter(/data/index/, new StandardAnalyzer(), true); 
Document doc = new Document(); 
doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.TOKENIZED)); 
doc.add(new Field("content", "lucene works well", Field.Store.YES, Field.Index.TOKENIZED)); 
writer.addDocument(doc); 
writer.optimize(); 
writer.close(); 
下面我们分析一下这段代码。 
首先我们创建了一个writer,并指定存放索引的目录为/data/index,使用的分析器为StandardAnalyzer,第三个参数说明如果已经有索引文件在索引目录下,我们将覆盖它们。然后我们新建一个document。 
  我们向document添加一个field,名字是title,内容是lucene introduction,对它进行存储并索引。再添加一个名字是contentfield,内容是lucene works well,也是存储并索引。 
然后我们将这个文档添加到索引中,如果有多个文档,可以重复上面的操作,创建document并添加。 
添加完所有document,我们对索引进行优化,优化主要是将多个segment合并到一个,有利于提高索引速度。 
   随后将writer关闭,这点很重要。 
   对,创建索引就这么简单! 
  当然你可能修改上面的代码获得更具个性化的服务。 
4.2 索引文本文件 
    如果你想把纯文本文件索引起来,而不想自己将它们读入字符串创建field,你可以用下面的代码创建field: 
Field field = new Field("content", new FileReader(file)); 
    这里的file就是该文本文件。该构造函数实际上是读去文件内容,并对其进行索引,但不存储。 

分享到:
评论

相关推荐

    Lucene提取新闻关键词Top-N

    Lucene提取新闻关键词Top-N JDK版本要求1.7,lucene版本要求5.5.3 使用说明: 1、在IndexDocs.java右键run as java application 2、在GetTopTerms.java右键run as java application

    SpringBoot+Lucene搜索结果高亮显示Demo

    在这个SpringBoot+Lucene的Demo中,我们将深入探讨如何在Spring Boot框架下集成Lucene,并实现搜索结果的高亮显示。 首先,让我们了解Spring Boot。Spring Boot是由Pivotal团队提供的全新框架,其设计目标是简化...

    lucene.NET 中文分词

    在Lucene.NET中,高亮显示搜索结果是一项常用功能,它可以帮助用户快速定位搜索关键词。高亮通常通过Highlighter类实现,以下是一般流程: 1. **创建Highlighter实例**:`var highlighter = new ...

    Lucene中文分词器组件

    Lucene是一个强大的全文检索库,广泛应用于搜索引擎开发和其他信息检索系统中。它提供了高效、可扩展的文本搜索功能,但是默认情况下并不支持中文处理。为了在Lucene中处理中文文本,我们需要引入专门的中文分词器...

    lucene实例lucene实例

    1. 文档(Document):在Lucene中,文档是信息的基本单位,可以理解为数据库中的一条记录,包含多个字段(Field)。 2. 字段(Field):文档由多个字段组成,每个字段都有特定的含义,如标题(Title)、内容...

    如何使用Lucene的中文分词搜索

    此外,LuceneDB.java可能包含了与数据库交互的部分,将数据库中的数据导入到Lucene索引中,或者从索引中获取结果后更新到数据库。这部分代码可能涉及到JDBC操作和事务管理,具体实现会根据实际需求和数据库类型有所...

    lucene3庖丁解牛中文分词器

    Lucene作为一款强大的全文检索库,被广泛应用于各种信息检索系统中。然而,对于中文文档的处理,Lucene原生的分词能力相对较弱,这就需要我们引入专门的中文分词器来提升搜索效率和准确性。其中,"庖丁解牛"中文分词...

    利用lucene实现文档关键字检索

    在这个使用案例中,我们将深入探讨如何利用Lucene实现对Word文档中的关键字检索并高亮显示结果。 首先,我们需要理解Lucene的基本工作原理。Lucene通过建立倒排索引(Inverted Index)来加速查询。倒排索引是一种...

    Lucene示例 BM25相似度计算

    在Lucene中,查询可以是简单的关键词,也可以是复杂的布尔表达式。查询解析器将用户输入转化为 Lucene 可以理解的Query对象,然后执行查询,返回匹配的文档集合。在本示例中,我们将看到如何使用这些功能并对比不同...

    LuceneDemo

    4. 结果排序:Lucene会根据相关性对查询结果进行排序,相关性通常是基于查询关键词在文档中的出现频率和位置来计算的。 三、Lucene的主要特性 1. 高效性:由于使用了倒排索引,Lucene能够快速地进行全文搜索,即使...

    lucene in action源码

    9. **多字段搜索**:Lucene支持在多个字段上同时进行搜索,例如可以在标题、内容等多个字段中查找关键词。 10. **实时搜索**:Lucene允许动态添加、删除和更新文档,实现近实时的搜索体验。 11. **扩展性**:...

    lucene 4.7.2 Demo

    在4.7.2这个版本中,Lucene已经对Java 6提供了全面的支持,而后续的版本则需要Java 7或更高版本的环境运行。本文将深入探讨Lucene 4.7.2的特性,包括创建、删除和修改索引,以及高级搜索功能如通用对象搜索、范围...

    lucene3源码分析

    全文检索系统是一种高效的信息检索技术,能够帮助用户在海量文档中快速找到包含特定关键词的信息。Lucene是Java领域内最受欢迎的全文检索框架之一,其核心功能包括文本索引和查询。在理解Lucene的工作机制之前,我们...

    lucene讲义 叫你用lucene算法

    在Lucene中,索引构建的核心算法是快速排序算法。当新文档被添加到索引时,它们首先被分到不同的段(Segment),每个段都是一个独立的倒排索引。快速排序算法确保了段内的Term(关键词)是有序的,这为后续的查找和...

    Lucene的原理完整版pdf

    用户输入搜索关键词后,Lucene会快速找出所有相关文章,并按照相关性排序返回给用户。 总之,Lucene提供了一套完整的文本检索解决方案,让开发者能够专注于业务逻辑,而无需关心底层搜索技术的复杂性。通过深入理解...

    中文搜索分词lucene包+paoding包

    每个文档可以看作是多个关键词的集合,这些关键词及其位置信息被存储在Lucene的索引结构中。 3. **查询处理**:当用户输入查询时,同样使用Paoding对查询字符串进行分词,然后在Lucene的索引中查找匹配的文档。 4....

    ssm+lucene

    - 实现搜索接口,用户输入关键词后,通过Lucene的QueryParser解析查询,并执行搜索。 - 返回搜索结果,通常会结合SpringMVC的视图解析返回给前端页面。 **6. 应用场景** - 在电子商务平台,用户可以快速搜索商品...

    Java搜索引擎 Lucene

    2. **分词处理**:Lucene支持多种分词器,可以对文本进行分析,将句子拆分成可搜索的关键词。 3. **倒排索引**:Lucene使用倒排索引技术,通过构建索引表,使得搜索效率大大提高。 4. **多字段搜索**:允许用户对...

Global site tag (gtag.js) - Google Analytics