`
javasss
  • 浏览: 66550 次
  • 性别: Icon_minigender_1
  • 来自: 河南
社区版块
存档分类
最新评论

Lucene原理

 
阅读更多

Luncene是什么
Lucene是一个高性能的全文检索工具包,它使用的是倒排文件索引结构。Lucene可以对任何的数据做索引和搜索. Lucene不管数据源是什么格式,只要它能被转化为文字的形式,就可以被Lucene所分析利用.也就是说不管是MS word, Html ,pdf还是其他什么形式的文件只要你可以从中抽取出文字形式的内容就可以被Lucene所用.你就可以用Lucene对它们进行索引以及搜索.



该结构及相应的生成算法如下:

0)设有两篇文章1和2

文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.

文章2的内容为:He once lived in Shanghai.



1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章的关键词,通常我们需要如下处理措施

a.我们现在有的是文章内容,即一个字符串,我们先要找出字符串中的所有单词,即分词。英文单词由于用空格分隔,比较好处理。中文单词间是连在一起的需要特殊的分词处理。

b.文章中的”in”, “once” “too”等词没有什么实际意义,中文中的“的”“是”等字通常也无具体含义,这些不代表概念的词可以过滤掉

c.用户通常希望查“He”时能把含“he”,“HE”的文章也找出来,所以所有单词需要统一大小写。

d.用户通常希望查“live”时能把含“lives”,“lived”的文章也找出来,所以需要把“lives”,“lived”还原成“live”

e.文章中的标点符号通常不表示某种概念,也可以过滤掉

在lucene中以上措施由Analyzer类完成



经过上面处理后

文章1的所有关键词为:[tom] [live] [guangzhou] [i] [live] [guangzhou]

文章2的所有关键词为:[he] [live] [shanghai]



2) 有了关键词后,我们就可以建立倒排索引了。上面的对应关系是:“文章号”对“文章中所有关键词”。倒排索引把这个关系倒过来,变成:“关键词”对“拥有该关键词的所有文章号”。文章1,2经过倒排后变成

关键词 文章号

guangzhou 1

he 2

i 1

live 1,2

shanghai 2

tom 1



通常仅知道关键词在哪些文章中出现还不够,我们还需要知道关键词在文章中出现次数和出现的位置,通常有两种位置:a)字符位置,即记录该词是文章中第几个字符(优点是关键词亮显时定位快);b)关键词位置,即记录该词是文章中第几个关键词(优点是节约索引空间、词组(phase)查询快),lucene中记录的就是这种位置。



加上“出现频率”和“出现位置”信息后,我们的索引结构变为:

关键词 文章号[出现频率] 出现位置

guangzhou 1[2] 3,6

he 2[1] 1

i 1[1] 4

live 1[2],2[1] 2,5,2

shanghai 2[1] 3

tom 1[1] 1



以live 这行为例我们说明一下该结构:live在文章1中出现了2次,文章2中出现了一次,它的出现位置为“2,5,2”这表示什么呢?我们需要结合文章号和出现频率来分析,文章1中出现了2次,那么“2,5”就表示live在文章1中出现的两个位置,文章2中出现了一次,剩下的“2”就表示live是文章2中第 2个关键字。



以上就是lucene索引结构中最核心的部分。我们注意到关键字是按字符顺序排列的(lucene没有使用B树结构),因此lucene可以用二元搜索算法快速定位关键词。



实现时 lucene将上面三列分别作为词典文件(Term Dictionary)、频率文件(frequencies)、位置文件 (positions)保存。其中词典文件不仅保存有每个关键词,还保留了指向频率文件和位置文件的指针,通过指针可以找到该关键字的频率信息和位置信息。



Lucene中使用了field的概念,用于表达信息所在位置(如标题中,文章中,url中),在建索引中,该field信息也记录在词典文件中,每个关键词都有一个field信息(因为每个关键字一定属于一个或多个field)。



为了减小索引文件的大小,Lucene对索引还使用了压缩技术。首先,对词典文件中的关键词进行了压缩,关键词压缩为<前缀长度,后缀>,例如:当前词为“阿拉伯语”,上一个词为“阿拉伯”,那么“阿拉伯语”压缩为<3,语>。其次大量用到的是对数字的压缩,数字只保存与上一个值的差值(这样可以减小数字的长度,进而减少保存该数字需要的字节数)。例如当前文章号是16389(不压缩要用3个字节保存),上一文章号是16382,压缩后保存7(只用一个字节)。



下面我们可以通过对该索引的查询来解释一下为什么要建立索引。

假设要查询单词 “live”,lucene先对词典二元查找、找到该词,通过指向频率文件的指针读出所有文章号,然后返回结果。词典通常非常小,因而,整个过程的时间是毫秒级的。

而用普通的顺序匹配算法,不建索引,而是对所有文章的内容进行字符串匹配,这个过程将会相当缓慢,当文章数目很大时,时间往往是无法忍受的。

如何使用Luncene
示例介绍:

为作为输入参数的文件夹下的所有txt类型的文件做索引,做好的索引文件放入index文件夹。示例是对txt类型的文件做索引,对数据库做索引用方法与此类似,只是数据的来源不同。对文件做索引,搜索的时候返回的是文件名;对数据库中的表做索引,则应返回主键值。

然后在索引的基础上对文件进行全文搜索.

1.       建立索引
IndexWriter writer = new IndexWriter("index", new StandardAnalyzer(), true);

IndexDocs(writer, new System.IO.FileInfo(args[0]));

writer.Optimize();

writer.Close();

IndexWriter是对索引进行写操作的一个类,利用它可以创建一个索引对象然后往其中添加文件.需要注意它并不是唯一可以修改索引的类.在索引建好后利用其他类还可以对其进行修改.

构造函数第一个参数是建立的索引所要放的文件夹的名字.第二个参数是一个分析对象,主要用于从文本中抽取那些需要建立索引的内容,把不需要参与建索引的文本内容去掉.比如去掉一些a the之类的常用词,还有决定是否大小写敏感.不同的选项通过指定不同的分析对象控制.第三个参数用于确定是否覆盖原有索引的.

第二步就是利用这个writer往索引中添加文件.具体后面再说.

第三步进行优化.

第四步关闭writer.



下面具体看看第二步:

public static void IndexDirectory(IndexWriter writer, FileInfo file)

         {

//如果file 是一个文件夹

              if (Directory.Exists(file.FullName))

              {

                   String[] files = Directory.GetFileSystemEntries(file.FullName);

                   // an IO error could occur

                   if (files != null)

                   {

                       for (int i = 0; i < files.Length; i++)

                       {

                            IndexDirectory(writer, new FileInfo(files[i]));

//这里是一个递归

                       }

                   }

              }

//如果file是一个.txt文件

              else if (file.Extension == ".txt")

              {

                   IndexFile(file, writer);

              }

         }



         private static void IndexFile(FileInfo file, IndexWriter writer)

         {

              Console.Out.WriteLine("adding " + file);

              try

              {

                   Document doc = new Document();

                   doc.Add(Field.Keyword("filename", file.FullName));//搜索时返回是这个函数的第二个参数。在这里表示文件名。

                   doc.Add(Field.Text("contents", new StreamReader(file.FullName)));

                   writer.AddDocument(doc);

              }

              catch (FileNotFoundException fnfe)

              {

              }

     }

主要就是两个函数一个用于处理文件夹(不是为文件夹建立索引),一个用于真正为文件建立索引.

因此主要集中看一下IndexFile这个方法.首先建立Document对象,然后为Document对象添加一些属性Field.你可以把Document对象看成是虚拟文件,将来将从此获取信息.而Field则看成是描述此虚拟文件的元数据(metadata).

其中Field包括四个类型:

Keywork
该类型的数据将不被分析,而会被索引并保存保存在索引中.

UnIndexed
该类型的数据不会被分析也不会被索引,但是会保存在索引.

UnStored
和UnIndexed刚好相反,被分析被索引,但是不被保存.

Text
和UnStrored类似.如果值的类型为string还会被保存.如果值的类型Reader就不会被保存和UnStored一样.




最后将每一个Document添加到索引当中.

需要注意的是索引不仅可以建立在文件系统上,也可以建立在内存中.

例如

IndexWriter writer = new IndexWriter("index", new StandardAnalyzer(), true);

在第一个参数不是指定文件夹的名字而是使用Directory对象,并使用它的子类RAMDirectory,就可以将索引建立在内存当中.



2.       对索引进行搜索

IndexSearcher indexSearcher= new IndexSearcher(indexDir);

Query query = QueryParser.Parse(queryString, "contents",new StandardAnalyzer());
Hits hits = indexSearcher.Search(query);

            //存储

            ArrayList list = new ArrayList();

            for (int i = 0; i < hits.Length(); i++)

            {

                Document doc = hits.Doc(i);

                string strID = doc.Get("filename");

                list.Add(strID);

            }

            searcher.Close();

            return list;

第一步利用IndexSearcher打开索引文件用于后面搜索,其中的参数是索引文件的路径.

第二步使用QueryParser将可读性较好的查询语句(比如查询的词lucene ,以及一些高级方式lucene AND .net)转化为Lucene内部使用的查询对象.

第三步执行搜索.并将结果返回到hits集合.需要注意的是Lucene并不是一次将所有的结果放入hits中而是采取一次放一部分的方式.出于空间考虑.


分享到:
评论

相关推荐

    Lucene原理及使用总结

    【Lucene原理】 现代搜索引擎的核心是建立索引和基于索引的搜索。Lucene采用反向索引(inverted index)机制,这是一种数据结构,它将文档中的每个单词映射到包含这些单词的文档列表。这样,当执行搜索时,Lucene...

    lucene 原理与代码分析

    《Lucene原理与代码分析》深入探讨了几乎最新版本的Lucene的工作机制和代码实现细节,为理解全文搜索引擎的核心技术提供了宝贵的资源。以下是对该文件关键知识点的详细解析: ### 全文检索的基本原理 #### 总论 ...

    lucene原理与代码分析完整版

    ### Lucene原理与代码分析概览 #### 一、全文检索基本原理 全文检索是一种能够检索文档中任意词语的信息检索技术。与简单的关键词查询不同,全文检索不仅关注文档标题、元数据,还深入到文档的实际内容中去。这种...

    Lucene 原理与代码分析.pdf

    该文档《Lucene原理与代码分析》深入探讨了Lucene的工作原理及其实现机制,内容涵盖了从理论到实践的各个层面。 在原理篇中,首先对全文检索的基本原理进行了介绍。全文检索是指对文档集合进行建索引,以便快速检索...

    Lucene原理与代码分析完整版

    资源名称:Lucene 原理与代码分析完整版资源截图: 资源太大,传百度网盘了,链接在附件中,有需要的同学自取。

    Lucene 原理与代码分析完整版.MOBI

    Lucene 原理与代码分析完整版.MOBI

    Lucene的原理完整版pdf

    **Lucene原理详解** Lucene是一个高性能、全文检索库,由Apache软件基金会开发并维护,是Java编程语言中广泛使用的搜索引擎库。它提供了一个简单但功能强大的API,用于索引和搜索文本数据,使得开发者可以轻松地在...

    Lucene 原理与代码分析完整版

    本文将对Lucene的基本原理及其实现的代码进行分析。 首先,全文检索的基本原理包括索引的创建与搜索过程。在索引创建过程中,文档首先经过分词组件Tokenizer拆分成词元Token,然后经过语言处理组件...

    Lucene原理与代码分析完整版以及找的一些资料

    再来看《Lucene原理与代码分析完整版.rar》这份资料,它可能包含对Lucene核心组件的详细解析,例如索引的创建、更新和读取过程。Lucene通过倒排索引实现高效搜索,其中,每个文档被拆分为词汇,每个词汇在索引中对应...

    lucene 原理 代码分析

    ### Lucene原理与代码分析详解 #### 全文检索的基本原理 在深入探讨Lucene的具体实现之前,我们首先需要理解全文检索系统的工作原理。全文检索技术允许用户通过输入关键词或短语来查找文档集合中包含这些词的文档...

    Lucene 原理与代码分析完整版1

    《Lucene原理与代码分析完整版1》这篇文章深入探讨了全文检索的基本原理,以及Lucene这一强大搜索引擎的内部工作机制。全文检索是现代信息技术中的一个重要领域,它为海量数据的高效检索提供了可能。以下是对该文...

    ( Lucene 原理与代码分析完整版.PDF)

    《Lucene原理与代码分析》是一本深入探讨Apache Lucene搜索引擎库的专业书籍。Lucene是Java平台上的一个全文检索库,被广泛应用于各种搜索引擎和信息检索系统中。它提供了高效、可扩展的文本搜索功能,使得开发者...

Global site tag (gtag.js) - Google Analytics