`
iluoxuan
  • 浏览: 580013 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

lucene原理

    博客分类:
  • java
阅读更多

 

 

Lucene原理

 


 

反向索引

_       字符串到文件的映射

 


左边的称为字典,用户要搜索的词语而右边就是所有包含该次的文档的list称为倒排表posting List.查找lucenesolr3

1.     查找包含lucene关键字的文档链表

2.     查找包含solr关键字文档链表

3.     合并链表中相同的

_       相对扫描多了个索引过程,但是对于大数据索引只要创建一次,索引的更新可以是增量的。

 

 

创建索引

2.1 索引文档建立(txtdocxsl等)

4.     文档可以使pdfdocxsltxt等格式

5.     lucene的基本是纯全本,我接触的

6.     从数据库中导入数据建立索引

2.2 对文档进行分词(中文分词,英文分词等)

中文分词组件:

中文分词算法分类:

http://www.cnblogs.com/lvpei/archive/2010/08/04/1792409.html

http://www.iteye.com/news/9637

 

2.3 对词语进行语言处理(还原词语如cars->car,去掉停用词等)

2.4 索引创建

2.4.1 利用词语(Term)创建字典

_       Term词语对应的documentid

_       


 

_       对字典安装字母排序

         


 

_       合并相同的词,统计词频等

       


 

   Document frequery是该词语出现在多个个文档中

   frequery是改词语在每个文档中出现的次数

2.4.2 对字典按字母排序

2.4.3 合并相同的词(Term)成为文档倒排(Posting List)链表

搜索索引

3.1 输入查询语句(lucene and solr

3.2 对查询语句进行语法,词法,语言处理

3.2.1 词法分析,分析出单词和关键字

3.2.2 语法分析,根据查询语法构造语法树

3.2.3 语言处理同索引过程中的语言处理几乎相

3.3 搜索索引,等到符合语法树的文档

3.4 对搜索结果排序

_       搜索中主要的词有不重要的词

_       一个词的权重计算过程

1.           Term Frequency (tf)即此Term 在此文档中出现了多少次。tf 越大说明越重要。

2.           Document Frequency (df)  即有多少文档包含次Termdf 越大说明越不重要。

3.          


 

 

 

  • 大小: 16.5 KB
  • 大小: 17 KB
  • 大小: 5.4 KB
  • 大小: 5.3 KB
  • 大小: 7.7 KB
  • 大小: 12.1 KB
分享到:
评论

相关推荐

    Lucene原理及使用总结

    【Lucene原理】 现代搜索引擎的核心是建立索引和基于索引的搜索。Lucene采用反向索引(inverted index)机制,这是一种数据结构,它将文档中的每个单词映射到包含这些单词的文档列表。这样,当执行搜索时,Lucene...

    lucene 原理与代码分析

    《Lucene原理与代码分析》深入探讨了几乎最新版本的Lucene的工作机制和代码实现细节,为理解全文搜索引擎的核心技术提供了宝贵的资源。以下是对该文件关键知识点的详细解析: ### 全文检索的基本原理 #### 总论 ...

    lucene原理与代码分析完整版

    ### Lucene原理与代码分析概览 #### 一、全文检索基本原理 全文检索是一种能够检索文档中任意词语的信息检索技术。与简单的关键词查询不同,全文检索不仅关注文档标题、元数据,还深入到文档的实际内容中去。这种...

    Lucene 原理与代码分析.pdf

    该文档《Lucene原理与代码分析》深入探讨了Lucene的工作原理及其实现机制,内容涵盖了从理论到实践的各个层面。 在原理篇中,首先对全文检索的基本原理进行了介绍。全文检索是指对文档集合进行建索引,以便快速检索...

    Lucene原理与代码分析完整版

    资源名称:Lucene 原理与代码分析完整版资源截图: 资源太大,传百度网盘了,链接在附件中,有需要的同学自取。

    Lucene 原理与代码分析完整版.MOBI

    Lucene 原理与代码分析完整版.MOBI

    Lucene的原理完整版pdf

    **Lucene原理详解** Lucene是一个高性能、全文检索库,由Apache软件基金会开发并维护,是Java编程语言中广泛使用的搜索引擎库。它提供了一个简单但功能强大的API,用于索引和搜索文本数据,使得开发者可以轻松地在...

    Lucene原理

    通过深入理解Lucene的工作原理,并结合Analyzer的定制、查询优化策略以及性能调优,开发者可以构建出满足特定需求的高性能搜索引擎。同时,Lucene也提供了丰富的API,便于与其他系统集成,如Solr和Elasticsearch等,...

    Lucene 原理与代码分析完整版

    本文将对Lucene的基本原理及其实现的代码进行分析。 首先,全文检索的基本原理包括索引的创建与搜索过程。在索引创建过程中,文档首先经过分词组件Tokenizer拆分成词元Token,然后经过语言处理组件...

    Lucene原理与代码分析完整版以及找的一些资料

    再来看《Lucene原理与代码分析完整版.rar》这份资料,它可能包含对Lucene核心组件的详细解析,例如索引的创建、更新和读取过程。Lucene通过倒排索引实现高效搜索,其中,每个文档被拆分为词汇,每个词汇在索引中对应...

    lucene 原理 代码分析

    ### Lucene原理与代码分析详解 #### 全文检索的基本原理 在深入探讨Lucene的具体实现之前,我们首先需要理解全文检索系统的工作原理。全文检索技术允许用户通过输入关键词或短语来查找文档集合中包含这些词的文档...

    Lucene 原理与代码分析完整版1

    《Lucene原理与代码分析完整版1》这篇文章深入探讨了全文检索的基本原理,以及Lucene这一强大搜索引擎的内部工作机制。全文检索是现代信息技术中的一个重要领域,它为海量数据的高效检索提供了可能。以下是对该文...

    ( Lucene 原理与代码分析完整版.PDF)

    《Lucene原理与代码分析》是一本深入探讨Apache Lucene搜索引擎库的专业书籍。Lucene是Java平台上的一个全文检索库,被广泛应用于各种搜索引擎和信息检索系统中。它提供了高效、可扩展的文本搜索功能,使得开发者...

Global site tag (gtag.js) - Google Analytics