`
wwty
  • 浏览: 544204 次
  • 性别: Icon_minigender_1
  • 来自: 北京-郑州
社区版块
存档分类
最新评论

lucene 标准化因子 norm

阅读更多

摘自forfuture1978的lucene系列文章,以供特别理解标准化因子

 

为什么会有标准化因子呢?从第一章中的描述,我们知道,在搜索过程中,搜索出的文档要按与查询语句的相关性排序,相关性大的打分(score)高,从而排在前面。相关性打分(score)使用向量空间模型(Vector Space Model),在计算相关性之前,要计算Term Weight,也即某Term相对于某Document的重要性。在计算Term Weight时,主要有两个影响因素,一个是此Term在此文档中出现的次数,一个是此Term的普通程度。显然此Term在此文档中出现的次数越多,此Term在此文档中越重要。

这种Term Weight的计算方法是最普通的,然而存在以下几个问题:

  • 不同的文档重要性不同。有的文档重要些,有的文档相对不重要,比如对于做软件的,在索引书籍的时候,我想让计算机方面的书更容易搜到,而文学方面的书籍搜索时排名靠后。
  • 不同的域重要性不同。有的域重要一些,如关键字,如标题,有的域不重要一些,如附件等。同样一个词(Term),出现在关键字中应该比出现在附件中打分要高。
  • 根据词(Term)在文档中出现的绝对次数来决定此词对文档的重要性,有不合理的地方。比如长的文档词在文档中出现的次数相对较多,这样短的文档比较吃亏。比如一个词在一本砖头书中出现了10次,在另外一篇不足100字的文章中出现了9次,就说明砖头书应该排在前面码?不应该,显然此词在不足100字的文章中能出现9次,可见其对此文章的重要性。

由于以上原因,Lucene在计算Term Weight时,都会乘上一个标准化因子(Normalization Factor),来减少上面三个问题的影响。

标准化因子(Normalization Factor)是会影响随后打分(score)的计算的,Lucene的打分计算一部分发生在索引过程中,一般是与查询语句无关的参数如标准化因子,大部分发生在搜索过程中,会在搜索过程的代码分析中详述。

标准化因子(Normalization Factor)在索引过程总的计算如下:

 

它包括三个参数:

  • Document boost:此值越大,说明此文档越重要。
  • Field boost:此域越大,说明此域越重要。
  • lengthNorm(field) = (1.0 / Math.sqrt(numTerms)):一个域中包含的Term总数越多,也即文档越长,此值越小,文档越短,此值越大。

从上面的公式,我们知道,一个词(Term)出现在不同的文档或不同的域中,标准化因子不同。比如有两个文档,每个文档有两个域,如果不考虑文档长度,就有四种排列组合,在重要文档的重要域中,在重要文档的非重要域中,在非重要文档的重要域中,在非重要文档的非重要域中,四种组合,每种有不同的标准化因子。

于是在Lucene中,标准化因子共保存了(文档数目乘以域数目)个,格式如下:

 

  • 标准化因子文件(Normalization Factor File: nrm):
    • NormsHeader:字符串“NRM”外加Version,依Lucene的版本的不同而不同。
    • 接着是一个数组,大小为NumFields,每个Field一项,每一项为一个Norms。
    • Norms也是一个数组,大小为SegSize,即此段中文档的数量,每一项为一个Byte,表示一个浮点数,其中0~2为尾数,3~8为指数。
分享到:
评论
1 楼 挚友三千 2011-12-30  
你好,请问一下,在建索引的时候写入的norm 跟打分公式中的
10.606602 = fieldWeight(bookname:"周 杰 伦" in 1), product of:
        1.4142135 = tf(phraseFreq=2.0)
        3.0 = idf(bookname: 周=2 杰=2 伦=2)
        2.5 = fieldNorm(field=bookname, doc=1) 是一样的吗,我打印出来的值为什么不同呀
求扫盲

相关推荐

    lucene可视化工具 Luck-6.5.0

    而 Luck 是 Lucene 的一个可视化工具,版本为 6.5.0,它为 Lucene 的索引提供了直观的界面,帮助用户更好地理解和调试 Lucene 索引。 Luck 可视化工具的主要特性包括: 1. **索引浏览器**:Luck 允许用户浏览 ...

    lucene,lucene教程,lucene讲解

    lucene,lucene教程,lucene讲解。 为了对文档进行索引,Lucene 提供了五个基础的类 public class IndexWriter org.apache.lucene.index.IndexWriter public abstract class Directory org.apache.lucene.store....

    深入了解Lucene之三 排序算法.doc

    此外,Lucene 还提供了 coord、queryNorm、norm 等评分因子,以便进一步调整文档的分数。这些评分因子可以根据需要进行调整,以实现自定义的排序算法。 Lucene 的排序算法是基于 tf-idf 模型的,通过 tf、idf、...

    lucene3源码分析

    - **其他信息**:例如标准化因子和删除文档信息。 #### 四、Lucene索引过程分析 Lucene的索引过程是一个复杂而有序的操作流程,主要步骤如下: - **1. 创建IndexWriter对象**:初始化索引写入器。 - **2. 创建...

    lucene3.0 lucene3.0

    lucene3.0 lucene3.0 lucene3.0 lucene3.0 lucene3.0

    Lucene查看工具

    在开发过程中,为了更好地理解和调试Lucene索引,开发者通常会使用一些辅助工具,其中之一就是"Lucene可视化工具"。这个工具允许用户直观地查看Lucene索引的结构和内容,包括分词结果、字段信息以及文档详情。 **...

    Lucene 索引图形化界面工具 LukeAll 3.5~4.0

    **Lucene 索引图形化界面工具 LukeAll 3.5~4.0** Lucene 是一个开源的全文搜索引擎库,它提供了强大的文本搜索功能,但其本身的接口设计是命令行或者编程式的,对于非开发人员或者在调试索引时可能会显得不太友好。...

    lucene讲义 叫你用lucene算法

    《教你运用Lucene算法》 Lucene是一款强大的全文搜索引擎库,它提供了丰富的信息检索功能,包括文本分析、索引构建、搜索以及结果排名等。在深入理解Lucene的工作原理时,我们首先要关注的是其核心算法。 一、单个...

    详解SpringBoot+Lucene案例介绍

    在SpringBoot中,我们需要配置Lucene的初始化。我们将创建一个Bean类,用于实例化IndexWriter和IndexSearcher。 IndexWriter用于创建索引,而IndexSearcher用于搜索索引。 在配置中,我们需要注意以下几点: * ...

    lucene-4.7.0全套jar包

    【Lucene 4.7.0 全套JAR包详解】 Lucene是一个开源全文搜索引擎库,由Apache软件基金会开发并维护。它提供了一个高级、灵活的文本搜索API,允许开发者轻松地在应用程序中实现复杂的搜索功能。这次提供的“lucene-...

    lucene包,lucene实现核心代码

    - `Analyzer`:用于分词和标准化文本,如去除停用词、词干提取等。Lucene提供了一些内置的Analyzer,如StandardAnalyzer,也可以自定义Analyzer以适应特定的语言或需求。 - `Document`:表示一个待索引的文档,...

    lucene in action英文版 lucene 3.30包

    《Lucene in Action》是关于Apache Lucene的权威指南,这本书深入浅出地介绍了全文搜索引擎的构建和优化。Lucene是一个高性能、全文本搜索库,它允许开发人员在应用程序中轻松实现复杂的搜索功能。这本书主要面向...

    Lucene 原理与代码分析完整版

    段合并器执行合并存储域、合并标准化因子、合并词向量以及合并词典和倒排表等操作。 此外,Lucene的搜索过程包括对索引的搜索和对查询语句的处理。搜索过程中要对索引进行词法分析、语法分析和语言处理,然后根据...

    基于Lucene的Lucene

    Lucene内置了多种Analyzer,如标准Analyzer、简体中文Analyzer等,可按需求选择。 5. **Query**: 用户输入的搜索条件,通过Analyzer转化为可匹配索引的词项。 6. **Searcher**: 执行查询并返回结果的组件,使用倒...

    lucene所有的jar包

    “my的jar包”通常指的是开发人员自定义的扩展或封装,可能包含了对Lucene原生功能的增强或者针对特定需求的定制化处理。这些jar包可能包含自定义的分析器、查询解析器、过滤器等,是开发者根据实际项目需求进行的二...

    lucene 全包 包括源码

    它包括词项分割、标准化(如去除停用词、词干提取)等步骤。在Lucene 2.3.2中,你可以看到不同的Analyzer实现,如StandardAnalyzer、SimpleAnalyzer等,它们有不同的文本处理策略。 2. 索引(Index):Lucene通过...

    Lucene3.5源码jar包

    本压缩包包含的是Lucene 3.5.0版本的全部源码,对于想要深入理解Lucene工作原理、进行二次开发或者进行搜索引擎相关研究的开发者来说,是一份非常宝贵的学习资源。 Lucene 3.5.0是Lucene的一个重要版本,它在3.x...

    Lucene与关系型数据库对比

    Lucene能够处理任何类型的文本数据,包括Word、Excel、PDF、数据库和HTML文档,只需通过解析转换器将其转换成标准的中间格式(如XML),即可进行数据索引。Lucene还支持对中文检索的支持,通过扩展其语言词法分析...

    Lucene示例 BM25相似度计算

    BM25引入了文档长度正常化的概念,使得长文档不会因为有更多的词项而被误判为更相关。k1参数控制非零词项的增益,而b参数用于平衡IDF得分与文档长度的惩罚。通过调整这两个参数,我们可以微调相似度计算,使其更适合...

Global site tag (gtag.js) - Google Analytics