【Lucene】lucene的评分机制

Tonyguxu

浏览: 283753 次
性别:
来自: 北京

最近访客更多访客>>

greemranqq

1q2w3e4r11q

aaa2672829611

xld800

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2012-06 ( 13)
2012-05 ( 28)
2012-04 ( 20)
更多存档...

博客分类：

【待完成】
【**Search Engine】

测试环境里查询条件1065800714，为什么ScoreDoc.score小于1呢？这个值是怎么算出来的？

输入1065800714*，ScoreDoc.score变成了1

注：在生产环境里大于1而在测试环境里却小于1，生产和测试环境唯一区别是测试环境数据量很小。

ScoreDoc.score——The score of this document for the query.

判断文档之间的关系（即文档相关性）

注：查询语句也可以看成是文档，即查询语句与匹配结果文档之间的关系

要判断文档之间的关系，首先得找出哪些词（Term）对文档之间的关系最重要，然后判断这些词之间的关系

从而得到文档相关性。

step 1.计算词（Term）的权重（Term Weight）

一个词在某文档中的重要性（即权重）越大，则在计算文档之间相关性中作用更大，影响权重主要有两个要素：

a. Term Frequency(tf):此term在此document里出现的次数。出现次数越多，tf越大，说明该词越重要。

b. Document Frequency(df):多少document包含该term。数目越少，df越小（idf越大），说明该词越重要。

step 2.向量空间模型算法（Vector Space Model）计算文档之间的相关性。

fieldWeight是什么？

IndexSearcher中与打分有关的方法

我的需求：只关心查询的term是否存在，对于hit result的score，term的文档频率（df）不影响score。

即计算一个term的权重，根据该term占一个document的tf来计算，忽略上面step 1的b因素。

参考：

http://lucene.apache.org/core/old_versioned_docs/versions/3_4_0/scoring.html

http://lucene.apache.org/core/old_versioned_docs/versions/3_4_0/api/core/org/apache/lucene/search/package-summary.html#changingSimilarity

http://www.gossamer-threads.com/lists/lucene/java-user/39125#39125

http://www.gossamer-threads.com/lists/lucene/java-user/38967#38967

分享到：

WXXR 微内核模式 | 【Python基础】列表和元组

2012-03-07 16:24
浏览 972
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论