有关Lucene的问题(3): 向量空间模型与Lucene的打分机制 -

forfuture1978

浏览: 423453 次
性别:
来自: 北京

最近访客更多访客>>

mushroom12

背着家走

DYM_NEVER

Not_Sky

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

有关Lucene的问题(3): 向量空间模型与Lucene的打分机制

博客分类：

有关Lucene的问题

lucene J#F#

问题：

在你的文章中提到了：

于是我们把所有此文档中词(term)的权重(term weight) 看作一个向量。

Document = {term1, term2, …… ,term N}

Document Vector = {weight1, weight2, …… ,weight N}

同样我们把查询语句看作一个简单的文档，也用向量来表示。

Query = {term1, term 2, …… , term N}

Query Vector = {weight1, weight2, …… , weight N}

于是我们把所有此文档中词(term)的权重(term weight) 看作一个向量。Document = {term1, term2, …… ,term N}Document Vector = {weight1, weight2, …… ,weight N}同样我们把查询语句看作一个简单的文档，也用向量来表示。 Query = {term1, term 2, …… , term N}Query Vector = {weight1, weight2, …… , weight N}

其中查询语句的term的权重如何定义的呢？

在这里，既然要放到相同的向量空间，自然维数是相同的，不同时，取二者的并集，如果不含某个词(Term)时，则权重(Term Weight)为0。

为什么要取二者的并集，直接用查询语句向量的维度应该就可以吧，毕竟其他的字段也没有实际的用途哈，我是这么想的，不知道行得通不？

回答：

对于第一个问题，文章中既然说，查询语句也看成一个很短很短的文档，则按理论来讲，term的权重也是应用tf * idf进行计算的。

但是由于query语句是一个特殊的文档，首先对于tf来讲，一般来说不会有人在查询中将一个词输入两次，因而tf一般认为是1

而对于idf，是包含此term的文档总数，本应该包括query语句这篇很短的文档，但当文档数量达到一定的数目的时候，这一篇对分数的影响也可忽略不计，因而idf为索引中包含此term的文档总数。

所以对于score计算公式的分子部分来讲：

设query向量为:<q(i), q(j)>，而document的向量<d(1), .. , d(i), .. , d(j), .., d(n)>，两者取点积后为q(i)*d(i) + q(j)*d(j)，其他项都是0.

到这里似乎看起来，和你感觉的一样，向量空间是n维同向量空间是2维是一样的。

这里说一些题外话，有利于理解lucene score的公式的由来和推理：

将其分解为df*idf后为，tf(i in q)*idf(i in q) * tf(i in d) * idf(i in d) + tf(j in q) * idf(j in q) * tf(j in d) * idf(j in d)

由上面的分析我们知道，对于query，tf为1，所以tf(i in q) = tf(j in q) = 1，而idf对query和document都是一样的，都是不计算query这个短文档的数目的，因而idf(i in q) = idf(i in d)，idf(j in q) = idf(j in d)，

于是上面的公式变成，tf(i in d)*idf(i)^2 + tf(j in d)* idf(j)^2，这就是为什么Lucene的score计算公式里有tf乘以idf平方的样子:

score(q,d) = coord(q,d) · queryNorm(q) · ∑( tf(t in d) · idf(t)² · t.getBoost() · norm(t,d) )

t in q

然而在score的计算部分，除了分子部分，还有分母部分，也即两个向量都要除以自己的长度，从这个角度来讲，向量空间是n维和2维算出来的向量长度差别就很大了，所以必须要取两者的并集。

那么为什么要除以向量的长度呢？在这里叫做归一化处理。因为在索引中，不同的文档长度不一样，很显然，对于任意一个term，在长的文档中的tf要大的多，因而分数也越高，这样对小的文档不公平，举一个极端的例子，在一篇1000万个词的鸿篇巨著中，"lucene"这个词出现了11次，而在一篇12个词的短小文档中，"lucene"这个词出现了10次，如果不考虑长度在内，当然鸿篇巨著应该分数更高，然而显然这篇小文档才是真正关注"lucene"的。

在Lucene的score公式中，query语句长度的归一化是在queryNorm中体现的：

queryNorm(q) = queryNorm(sumOfSquaredWeights) = 1/sumOfSquaredWeights^½

sumOfSquaredWeights = q.getBoost() ² · ∑( idf(t) · t.getBoost() ) ²

t in q

除了boost之外，queryNorm = 1/sqrt(q(i) ^ 2 + q(j) ^2)，而q(x) = df(x) * idf(x)，对于query来讲，df(x) = 1，因而queryNorm成了查询词的idf值的平方和的开方后的值分之一。

document的长度归一化是在 norm(t,d)中体现的：

norm(t,d) = doc.getBoost() · lengthNorm(field) · ∏ f.getBoost()

field f in d named as t

其中文档的boost和field的boost在nrm文件中的一节已经讲过，表示某篇文章的某个域可能更重要一些，也可能更不重要一些。

而lengthNorm(field)正是文档长度的归一化的体现。

默认的DefaultSimilarity的实现中，lengthNorm如下计算：

public float lengthNorm(String fieldName, int numTerms) {
return (float)(1.0 / Math.sqrt(numTerms));
}

我们会发现，lengthNorm的计算并不是按照经典理论，是向量长度分之一，而是文档长度开方分之一，也即忽略了每个term的权重，认为每个term的权重都是1，方才能够得出上述的公式。Lucene之所以这样做可能主要考虑两点：

首先，不想完全抛弃文件长度的影响，否则又对长文档不公平，毕竟它是包含了更多的信息。我们可以简单的做个试验可以得知，即便是现在这个公式，lucene还是偏向于首先返回短小的文档的，这样在实际应用中使得搜索结果很难看。
其次，此接口是开放出来，在Similarity中的，用户可以根据自己应用的需要，改写lengthNorm的计算公式。比如我想做一个经济学论文的搜索系统，经过一定时间的调研，发现大多数的经济学论文的长度在8000到10000词，因而lengthNorm的公式应该是一个倒抛物线型的，8000到10000词的论文分数最高，更短或更长的分数都应该偏低，方能够返回给用户最好的数据。

分享到：

有关Lucene的问题(4):影响Lucene对文档打分 ... | 有关Lucene的问题(2):stemming和lemmatizat ...

2010-02-06 12:44
浏览 6963
评论(4)
分类:编程语言
查看更多

4 楼 ybjz 2013-08-06

3 楼 eyesmore 2011-09-15

我也有同样的问题没想当有人问了我还没看懂你的解释的推导不过我相信你解析应该是对的呵呵有时间仔细研究下

写得真不错赞！

2 楼 zlx19900228 2011-05-19

您好，目前在看您的lucene原理与代码分析，看到27页，对于您列举的例子中那11个term在query中的权重值怎么计算出来的非常迷惑，按照公司，这个权重应该是不可能为0的啊？还望能不吝解惑，感激不尽

1 楼 rmn190 2011-01-09

正在看您的PDF文档，对Query Vector = {weight1, weight2, …… , weight N}的理解有些问题，找到这里了，发现了"tf * idf"，茅塞顿开，多谢楼主精彩的分析！

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

有关Lucene的问题(3): 向量空间模型与Lucene的打分机制

问题：

回答：

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

有关Lucene的问题(3): 向量空间模型与Lucene的打分机制

问题：

回答：

评论

发表评论

相关推荐

有关Lucene的问题(8)：用Lucene构建实时索引的文档更新问题

有关Lucene的问题(7)：用Lucene构建实时的索引

有关Lucene的问题(6)：Lucene的事务性

有关Lucene的问题(5)：Lucene中的TooManyClause异常

有关Lucene的问题(4):影响Lucene对文档打分的四种方式

有关Lucene的问题(2):stemming和lemmatization

有关Lucene的问题(1):为什么能搜的到“中华 AND 共和国”却搜不到“中华共和国”?

最近访客更多访客>>