总结一下信息检索效果评价方法

summerbell

浏览: 816797 次
性别:
来自: 武汉

最近访客更多访客>>

wangweihuamy

icnd

wyhappiness

玫瑰步道

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

研究技术综合

搜索引擎算法领域模型 D语言 Yahoo

1.准确率和覆盖率

覆盖率。

准确率。

平均覆盖率。

平均准确率。

精度和召回率

wiki：http://en.wikipedia.org/wiki/Precision_and_recall

2.浏览距离

这个概念最早在张德的博士论文《万维网信息聚类研究》中看到。其目的是为了评价信息检索系统的易用性。

设有一个信息检索系统，在它对某个查询q返回的结果中，用户必须浏览k个文档后才能看到文档d，则称在此系统中文档d对查询q的浏览距离是browse_distance(d,q)=k，如果与查询q相关的文档集合(用户真正需要的信息)是X(q)，那么称在此系统中X(q)的浏览距离是browse_distance(X (q ),q) = min{browse_distance(d,q)}，d属于X。

例如，用户想寻找关于爪哇咖啡的信息。在搜索引擎中查询“Java”，得到的搜索结果大部分都是关于Java程序设计语言的，若第一个关于爪哇咖啡的文档在搜索结果列表中排在第101个，即用户必须浏览到第101个文档时才能找到白己真正需要的信息，则称该搜索

引擎对“爪哇咖啡”相关文档集合的浏览距离是101。

对大量用户的查询进行统计可以得到系统的平均浏览距离(average browse distance)。

设查询集合为Q，则系统的平均浏览距离

average_browse_distance = Σbrowse_distance(X(q), q)/|Q|

因为事后聚类能够将相关的文档放在同一个类中，用户就可以跳过不相关的类而直接浏览相关的类中的文档，所以在事后聚类一般能够缩短信息检索系统的平均浏览距离。

3. <Learning to Cluster Web Search Results>

传统的聚类算法很难评估，但在该文中，评估相对简单，因为可以将其定义为评级问题。因此我们可以使用信息检索中经典的评估方法。

其使用精确率(P)在前N个结果中，来衡量性能：

P@N = |C∩R|/|R|

其中R是其算法返回的前N个显著关键词集合，C是手工标注的正确的显著关键词集合。在其大多数实验中，使用P@5，P@10，以及P@20来评估。

4.覆盖率和重叠

上文还评测了其算法生成的簇的覆盖。从图中可以看到，平局而言，前10个显著短语的簇包含大约一半的搜索结果。这也许是其提出算法的不足，与传统的聚类算法相比。我可以进一步精炼之，通过设计更精密的簇合并算法。

上文展示了前N个簇的重合。平均，前5个簇的重叠大约是35%。意味着在100个文档中大约有65个不同的文档。前20个簇的重叠大约是60%，意味着在100个文档中大约只有40个不同的文档。

5. Question Utility: A Novel Static Ranking of Question Search

经验评估

我们的经验评估包含两个实验。一个是评估提出的方法来估计问句有用性。另一个是评估问句有用性作为问句搜索的静态评级的使用。

实验构建

源数据

我们使用从Yahoo！Answers得到的问句作为评估所用。更准确的说，我们利用在在Yahoo！Answers解决了关于travel的问句。这些问句包括310，000项左右。每个解决的问句包含3个部分：‘title’表示问句的主要信息，‘description’表示问句增加的细节，以及‘answer’。在我们的实验中，问句参考‘title’部分的文本。我们参考数据集合作为‘SRC-DAT’。

问句有用性评估数据

为了评估我们基于问句有用性的语言模型的性能，我们选择5个城市名称（Los Angles，Paris，Beijing，Seoul，以及Tokyo）作为主题，并构建一个关于这些话题的背景真相，采用以下的步骤。

首先，10个人被询问无依赖的问题，关于这5个话题。尤其，对每个话题，每个人被要求提供10个问句，是他最可能询问的，当其计划访问这个城市。结果，有100个问句被收集，考虑每个话题。我们把数据集归为SET-A。继而，一个辅佐人被要求手工选择问句，从‘SRC-DAT’，以形成背景真相（以‘SET-B’）表示，通过观察数据集‘SET-A’。一个问句被选择提供，这个问句可以被用于回答‘SET-A’的确定问题的参考。作为基本事实，我们使用‘SET-B’来评估我们的方法，为问句有用性，因为没有‘SET-A’中的问句可以在‘SRC-DAT’中找到。

我们评估方法的思想很简单：如果一个系统可以更准确的预言问句的一般有用性，有更多的机会，这个问句评级较高，以这个系统，可以覆盖很多问句相关于有用的这个，通过不同个人。

表1提供了静态统计，在背景事实‘SET-B’上。‘#related’参考相关于相应城市的问句的数目，在‘SRC-DAT’中。‘#relevant’参考‘SET-B’中问句的数目。表2分别表明了来自‘SET-A’和‘SET-B’例子。

问句搜索评估数据

为了评估问句有用性作为问句搜索的静态评级，我们随机选择100个问句从查询日志中，来自于商业搜索引擎的查询日志，继而构建一个在问句搜索上的事实。

一个查询被选择，仅当它包含超过两个单词，且相关于‘travel’领域。100个查询的平均长度是3.5个单词（去除停用词之后是2.7个单词）。表3表明了几个查询的例子，在我们的实验中。‘Frequency’是在查询日志中香型的查询的出现的次数。

对每个查询，我们使用语言模型方法【】来搜索相关的问题，从数据集‘SRC-DAT’。继而，两个辅助者被要求手工的决定前200个前关问句的相关性。为两个辅助者不同意的问句，一个附加的注解者被要求提供最终的注解。

评估策略

我们指导两个实验作为评级任务。一个实验评估我们的方法，估定问句用用性，作为一个静态评级任务。一个实验评估问句有用性的使用为搜索，是一个动态（搜索）评级任务。因此，我们使用标准的IR评估策略比如MAP，R-Precision，和P@N。

其他配置

在实验中，我们采用Porter，并移除停用词，在索引和实时搜索的阶段。作为训练语言模型，我们使用CMU-Cambridge统计语言模型工具。

结果

用语言模型估计问句有用性

对我们的语言模型方法，我们尝试两个变种：（a）unigram模型和trigram模型；（b）长度归一化或否。

以我们的观察，长问句常常询问很个人化的或者不流行的东西，其不能认为有用。因此，我们考虑评级问句的方法（对每个话题）通过问句的反转长度，可以为有竞争的基本方法。

在实验里，对每个话题（城市名），我们使用我们的方法和基准方法来评级所有的问句，从‘SRC-DAT’相关于此话题。继而，我们使用‘SET-B’来评估结果。

从表4，我们看到我们的方法基于无论是unigram语言模型还是trigram语言模型，都比基本方法好很多。更进一步，trigram语言模型比unigram语言模型好很多。

分享到：

算法问题：什么是P问题、NP问题和NPC问题 ... | 再忍4个月

2009-05-05 16:50
浏览 3867
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论