`

总结一下信息检索效果评价方法

阅读更多

 

1.准确率和覆盖率

覆盖率。

准确率。

平均覆盖率。

平均准确率。

 

精度和召回率

wiki:http://en.wikipedia.org/wiki/Precision_and_recall

 

2.浏览距离

         这个概念最早在张德的博士论文《万维网信息聚类研究》中看到。其目的是为了评价信息检索系统的易用性。

         设有一个信息检索系统,在它对某个查询q返回的结果中,用户必须浏览k个文档后才能看到文档d,则称在此系统中文档d对查询q的浏览距离是browse_distance(d,q)=k,如果与查询q相关的文档集合(用户真正需要的信息)X(q),那么称在此系统中X(q)的浏览距离是browse_distance(X (q ),q) = min{browse_distance(d,q)}d属于X

例如,用户想寻找关于爪哇咖啡的信息。在搜索引擎中查询“Java”,得到的搜索结果大部分都是关于Java程序设计语言的,若第一个关于爪哇咖啡的文档在搜索结果列表中排在第101个,即用户必须浏览到第101个文档时才能找到白己真正需要的信息,则称该搜索

引擎对“爪哇咖啡”相关文档集合的浏览距离是101

对大量用户的查询进行统计可以得到系统的平均浏览距离(average browse distance)

设查询集合为Q,则系统的平均浏览距离

 

average_browse_distance = Σbrowse_distance(X(q), q)/|Q|

 

因为事后聚类能够将相关的文档放在同一个类中,用户就可以跳过不相关的类而直接浏览相关的类中的文档,所以在事后聚类一般能够缩短信息检索系统的平均浏览距离。

 

3. <Learning to Cluster Web Search Results>

         传统的聚类算法很难评估,但在该文中,评估相对简单,因为可以将其定义为评级问题。因此我们可以使用信息检索中经典的评估方法。

         其使用精确率(P)在前N个结果中,来衡量性能:

        

P@N = |CR|/|R|

        

         其中R是其算法返回的前N个显著关键词集合,C是手工标注的正确的显著关键词集合。在其大多数实验中,使用P@5P@10,以及P@20来评估。

 

4.覆盖率和重叠

上文还评测了其算法生成的簇的覆盖。从图中可以看到,平局而言,前10个显著短语的簇包含大约一半的搜索结果。这也许是其提出算法的不足,与传统的聚类算法相比。我可以进一步精炼之,通过设计更精密的簇合并算法。

上文展示了前N个簇的重合。平均,前5个簇的重叠大约是35%。意味着在100个文档中大约有65个不同的文档。前20个簇的重叠大约是60%,意味着在100个文档中大约只有40个不同的文档。

5. Question Utility: A Novel Static Ranking of Question Search

经验评估

         我们的经验评估包含两个实验。一个是评估提出的方法来估计问句有用性。另一个是评估问句有用性作为问句搜索的静态评级的使用。

 

 

 

实验构建

源数据

         我们使用从YahooAnswers得到的问句作为评估所用。更准确的说,我们利用在在YahooAnswers解决了关于travel的问句。这些问句包括310000项左右。每个解决的问句包含3个部分:‘title’表示问句的主要信息,‘description’表示问句增加的细节,以及‘answer’。在我们的实验中,问句参考‘title’部分的文本。我们参考数据集合作为‘SRC-DAT’。

 

问句有用性评估数据

         为了评估我们基于问句有用性的语言模型的性能,我们选择5个城市名称(Los AnglesParisBeijingSeoul,以及Tokyo)作为主题,并构建一个关于这些话题的背景真相,采用以下的步骤。

         首先,10个人被询问无依赖的问题,关于这5个话题。尤其,对每个话题,每个人被要求提供10个问句,是他最可能询问的,当其计划访问这个城市。结果,有100个问句被收集,考虑每个话题。我们把数据集归为SET-A。继而,一个辅佐人被要求手工选择问句,从‘SRC-DAT’,以形成背景真相(以‘SET-B’)表示,通过观察数据集‘SET-A’。一个问句被选择提供,这个问句可以被用于回答‘SET-A’的确定问题的参考。作为基本事实,我们使用‘SET-B’来评估我们的方法,为问句有用性,因为没有‘SET-A’中的问句可以在‘SRC-DAT’中找到。

         我们评估方法的思想很简单:如果一个系统可以更准确的预言问句的一般有用性,有更多的机会,这个问句评级较高,以这个系统,可以覆盖很多问句相关于有用的这个,通过不同个人。

         1提供了静态统计,在背景事实‘SET-B’上。‘#related’参考相关于相应城市的问句的数目,在‘SRC-DAT’中。‘#relevant’参考‘SET-B’中问句的数目。表2分别表明了来自‘SET-A’和‘SET-B’例子。

 

 

 

问句搜索评估数据

         为了评估问句有用性作为问句搜索的静态评级,我们随机选择100个问句从查询日志中,来自于商业搜索引擎的查询日志,继而构建一个在问句搜索上的事实。

         一个查询被选择,仅当它包含超过两个单词,且相关于‘travel’领域。100个查询的平均长度是3.5个单词(去除停用词之后是2.7个单词)。表3表明了几个查询的例子,在我们的实验中。‘Frequency’是在查询日志中香型的查询的出现的次数。

 

 

 

         对每个查询,我们使用语言模型方法【】来搜索相关的问题,从数据集‘SRC-DAT’。继而,两个辅助者被要求手工的决定前200个前关问句的相关性。为两个辅助者不同意的问句,一个附加的注解者被要求提供最终的注解。

 

评估策略

         我们指导两个实验作为评级任务。一个实验评估我们的方法,估定问句用用性,作为一个静态评级任务。一个实验评估问句有用性的使用为搜索,是一个动态(搜索)评级任务。因此,我们使用标准的IR评估策略比如MAPR-Precision,和P@N

 

其他配置

         在实验中,我们采用Porter,并移除停用词,在索引和实时搜索的阶段。作为训练语言模型,我们使用CMU-Cambridge统计语言模型工具。

 

结果

用语言模型估计问句有用性

         对我们的语言模型方法,我们尝试两个变种:(aunigram模型和trigram模型;(b)长度归一化或否。

         以我们的观察,长问句常常询问很个人化的或者不流行的东西,其不能认为有用。因此,我们考虑评级问句的方法(对每个话题)通过问句的反转长度,可以为有竞争的基本方法。

         在实验里,对每个话题(城市名),我们使用我们的方法和基准方法来评级所有的问句,从‘SRC-DAT’相关于此话题。继而,我们使用‘SET-B’来评估结果。

 

 

 

         从表4,我们看到我们的方法基于无论是unigram语言模型还是trigram语言模型,都比基本方法好很多。更进一步,trigram语言模型比unigram语言模型好很多。

 

分享到:
评论

相关推荐

    信息检索方法-PPT

    4. 检索效果评价:通过查准率、查全率、F值等指标评估检索系统的性能。 三、检索技术 1. 分词技术:对输入的查询进行词汇切分,是信息检索的第一步。 2. 同义词处理:扩大检索范围,提高查全率。 3. 布尔运算:AND...

    信息检索评价指标(PDF版课件)

    ### 信息检索评价指标 #### 一、引言与背景 在信息检索领域,评价一个检索系统的性能至关重要。随着互联网的飞速发展,海量的信息每天都在产生,如何从这些信息中快速准确地找到用户所需的内容成为了当今信息技术...

    信息检索基本原理与数据库全文检索技术

    在信息检索过程中,评价指标是衡量检索效果的关键。查全率(Recall)指的是检索出的相关文档数占文档集合中所有相关文档的比例,反映系统能否找到所有相关文档。查准率(Precision)则是检索出的相关文档数占所有检索出...

    信息检索技术、方法及搜索引擎的介绍

    4. 深度学习技术:近年来,基于神经网络的模型如word2vec和BERT被用于改善信息检索的效果,通过理解语义关系提高检索精度。 三、信息检索方法 1. 相关反馈:用户对检索结果的反馈可以调整查询,以提高后续检索的...

    (完整word版)计算机信息检索02139自考资料.doc

    评价检索效果的最主要的指标是查全率和查准率。 查全率是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。查准率是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。 信息...

    信息检索复习题

    2. **信息素质**:信息素质是指个体获取、评估和使用信息的能力,它包括信息意识、信息能力和信息道德三个方面。良好的信息素质有助于人们更有效地利用信息资源解决问题。 3. **连续出版物**:连续出版物主要包括...

    信息时代我国医学信息检索学研究任务.pdf

    最后,【信息服务方式及其效果评价的研究】同样重要。在新的经济社会环境中,信息服务方式的创新与改进是衡量国家和地区现代化水平的标志之一。研究如何提供更高效、个性化的信息服务,以及如何评估这些服务的效果,...

    信息检索与利用 第二讲

    #### 六、检索效果评价 检索效果的评价通常涉及查全率和查准率两个方面: - **查全率**:指检索出的相关信息量占信息库中实际相关信息总量的比例。 - **查准率**:指检索出的相关信息量占检索出的信息总量的比例。...

    中国科学院大学——2020年信息检索导论期末考试试题-final_final期末考试

    根据给定的文件信息,我们可以总结出以下几个关键的知识点: ### 1. 布尔检索的基本原理 ...这些知识点涵盖了信息检索领域的多个方面,包括基本原理、数据结构、评估方法以及具体的数学工具和技术。

    信息与知识获取信息检索和信息抽取实验报告北邮,2021,大三,信息与知识获取,信息检索和信息抽取,实验代码+实验报告.zip

    通过分析这些代码,可以深入理解信息检索和信息抽取的算法实现,例如如何构建索引,如何评估检索效果(如准确率、召回率、F1值),以及如何训练和应用信息抽取模型。 总结,信息检索和信息抽取是信息科学中的关键...

    信息检索与利用试卷.pdf

    《信息检索与利用试卷》...这份试卷旨在考察学生的信息素养,包括理解不同数据库的特点、掌握信息检索技巧、评估检索效果,以及理解学术伦理中的引用规则。这些知识对于在学术研究和工作中有效获取和使用信息至关重要。

    电信设备-一种时间序列关联的信息检索方法.zip

    标题中的“电信设备-一种时间序列关联的信息检索方法”揭示了这个压缩包主要涉及的是电信设备领域的信息检索技术,特别是与时间序列分析相关的。在现代通信系统中,时间序列分析是一种重要的工具,用于理解、预测和...

    基于web of science的高级检索功能优化外文文献检索流程——以主题“水环境模型”为例 .docx

    三、 基于信息检索效果的评价指标验证方法有效性 为评价信息检索的效果,需要对检索结果进行评价和验证。常用的评价指标包括:Precision、Recall、F1-score 等。 四、 总结 本文通过对常见的检索问题的分析和解决...

    文献检索考试常用 试题

    3. **反思与优化**:不断总结文献检索过程中的经验教训,优化检索策略,提高信息获取的效率和效果。 总之,文献检索不仅仅是查找资料的简单行为,它是一门集知识管理、信息处理与分析、研究方法论于一体的综合性...

    文献检索技巧

    无论是对于博士研究生还是经验丰富的学者来说,掌握科学的文献检索与阅读方法能够帮助他们在短时间内获得所需的信息,从而促进学术成果的产出。 #### 二、文献检索技巧 ##### 1. 关键词与主题词检索 - **关键词的...

    信息检索重点.docx

    总结来说,信息检索是应对大数据时代挑战的关键技术,它涵盖了从网页抓取、文本分析、索引构建到查询处理和结果排序等一系列复杂步骤。而网络爬虫和网页分析技术则为信息检索提供了数据来源和处理手段,共同构建了...

    信息检索选择判断题.pdf

    27. **二次检索**:在检索结果中运用布尔运算符进行进一步的限制或扩展,以改进检索效果。 28. **国际连续出版物编号**:ISSN是国际标准连续出版物编号,用于识别各类连续出版物。 29. **检索式构造**:在查找...

    基于电力公司的多格式文档智能信息检索系统的设计与实现.rar

    3. 信息检索算法:结合传统信息检索算法和现代机器学习方法,如LSA、LDA等主题建模,提升检索效果。 4. 性能优化:利用并行计算和分布式存储技术,提高系统处理大规模文档的能力。 四、系统实现与测试 1. 系统...

Global site tag (gtag.js) - Google Analytics