`

总结一下信息检索效果评价方法

阅读更多

 

1.准确率和覆盖率

覆盖率。

准确率。

平均覆盖率。

平均准确率。

 

精度和召回率

wiki:http://en.wikipedia.org/wiki/Precision_and_recall

 

2.浏览距离

         这个概念最早在张德的博士论文《万维网信息聚类研究》中看到。其目的是为了评价信息检索系统的易用性。

         设有一个信息检索系统,在它对某个查询q返回的结果中,用户必须浏览k个文档后才能看到文档d,则称在此系统中文档d对查询q的浏览距离是browse_distance(d,q)=k,如果与查询q相关的文档集合(用户真正需要的信息)X(q),那么称在此系统中X(q)的浏览距离是browse_distance(X (q ),q) = min{browse_distance(d,q)}d属于X

例如,用户想寻找关于爪哇咖啡的信息。在搜索引擎中查询“Java”,得到的搜索结果大部分都是关于Java程序设计语言的,若第一个关于爪哇咖啡的文档在搜索结果列表中排在第101个,即用户必须浏览到第101个文档时才能找到白己真正需要的信息,则称该搜索

引擎对“爪哇咖啡”相关文档集合的浏览距离是101

对大量用户的查询进行统计可以得到系统的平均浏览距离(average browse distance)

设查询集合为Q,则系统的平均浏览距离

 

average_browse_distance = Σbrowse_distance(X(q), q)/|Q|

 

因为事后聚类能够将相关的文档放在同一个类中,用户就可以跳过不相关的类而直接浏览相关的类中的文档,所以在事后聚类一般能够缩短信息检索系统的平均浏览距离。

 

3. <Learning to Cluster Web Search Results>

         传统的聚类算法很难评估,但在该文中,评估相对简单,因为可以将其定义为评级问题。因此我们可以使用信息检索中经典的评估方法。

         其使用精确率(P)在前N个结果中,来衡量性能:

        

P@N = |CR|/|R|

        

         其中R是其算法返回的前N个显著关键词集合,C是手工标注的正确的显著关键词集合。在其大多数实验中,使用P@5P@10,以及P@20来评估。

 

4.覆盖率和重叠

上文还评测了其算法生成的簇的覆盖。从图中可以看到,平局而言,前10个显著短语的簇包含大约一半的搜索结果。这也许是其提出算法的不足,与传统的聚类算法相比。我可以进一步精炼之,通过设计更精密的簇合并算法。

上文展示了前N个簇的重合。平均,前5个簇的重叠大约是35%。意味着在100个文档中大约有65个不同的文档。前20个簇的重叠大约是60%,意味着在100个文档中大约只有40个不同的文档。

5. Question Utility: A Novel Static Ranking of Question Search

经验评估

         我们的经验评估包含两个实验。一个是评估提出的方法来估计问句有用性。另一个是评估问句有用性作为问句搜索的静态评级的使用。

 

 

 

实验构建

源数据

         我们使用从YahooAnswers得到的问句作为评估所用。更准确的说,我们利用在在YahooAnswers解决了关于travel的问句。这些问句包括310000项左右。每个解决的问句包含3个部分:‘title’表示问句的主要信息,‘description’表示问句增加的细节,以及‘answer’。在我们的实验中,问句参考‘title’部分的文本。我们参考数据集合作为‘SRC-DAT’。

 

问句有用性评估数据

         为了评估我们基于问句有用性的语言模型的性能,我们选择5个城市名称(Los AnglesParisBeijingSeoul,以及Tokyo)作为主题,并构建一个关于这些话题的背景真相,采用以下的步骤。

         首先,10个人被询问无依赖的问题,关于这5个话题。尤其,对每个话题,每个人被要求提供10个问句,是他最可能询问的,当其计划访问这个城市。结果,有100个问句被收集,考虑每个话题。我们把数据集归为SET-A。继而,一个辅佐人被要求手工选择问句,从‘SRC-DAT’,以形成背景真相(以‘SET-B’)表示,通过观察数据集‘SET-A’。一个问句被选择提供,这个问句可以被用于回答‘SET-A’的确定问题的参考。作为基本事实,我们使用‘SET-B’来评估我们的方法,为问句有用性,因为没有‘SET-A’中的问句可以在‘SRC-DAT’中找到。

         我们评估方法的思想很简单:如果一个系统可以更准确的预言问句的一般有用性,有更多的机会,这个问句评级较高,以这个系统,可以覆盖很多问句相关于有用的这个,通过不同个人。

         1提供了静态统计,在背景事实‘SET-B’上。‘#related’参考相关于相应城市的问句的数目,在‘SRC-DAT’中。‘#relevant’参考‘SET-B’中问句的数目。表2分别表明了来自‘SET-A’和‘SET-B’例子。

 

 

 

问句搜索评估数据

         为了评估问句有用性作为问句搜索的静态评级,我们随机选择100个问句从查询日志中,来自于商业搜索引擎的查询日志,继而构建一个在问句搜索上的事实。

         一个查询被选择,仅当它包含超过两个单词,且相关于‘travel’领域。100个查询的平均长度是3.5个单词(去除停用词之后是2.7个单词)。表3表明了几个查询的例子,在我们的实验中。‘Frequency’是在查询日志中香型的查询的出现的次数。

 

 

 

         对每个查询,我们使用语言模型方法【】来搜索相关的问题,从数据集‘SRC-DAT’。继而,两个辅助者被要求手工的决定前200个前关问句的相关性。为两个辅助者不同意的问句,一个附加的注解者被要求提供最终的注解。

 

评估策略

         我们指导两个实验作为评级任务。一个实验评估我们的方法,估定问句用用性,作为一个静态评级任务。一个实验评估问句有用性的使用为搜索,是一个动态(搜索)评级任务。因此,我们使用标准的IR评估策略比如MAPR-Precision,和P@N

 

其他配置

         在实验中,我们采用Porter,并移除停用词,在索引和实时搜索的阶段。作为训练语言模型,我们使用CMU-Cambridge统计语言模型工具。

 

结果

用语言模型估计问句有用性

         对我们的语言模型方法,我们尝试两个变种:(aunigram模型和trigram模型;(b)长度归一化或否。

         以我们的观察,长问句常常询问很个人化的或者不流行的东西,其不能认为有用。因此,我们考虑评级问句的方法(对每个话题)通过问句的反转长度,可以为有竞争的基本方法。

         在实验里,对每个话题(城市名),我们使用我们的方法和基准方法来评级所有的问句,从‘SRC-DAT’相关于此话题。继而,我们使用‘SET-B’来评估结果。

 

 

 

         从表4,我们看到我们的方法基于无论是unigram语言模型还是trigram语言模型,都比基本方法好很多。更进一步,trigram语言模型比unigram语言模型好很多。

 

分享到:
评论

相关推荐

    信息检索方法-PPT

    4. 检索效果评价:通过查准率、查全率、F值等指标评估检索系统的性能。 三、检索技术 1. 分词技术:对输入的查询进行词汇切分,是信息检索的第一步。 2. 同义词处理:扩大检索范围,提高查全率。 3. 布尔运算:AND...

    信息检索评价指标(PDF版课件)

    ### 信息检索评价指标 #### 一、引言与背景 在信息检索领域,评价一个检索系统的性能至关重要。随着互联网的飞速发展,海量的信息每天都在产生,如何从这些信息中快速准确地找到用户所需的内容成为了当今信息技术...

    信息检索技术基础知识讲义.pptx

    它不仅涵盖了信息检索语言的种类、信息检索技术的分类,还探讨了检索效果的评价方法、检索词的确定原则、信息检索策略的制定以及信息检索步骤的细节。掌握了这些基础知识,无论是专业的信息检索人员还是普通的信息...

    信息检索基本原理与数据库全文检索技术

    在信息检索过程中,评价指标是衡量检索效果的关键。查全率(Recall)指的是检索出的相关文档数占文档集合中所有相关文档的比例,反映系统能否找到所有相关文档。查准率(Precision)则是检索出的相关文档数占所有检索出...

    信息检索技术综述_梁鸿雁

    通过将用户的查询与知识库中的概念进行匹配,系统可以更深入地理解用户的检索意图,从而实现更为智能的检索效果。 尽管如此,现有的信息检索技术仍然面临挑战。例如,如何在保证检索效率的同时提高检索的准确性,...

    信息检索技术、方法及搜索引擎的介绍

    4. 深度学习技术:近年来,基于神经网络的模型如word2vec和BERT被用于改善信息检索的效果,通过理解语义关系提高检索精度。 三、信息检索方法 1. 相关反馈:用户对检索结果的反馈可以调整查询,以提高后续检索的...

    (完整word版)计算机信息检索02139自考资料.doc

    评价检索效果的最主要的指标是查全率和查准率。 查全率是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。查准率是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。 信息...

    信息检索复习题

    2. **信息素质**:信息素质是指个体获取、评估和使用信息的能力,它包括信息意识、信息能力和信息道德三个方面。良好的信息素质有助于人们更有效地利用信息资源解决问题。 3. **连续出版物**:连续出版物主要包括...

    信息检索与利用 第二讲

    #### 六、检索效果评价 检索效果的评价通常涉及查全率和查准率两个方面: - **查全率**:指检索出的相关信息量占信息库中实际相关信息总量的比例。 - **查准率**:指检索出的相关信息量占检索出的信息总量的比例。...

    中国科学院大学——2020年信息检索导论期末考试试题-final_final期末考试

    根据给定的文件信息,我们可以总结出以下几个关键的知识点: ### 1. 布尔检索的基本原理 ...这些知识点涵盖了信息检索领域的多个方面,包括基本原理、数据结构、评估方法以及具体的数学工具和技术。

    信息与知识获取信息检索和信息抽取实验报告北邮,2021,大三,信息与知识获取,信息检索和信息抽取,实验代码+实验报告.zip

    通过分析这些代码,可以深入理解信息检索和信息抽取的算法实现,例如如何构建索引,如何评估检索效果(如准确率、召回率、F1值),以及如何训练和应用信息抽取模型。 总结,信息检索和信息抽取是信息科学中的关键...

    信息时代我国医学信息检索学研究任务.pdf

    最后,信息服务方式及其效果评价的研究,对于提升信息服务质量有着不可或缺的作用。在新的经济社会背景下,传统的一对多的信息服务模式已不能满足用户需求。如何根据用户特点提供个性化服务,如何通过技术创新提高...

    网络信息检索课程11

    总结来说,《网络信息检索课程11》通过系统的理论教学和实践操作相结合,旨在培养学生的网络信息素养,使他们能够成为高效的信息检索者。课程内容不仅涵盖了搜索引擎的基础知识,还包括信息检索策略、资源评估与筛选...

    信息检索与利用试卷.pdf

    《信息检索与利用试卷》...这份试卷旨在考察学生的信息素养,包括理解不同数据库的特点、掌握信息检索技巧、评估检索效果,以及理解学术伦理中的引用规则。这些知识对于在学术研究和工作中有效获取和使用信息至关重要。

    电信设备-一种时间序列关联的信息检索方法.zip

    标题中的“电信设备-一种时间序列关联的信息检索方法”揭示了这个压缩包主要涉及的是电信设备领域的信息检索技术,特别是与时间序列分析相关的。在现代通信系统中,时间序列分析是一种重要的工具,用于理解、预测和...

    基于web of science的高级检索功能优化外文文献检索流程——以主题“水环境模型”为例 .docx

    三、 基于信息检索效果的评价指标验证方法有效性 为评价信息检索的效果,需要对检索结果进行评价和验证。常用的评价指标包括:Precision、Recall、F1-score 等。 四、 总结 本文通过对常见的检索问题的分析和解决...

    文件检索与利用实习报告格式

    检索结果的记录与分析部分,是学生对检索效果进行评估和反思的重要环节。学生需要对检索到的文献进行整理,统计各项指标如检索词的匹配度、文献的相关性和数量等,并通过表格或图表的形式直观展示。这样的展示不仅...

    文献检索考试常用 试题

    3. **反思与优化**:不断总结文献检索过程中的经验教训,优化检索策略,提高信息获取的效率和效果。 总之,文献检索不仅仅是查找资料的简单行为,它是一门集知识管理、信息处理与分析、研究方法论于一体的综合性...

Global site tag (gtag.js) - Google Analytics