外行人做互联网,很多概念不懂。就拿最基础的“召回率”和“准确率”这种概念,看看网上资料知道大概,自己用的时候,脑子里绕着弯儿能想明白,可碰到别人活用的时候,脑子里还是没法一下子反应过来,还是要绕弯想一下。特地找了些资料,将这两个概念整理一下,希望能更熟练。
召回率和准确率是搜索引擎(或其它检索系统)的设计中很重要的两个概念和指标。
召回率:Recall,又称“查全率”;
准确率:Precision,又称“精度”、“正确率”。
在一个大规模数据集合中检索文档时,可把集合中的所有文档分成四类:
A:检索到的,相关的 (搜到的也想要的)
B:检索到的,但是不相关的 (搜到的但没用的)
C:未检索到的,但却是相关的 (没搜到,然而实际上想要的)
D:未检索到的,也不相关的 (没搜到也没用的)
通常我们希望:数据库中相关的文档,被检索到的越多越好,这是追求“查全率”,即A/(A+C),越大越好。
同时我们还希望:检索到的文档中,相关的越多越好,不相关的越少越好,这是追求“准确率”,即A/(A+B),越大越好。
归纳如下:
召回率:检索到的相关文档 比 库中所有的相关文档
准确率:检索到的相关文档 比 所有被检索到的文档
“召回率”与“准确率”虽然没有必然的关系(从上面公式中可以看到),然而在大规模数据集合中,这两个指标却是相互制约的。
由于“检索策略”并不完美,希望更多相关的文档被检索到时,放宽“检索策略”时,往往也会伴随出现一些不相关的结果,从而使准确率受到影响。
而希望去除检索结果中的不相关文档时,务必要将“检索策略”定的更加严格,这样也会使有一些相关的文档不再能被检索到,从而使召回率受到影响。
凡是设计到大规模数据集合的检索和选取,都涉及到“召回率”和“准确率”这两个指标。而由于两个指标相互制约,我们通常也会根据需要为“检索策略”选择一个合适的度,不能太严格也不能太松,寻求在召回率和准确率中间的一个平衡点。这个平衡点由具体需求决定。
其实,准确率(precision,精度)比较好理解。往往难以迅速反应的是“召回率”。我想这与字面意思也有关系,从“召回”的字面意思不能直接看到其意义。
我觉得“召回率”这个词翻译的不够好。“召回”在中文的意思是:把xx调回来。比如sony电池有问题,厂家召回。
既然说翻译的不好,我们回头看“召回率”对应的英文“recall”,recall除了有上面说到的“order sth to return”的意思之外,还有“remember”的意思。
Recall:the ability to remember sth. that you have learned or sth. that has happened in the past.
这里,recall应该是这个意思,这样就更容易理解“召回率”的意思了。
当我们问检索系统某一件事的所有细节时(输入检索query),Recall就是指:检索系统能“回忆”起那些事的多少细节,通俗来讲就是“回忆的能力”。能回忆起来的细节数 除以 系统知道这件事的所有细节,就是“记忆率”,也就是recall——召回率。
这样想,要容易的多了。
来源:http://uwei.blogbus.com/logs/11424864.html
分享到:
相关推荐
【召回率与准确率解析】 在机器学习和信息检索领域,评估模型性能时经常会用到两个关键指标:准确率和召回率。它们都是用来衡量模型预测结果与真实情况相符程度的指标,但侧重点不同。 **准确率(Accuracy)**: ...
Caffe-SSD的solver.cpp修改后的源码,可输出准确率、召回率和PR曲线值
只考虑Accuracy和AUC的调参方式是错误的;尤其是在不均衡样本时候,必须考虑精确率和召回率,本文采用基于遗传算法思想的调参方式,大概率来获得全局最优解
除了准确率,还有其他一些评价分类模型性能的指标,如精确率(Precision)、召回率(Recall)、F1分数(F1-Score)和查准率(Precision)查全率(Recall)的调和平均数等。在某些场景下,这些指标比准确率更能反映模型的表现,...
【召回率与准确率】召回率是评估粗分模型性能的关键指标,它表示正确识别出的词语占总词语数量的比例。高召回率意味着模型能够找出大部分正确的词语分割,而准确率则是正确分词的数量占所有分词尝试的比例。在实验中...
1.项目基于Python的垃圾短信识别程序,通过 KNN、逻辑回归、随机森林、决策树和 朴素贝叶斯等算法进行融合,实现判别提高准确率,并进行测试和应用。...综合召回率与准确率,两种朴素贝叶斯的结果比较理想。
针对移动网络中用户的移动、数据丢失、用户定位不精确...详细的仿真实验以及与现有的基于距离的移动用户群挖掘算法DMUM的对比表明,该算法不仅具有更少的执行时间,同时有效地提高了移动用户群挖掘的召回率与准确率。
如何从大规模服务集合中快速而准确地发现目标服务是应用Web服务技术的关键。...仿真实验表明,其在召回率与准确率上比基于关键字的匹配算法都有不同程度的改善,且该方法能极大地满足服务执行时动态绑定的特性。
下面就说说怎么计算准确率以及误判率、召回率等指标 1.计算正确率 获取每批次的预判正确个数 train_correct = (pred == batch_y.squeeze(1)).sum() 该语句的意思是 预测的标签与实际标签相等的总数 获取训练集总的...
针对车辆牌照字符这一特殊场景文本的提取,提出一种压缩域文本提取算法,它集文本区域检测、定位、跟踪和字符识别等...实验表明了算法的有效性,召回率与准确率分别可达95%与96.2%,该算法也适用于其他类型文本的提取。
计算常见的分类器衡量指标,包括真阳性,真阴性,假阳性,假阴性,准确率,错误率,特异度和F值
准确率、召回率和F1分数是评估分类模型性能的重要指标。它们从不同的角度反映了模型的预测能力,帮助我们全面理解模型的优缺点。在实际应用中,我们应根据具体问题的需求和数据的特点,选择合适的评估指标。通过计算...
F1分数是准确率和召回率的调和平均数,其公式为2 * (Precision * Recall) / (Precision + Recall),它同时考虑了准确率和召回率,提供了一个均衡的评估标准。 MATLAB代码实现这些度量标准时,通常会涉及以下步骤: ...
准确率和召回率matlab代码SPBL_Pytorch PyTorch实施“用于临床皮肤病识别的自动平衡学习” 安装 该项目基于和。 并且我们在其中添加了不平衡的学习方法,并修改了一些代码以实现兼容性。 要求 Python 3.4以上 ...
准确性是指测试结果与真实情况的吻合程度,而召回率是指测试结果中正确识别的比例。在性能测试中,准确性和召回率的提高是非常重要的,因为它们直接影响测试结果的可靠性和可信度。 机器学习技术在性能测试中的应用...
matplotlib.pyplot绘制决策树的准确率,召回率,ROC,特征重要性-附件资源
召回率和F1分数是评估分类模型性能的重要指标。通过理解和计算这两个指标,我们可以更全面地评估模型的性能,并根据具体的业务需求进行模型优化。在不平衡数据集的情况下,这两个指标尤其重要,因为它们可以帮助我们...
混淆矩阵、准确率、精确率、召回率、F值、ROC曲线、AUC、PR曲线-Sklearn.metrics评估方法 - 简书.mhtml