`

搜索扫盲系列(一)

 
阅读更多

外行人做互联网,很多概念不懂。就拿最基础的“召回率”和“准确率”这种概念,看看网上资料知道大概,自己用的时候,脑子里绕着弯儿能想明白,可碰到别人活用的时候,脑子里还是没法一下子反应过来,还是要绕弯想一下。特地找了些资料,将这两个概念整理一下,希望能更熟练。 召回率和准确率是搜索引擎(或其它检索系统)的设计中很重要的两个概念和指标。 召回率:Recall,又称“查全率”; 准确率:Precision,又称“精度”、“正确率”。 在一个大规模数据集合中检索文档时,可把集合中的所有文档分成四类: 相关不相关 检索到AB 未检索到CD A:检索到的,相关的 (搜到的也想要的) B:检索到的,但是不相关的 (搜到的但没用的) C:未检索到的,但却是相关的 (没搜到,然而实际上想要的) D:未检索到的,也不相关的 (没搜到也没用的) 通常我们希望:数据库中相关的文档,被检索到的越多越好,这是追求“查全率”,即A/(A+C),越大越好。 同时我们还希望:检索到的文档中,相关的越多越好,不相关的越少越好,这是追求“准确率”,即A/(A+B),越大越好。 归纳如下: 召回率:检索到的相关文档 比 库中所有的相关文档 准确率:检索到的相关文档 比 所有被检索到的文档 “召回率”与“准确率”虽然没有必然的关系(从上面公式中可以看到),然而在大规模数据集合中,这两个指标却是相互制约的。 由于“检索策略”并不完美,希望更多相关的文档被检索到时,放宽“检索策略”时,往往也会伴随出现一些不相关的结果,从而使准确率受到影响。 而希望去除检索结果中的不相关文档时,务必要将“检索策略”定的更加严格,这样也会使有一些相关的文档不再能被检索到,从而使召回率受到影响。 凡是设计到大规模数据集合的检索和选取,都涉及到“召回率”和“准确率”这两个指标。而由于两个指标相互制约,我们通常也会根据需要为“检索策略”选择一个合适的度,不能太严格也不能太松,寻求在召回率和准确率中间的一个平衡点。这个平衡点由具体需求决定。 其实,准确率(precision,精度)比较好理解。往往难以迅速反应的是“召回率”。我想这与字面意思也有关系,从“召回”的字面意思不能直接看到其意义。 我觉得“召回率”这个词翻译的不够好。“召回”在中文的意思是:把xx调回来。比如sony电池有问题,厂家召回。 既然说翻译的不好,我们回头看“召回率”对应的英文“recall”,recall除了有上面说到的“order sth to return”的意思之外,还有“remember”的意思。 Recall:the ability to remember sth. that you have learned or sth. that has happened in the past. 这里,recall应该是这个意思,这样就更容易理解“召回率”的意思了。 当我们问检索系统某一件事的所有细节时(输入检索query),Recall就是指:检索系统能“回忆”起那些事的多少细节,通俗来讲就是“回忆的能力”。能回忆起来的细节数 除以 系统知道这件事的所有细节,就是“记忆率”,也就是recall——召回率。 这样想,要容易的多了。

分享到:
评论

相关推荐

    PCIe扫盲,pcie扫盲系列博文

    总的来说,PCIe扫盲系列涵盖了从物理层的信号传输到高层的中断机制、配置空间管理,再到系统级的性能评估和电源管理。这些知识对于理解PCIe如何在现代计算环境中高效运作,以及如何优化系统性能具有极大的价值。通过...

    PCIe扫盲系列附目录

    文章“PCIe扫盲系列附目录”是对PCIe标准的一个基础介绍,而部分内容主要通过一个Memory Read操作的例子,对PCIe总线的数据传输过程进行了详细说明。 ### PCIe总线的结构 PCIe总线结构主要分为三层:事务层...

    PCIe扫盲,pcie扫盲系列博文源码.zip

    PCIe扫盲系列博文源码可能涵盖了从基础概念到高级特性的讲解,包括但不限于PCIe的物理层设计、链路协商过程、数据包传输机制、中断处理、电源管理以及如何通过软件工具来测试和调试PCIe设备等。源码部分可能包含示例...

    大模型扫盲系列——初识大模型.docx

    大模型扫盲系列——初识大模型.docx

    中国LINUX公社系列丛书第一辑:扫盲行动

    中国LINUX公社系列丛书第一辑:扫盲行动

    PICe扫盲系列,入门学习,浅显易懂

    标题中的"PICe扫盲系列"指的是对PCI Express(通常简称为PCIe)技术的初级讲解,旨在帮助初学者理解这一高速接口标准的基础知识。PCIe是一种通用串行总线,广泛应用于计算机系统中,用于连接各种设备,如显卡、网卡...

    PCIe总线入门知识扫盲

    PCIe(Peripheral Component Interconnect Express)总线是现代计算机中的一种高速接口标准,用于连接各种外部设备,如显卡、网卡、硬盘等。本文将深入浅出地介绍PCIe总线的基础知识,涵盖物理层接口、中断机制、...

    DNS 扫盲实现智能DNS

    当用户输入一个域名时,DNS服务器会通过查询一系列的DNS记录来找到对应的IP地址。这些记录包括A记录(将域名映射到IPv4地址)、AAAA记录(映射到IPv6地址)、CNAME记录(别名)等。然而,传统的DNS解析方式可能无法...

    计算机扫盲知识pdf

    《计算机扫盲知识》PDF文件是一本面向初学者的计算机基础知识教程,旨在帮助读者快速掌握计算机的基本操作和概念。这份资料以轻松、有趣的语言编写,让学习过程不再枯燥,非常适合那些对电脑操作不熟悉的网友阅读。 ...

    hadoop基础知识扫盲

    大数据hadoop基础知识扫盲,初步了解什么是hadoop

    渗透测试 行业术语扫盲.pdf

    渗透测试 行业术语扫盲-来源-公众号-moonsec

    大模型扫盲系列-初识大模型pdf

    大模型是指具有数千万甚至数亿参数的深度学习模型。...为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了大模型这一概念。本文讨论的大模型将以平时指向比较多的大语言模型为例来进行相关介绍.

    网络术语大扫盲.pdf

    网络术语大扫盲.pdf

    NandFlash深度扫盲

    【NAND Flash深度扫盲】 NAND Flash是一种非易失性存储技术,广泛应用于现代电子设备,如手机、固态硬盘、U盘等。它的主要特点是数据存储无需电源维持,且具有较高的存储密度和较低的成本。本文将全面介绍NAND ...

    makefile经典扫盲贴

    Makefile是Linux和Unix系统中用于自动化构建、编译、测试等任务的脚本文件,它的存在极大地提高了开发效率,特别是在大型项目中。...希望这篇扫盲贴能帮助你开启Makefile的学习之旅,让你在Linux开发中更加得心应手。

    java扫盲初级知识

    Java ME 提供了适合于这类设备的一组精简API集合,使其能够在有限的硬件资源下运行Java程序。 ### 开发工具介绍 #### Eclipse Eclipse 是一款非常流行的集成开发环境(IDE),广泛用于Java开发。它可以支持多种编程...

    CMMI快乐之旅-基础知识扫盲

    **CMMI快乐之旅-基础知识扫盲** CMMI(Capability Maturity Model Integration,能力成熟度模型集成)是一种用于组织改进其工程、服务和产品开发过程的框架。它旨在帮助企业在软件开发、系统工程、采购和服务等领域...

    Linux扫盲(初学者的选择)

    ### Linux扫盲(初学者的选择) #### Linux概念扫盲 - **起源与发展**: Linux操作系统首次公开发布是在1991年10月5日。它的发展依托于互联网平台,吸引了全球计算机爱好者的广泛参与,逐渐成为了当今最流行的操作...

    LabWindow sCVI 扫盲技巧贴

    11. **获取系统信息**:LabWindows/CVI 提供了一系列工具箱函数来获取系统信息,如: - `GetWinOSVersion`:获取操作系统版本信息。 - `GetWindowsDirs`:获取 Windows 目录信息。 - `GetDiskSpace`:获取磁盘...

Global site tag (gtag.js) - Google Analytics