发表者: 吴军,Google 研究员
[建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。]
世界上不可能有比二进制更简单的计数方法了,也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己如何聪明、多么智能化,其实从根本上讲都没有逃出布尔运算的框框。
布尔(George Boole) 是十九世纪英国一位小学数学老师。他生前没有人认为他是数学家。布尔在工作之余,喜欢阅读数学论著、思考数学问题。1854 年“思维规律”(An Investigation of the Laws of Thought, on which are founded the Mathematical Theories of Logic and Probabilities)一书,第一次向人们展示了如何用数学的方法解决逻辑问题。
布尔代数简单得不能再简单了。运算的元素只有两个1 (TRUE, 真) 和 0
(FALSE,假)。基本的运算只有“与”(AND)、“或” (OR) 和“非”(NOT) 三种(后来发现,这三种运算都可以转换成“与”“非” AND-NOT一种运算)。全部运算只用下列几张真值表就能完全地描述清楚。
AND | 1 0
-----------------------
1 | 1 0
0 | 0 0
这张表说明如果 AND 运算的两个元素有一个是 0,则运算结果总是 0。如果两个元素都是 1,运算结果是 1。例如,“太阳从西边升起”这个判断是假的(0),“水可以流动”这个判断是真的(1),那么,“太阳从西边升起并且水可以流动”就是假的(0)。
OR | 1 0
-----------------------
1 | 1 1
0 | 1 0
这张表说明如果OR运算的两个元素有一个是 1,则运算结果总是 1。如果两个元素都是 0,运算结果是 0。比如说,“张三是比赛第一名”这个结论是假的(0),“李四是比赛第一名”是真的(1),那么“张三或者李四是第一名”就是真的(1)。
NOT |
--------------
1 | 0
0 | 1
这张表说明 NOT 运算把 1 变成 0,把 0 变成 1。比如,如果“象牙是白的”是真的(1),那么“象牙不是白的”必定是假的(0)。
读者也许会问这么简单的理论能解决什么实际问题。布尔同时代的数学家们也有同样的问题。事实上在布尔代数提出后80 多年里,它确实没有什么像样的应用,直到 1938 年香农在他的硕士论文中指出用布尔代数来实现开关电路,才使得布尔代数成为数字电路的基础。所有的数学和逻辑运算,加、减、乘、除、乘方、开方等等,全部能转换成二值的布尔运算。
现在我们看看文献检索和布尔运算的关系。对于一个用户输入的关键词,搜索引擎要判断每篇文献是否含有这个关键词,如果一篇文献含有它,我们相应地给这篇文献一个逻辑值 -- 真(TRUE,或 1),否则,给一个逻辑值 -- 假(FALSE, 或0)。比如我们要找有关原子能应用的文献,但并不想知道如何造YZD。我们可以这样写一个查询语句“原子能 AND 应用 AND (NOT YZD)”,表示符合要求的文献必须同时满足三个条件:
- 包含原子能
- 包含应用
- 不包含YZD
一篇文献对于上面每一个条件,都有一个 True 或者 False 的答案,根据上述真值表就能算出每篇文献是否是要找的。
早期的文献检索查询系统大多基于数据库,严格要求查询语句符合布尔运算。今天的搜索引擎相比之下要聪明的多,它自动把用户的查询语句转换成布尔运算的算式。当然在查询时,不能将每篇文献扫描一遍,来看看它是否满足上面三个条件,因此需要建立一个索引。
最简单索引的结构是用一个很长的二进制数表示一个关键字是否出现在每篇文献中。有多少篇文献,就有多少位数,每一位对应一篇文献,1 代表相应的文献有这个关键字,0 代表没有。比如关键字“原子能”对应的二进制数是0100100001100001...,表示第二、第五、第九、第十、第十六篇文献包含着个关键字。注意,这个二进制数非常之长。同样,我们假定“应用”对应的二进制数是 0010100110000001...。那么要找到同时包含“原子能”和“应用”的文献时,只要将这两个二进制数进行布尔运算 AND。根据上面的真值表,我们知道运算结果是0000100000000001...。表示第五篇,第十六篇文献满足要求。
注意,计算机作布尔运算是非常非常快的。现在最便宜的微机都可以一次进行三十二位布尔运算,一秒钟进行十亿次以上。当然,由于这些二进制数中绝大部分位数都是零,我们只需要记录那些等于1的位数即可。于是,搜索引擎的索引就变成了一张大表:表的每一行对应一个关键词,而每一个关键词后面跟着一组数字,是包含该关键词的文献序号。
对于互联网的搜索引擎来讲,每一个网页就是一个文献。互联网的网页数量是巨大的,网络中所用的词也非常非常多。因此这个索引是巨大的,在万亿字节这个量级。早期的搜索引擎(比如 Alta Vista 以前的所有搜索引擎),由于受计算机速度和容量的限制,只能对重要的关键的主题词建立索引。至今很多学术杂志还要求作者提供 3-5 个关键词。这样所有不常见的词和太常见的虚词就找不到了。现在,为了保证对任何搜索都能提供相关的网页,所有的搜索引擎都是对所有的词进行索引。为了网页排名方便,索引中还需存有大量附加信息,诸如每个词出现的位置、次数等等。因此,整个索引就变得非常之大,以至于不可能用一台计算机存下。大家普遍的做法就是根据网页的序号将索引分成很多份(Shards),分别存储在不同的服务器中。每当接受一个查询时,这个查询就被分送到许许多多服务器中,这些服务器同时并行处理用户请求,并把结果送到主服务器进行合并处理,最后将结果返回给用户。
不管索引如何复杂,查找的基本操作仍然是布尔运算。布尔运算把逻辑和数学联系起来了。它的最大好处是容易实现,速度快,这对于海量的信息查找是至关重要的。它的不足是只能给出是与否的判断,而不能给出量化的度量。因此,所有搜索引擎在内部检索完毕后,都要对符合要求的网页根据相关性排序,然后才返回给用户。
分享到:
相关推荐
通过本教案,学生将掌握布尔代数和数字逻辑的基本概念和应用,能够设计和分析简单的数字逻辑电路。 本教案是计算机组成原理课程的重要组成部分,对学生学习计算机组成原理和数字逻辑电路设计有重要的参考价值。 ...
又叫晶体点阵理论。在数学中,格是其非空有限子集都有一个上确界(叫并)和一个下确界(叫交)的偏序集合(poset)。...半格包括了格,依次包括海廷代数和布尔代数。这些"格样式"的结构都允许序理论和抽象代数的描述。
数字运算是由二进制数制系统完成的,而在二进制系统中变量 X的值只能...本章将 采用1 9世纪英国数学家乔治・布尔发展起来的开关代数来研究二进制数的行为。 此数学分支 包含在布尔代数的理论中,它是现代逻辑设计的基础
布尔代数 古德斯坦因
布尔代数和机器语言是计算机科学的基石,这两者的发展紧密相连,共同推动了编程语言的进步。布尔代数,由乔治·布尔在19世纪创立,通过将逻辑运算转化为代数形式,为现代计算机科学提供了理论基础。逻辑运算符如AND...
逻辑计算器
因此,对量子逻辑中基本代数结构的研究,如效应代数和布尔代数的关系,为量子计算机的设计和实现提供了理论基础。 关键词效应代数、布尔代数、Well Inside关系是本文的主要概念。文章的结论是,通过中心元和Well ...
在数字系统的设计中,布尔代数的化简方法能够帮助我们有效地分析和优化逻辑电路,提高系统的效率。 3.1 基本公式和法则 布尔代数的基本公式包括分配律、吸收律、求反律和多余项定律。这些公式是布尔代数运算的基础...
布尔代数和数字逻辑是计算机科学的基础,它们在计算机组成原理中扮演着至关重要的角色。布尔代数,由19世纪的英国数学家乔治·布尔创立,是一种处理二值变量的逻辑数学,常用于描述和简化电子电路的逻辑功能。在...
根据给定文件的信息,我们可以提炼出以下几个重要的知识点: ...以上内容覆盖了离散数学中的核心概念,包括布尔代数、集合论的基础知识以及相关的运算和定律,这些都是计算机科学中不可或缺的基础知识。
搜索引擎技术分为两种主要的索引方法:手工索引和自动索引。 手工索引是一种早期的索引方法,通常在搜索引擎发展初期使用。这种方法依赖于人工对网页进行浏览、理解和分类,然后将这些信息组织成索引。虽然手工索引...
布尔bool是WIP布尔代数计算器和证明助手。 目前,它可以列出和等于公式的真值表,并应用一些布尔代数定理来操纵这些公式。目标最终目标是拥有一个命令行实用程序或解析器,它可以检查和显示布尔公式的减少量。 这样...
布尔代数有称逻辑代数,在图形图像中有着广泛的应用 本文用通俗易懂的语言,介绍了布尔代数在此领域的简单应用
【数学之美系列】是由Google研究员吴军撰写的一系列文章,主要探讨了数学在信息处理、自然语言处理(NLP)和搜索引擎技术中的应用。该系列文章涵盖了多个关键知识点,包括统计语言模型、中文分词、隐含马尔可夫模型...
离散数学中的第六章主要探讨了格和布尔代数这两个重要的概念。首先,我们来了解一下偏序集。 偏序集是具有部分顺序关系的集合,其中的元素并不一定可以互相比较。偏序关系满足自反性(对于任意元素a,有a ≤ a),...
布尔代数,也称为布尔运算或逻辑代数,是由英国数学家乔治·布尔在19世纪中期创立的一门数学分支,它主要研究集合的逻辑运算。在计算机科学中,布尔代数扮演着至关重要的角色,因为它是数字电路设计、编程语言、数据...
搜索引擎作为互联网的重要组成部分,其工作流程大致可以分为五个主要阶段:爬虫、索引、预处理、查询处理和排序。首先,爬虫负责自动遍历互联网上的网页,通过跟踪链接发现新的页面,将这些页面抓取到搜索引擎的...
离散数学格与布尔代数PPT课件.pptx
搜索引擎的索引技术是构建高效检索系统的关键组成部分。在标题为"搜索引擎的索引技术:INDEX TECHNIQUES"的课程中,主要讨论了搜索引擎如何处理海量数据,以快速响应用户的查询需求。这一主题涵盖了从文档收集、信息...