文章来自:http://googlechinablog.com/2006/05/blog-post_10.html
世界上不可能有比二进制更简单的计数方法了,也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都宣称自己如何聪明、多么智能化,其实从根本上讲都没有逃出布尔运算的框框。
布尔(George Boole) 是十九世纪英国一位小学数学老师。他生前没有人认为他是数学家。布尔在工作之余,喜欢阅读数学论著、思考数学问题。1854 年“思维规律”(An Investigation of the Laws of Thought, on which are founded the Mathematical Theories of Logic and Probabilities)一书,第一次向人们展示了如何用数学的方法解决逻辑问题。
布尔代数简单得不能再简单了。运算的元素只有两个1 (TRUE, 真) 和 0
(FALSE,假)。基本的运算只有“与”(AND)、“或” (OR) 和“非”(NOT) 三种(后来发现,这三种运算都可以转换成“与”“非” AND-NOT一种运算)。全部运算只用下列几张真值表就能完全地描述清楚。
AND | 1 0
-----------------------
1 | 1 0
0 | 0 0
这张表说明如果 AND 运算的两个元素有一个是 0,则运算结果总是 0。如果两个元素都是 1,运算结果是 1。例如,“太阳从西边升起”这个判断是假的(0),“水可以流动”这个判断是真的(1),那么,“太阳从西边升起并且水可以流动”就是假的(0)。
OR | 1 0
-----------------------
1 | 1 1
0 | 1 0
这张表说明如果OR运算的两个元素有一个是 1,则运算结果总是 1。如果两个元素都是 0,运算结果是 0。比如说,“张三是比赛第一名”这个结论是假的(0),“李四是比赛第一名”是真的(1),那么“张三或者李四是第一名”就是真的(1)。
NOT |
--------------
1 | 0
0 | 1
这张表说明 NOT 运算把 1 变成 0,把 0 变成 1。比如,如果“象牙是白的”是真的(1),那么“象牙不是白的”必定是假的(0)。
读者也许会问这么简单的理论能解决什么实际问题。布尔同时代的数学家们也有同样的问题。事实上在布尔代数提出后80 多年里,它确实没有什么像样的应用,直到 1938 年香农在他的硕士论文中指出用布尔代数来实现开关电路,才使得布尔代数成为数字电路的基础。所有的数学和逻辑运算,加、减、乘、除、乘方、开方等等,全部能转换成二值的布尔运算。
现在我们看看文献检索和布尔运算的关系。对于一个用户输入的关键词,搜索引擎要判断每篇文献是否含有这个关键词,如果一篇文献含有它,我们相应地给这篇文献一个逻辑值 -- 真(TRUE,或 1),否则,给一个逻辑值 -- 假(FALSE, 或0)。比如我们要找有关原子能应用的文献,但并不想知道如何造xxx。我们可以这样写一个查询语句“原子能 AND 应用 AND (NOT xxx)”,表示符合要求的文献必须同时满足三个条件:
- 包含原子能
- 包含应用
- 不包含原子弹
一篇文献对于上面每一个条件,都有一个 True 或者 False 的答案,根据上述真值表就能算出每篇文献是否是要找的。
早期的文献检索查询系统大多基于数据库,严格要求查询语句符合布尔运算。今天的搜索引擎相比之下要聪明的多,它自动把用户的查询语句转换成布尔运算的算式。当然在查询时,不能将每篇文献扫描一遍,来看看它是否满足上面三个条件,因此需要建立一个索引。
最简单索引的结构是用一个很长的二进制数表示一个关键字是否出现在每篇文献中。有多少篇文献,就有多少位数,每一位对应一篇文献,1 代表相应的文献有这个关键字,0 代表没有。比如关键字“原子能”对应的二进制数是0100100001100001...,表示第二、第五、第九、第十、第十六篇文献包含着个关键字。注意,这个二进制数非常之长。同样,我们假定“应用”对应的二进制数是 0010100110000001...。那么要找到同时包含“原子能”和“应用”的文献时,只要将这两个二进制数进行布尔运算 AND。根据上面的真值表,我们知道运算结果是0000100000000001...。表示第五篇,第十六篇文献满足要求。
注意,计算机作布尔运算是非常非常快的。现在最便宜的微机都可以一次进行三十二位布尔运算,一秒钟进行十亿次以上。当然,由于这些二进制数中绝大部分位数都是零,我们只需要记录那些等于1的位数即可。于是,搜索引擎的索引就变成了一张大表:表的每一行对应一个关键词,而每一个关键词后面跟着一组数字,是包含该关键词的文献序号。
对于互联网的搜索引擎来讲,每一个网页就是一个文献。互联网的网页数量是巨大的,网络中所用的词也非常非常多。因此这个索引是巨大的,在万亿字节这个量级。早期的搜索引擎(比如 Alta Vista 以前的所有搜索引擎),由于受计算机速度和容量的限制,只能对重要的关键的主题词建立索引。至今很多学术杂志还要求作者提供 3-5 个关键词。这样所有不常见的词和太常见的虚词就找不到了。现在,为了保证对任何搜索都能提供相关的网页,所有的搜索引擎都是对所有的词进行索引。为了网页排名方便,索引中还需存有大量附加信息,诸如每个词出现的位置、次数等等。因此,整个索引就变得非常之大,以至于不可能用一台计算机存下。大家普遍的做法就是根据网页的序号将索引分成很多份(Shards),分别存储在不同的服务器中。每当接受一个查询时,这个查询就被分送到许许多多服务器中,这些服务器同时并行处理用户请求,并把结果送到主服务器进行合并处理,最后将结果返回给用户。
不管索引如何复杂,查找的基本操作仍然是布尔运算。布尔运算把逻辑和数学联系起来了。它的最大好处是容易实现,速度快,这对于海量的信息查找是至关重要的。它的不足是只能给出是与否的判断,而不能给出量化的度量。因此,所有搜索引擎在内部检索完毕后,都要对符合要求的网页根据相关性排序,然后才返回给用户。
分享到:
相关推荐
5. **布尔代数**:布尔代数是搜索引擎索引的基础,通过逻辑运算符(AND、OR、NOT)组合关键词来构建查询。 6. **图论与网络爬虫**:图论在理解互联网结构、设计爬虫策略以及链接分析中扮演关键角色。 7. **信息论...
#### 知识点五:布尔代数与搜索引擎索引 布尔代数是一套逻辑操作规则,包括交集、并集、补集等,是构建搜索引擎索引的基础。通过布尔代数,搜索引擎能够高效地组织和检索信息,实现精准匹配用户查询需求。布尔代数...
#### 布尔代数和搜索引擎的索引 布尔代数是一种逻辑代数,用于处理逻辑命题的真伪性。在搜索引擎技术中,布尔代数被用来构建查询表达式,以便用户能够精确地指定他们想要搜索的内容。通过使用布尔运算符(如AND、OR...
- **基础知识**:建议具备基本的布尔代数知识,如“与”、“或”、“非”等逻辑操作。 - **阅读指南**: - 对初学者:建议从头到尾完整阅读。 - 对有一定经验的读者:可以根据需求选择性阅读。 - **额外资源**:...
【数学之美系列】是由Google研究员吴军撰写的一系列文章,主要探讨了数学在信息处理、自然语言处理(NLP)和搜索引擎技术中的应用。该系列文章涵盖了多个关键知识点,包括统计语言模型、中文分词、隐含马尔可夫模型...
搜索引擎的结构与原理可以分为四个部分:收集器、索引器、检索器和用户接口。并行信息检索的原理是基于并行处理技术,可以采取任务并行、数据并行和混合方式的策略。 数据挖掘是信息检索的一种重要技术,可以自动...
索引原理:布尔代数和搜索引擎的索引 MySQL索引背后的数据结构和算法原理 4.1.2 NoSQL 集群环境下关系型数据库扩展性的问题 数据模型与存储模型的矛盾 NoSQL的来源、主要特征和适用场景 4.1.3分布式文件系统 ...
搜索引擎的结构与原理是信息检索中的一种重要组成部分,包括收集器、索引器、检索器和用户接口四个部分。每个部分都扮演着重要的角色,共同作用于实现搜索引擎的目标。 并行信息检索是信息检索中的一种技术,旨在...
适用于搜索引擎工程师、研究人员以及对计算机科学感兴趣的爱好者。该书覆盖了从基本概念到高级技术的多个层面,对于理解和构建高效的信息检索系统具有重要的指导意义。 #### 二、基本信息检索模型 **布尔检索**是...
22. 搜索工具:搜索引擎是互联网上用于查找信息的工具。 23. 条件表达式:正确表示“两个整型变量A和B之一为0,但不能同时为0”的布尔表达式是 `A*B=0 AND (A=0 OR B=0)`。 24. 发送电子邮件:邮件发送后由邮件...
7. **MapInfo Routing JServer**:在Java环境中开发的路径搜索引擎,支持在Web应用、企业内部网或客户端/服务器环境中创建路径搜索应用。 #### 三、MapInfo Professional核心功能 MapInfo Professional提供了丰富...