信息检索这个词的含义非常广。仅从钱包中取出信用卡,然后输入信用卡号也属于信息检索的范畴。然而,从学术角度来讲,信息检索定义如下:
信息检索即从大量非结构化文档集中找到满足需要的文档的过程。
按照如上定义,信息检索曾经是仅少数人如图书管理员,律师,专业搜索者参与的活动。而今非昔比,当今成千上万的人每天都会用搜索引擎搜索网页和邮件。信息检索正迅速取代传统的数据库搜索的方式,成为信息获取的主要方式。除此之外,信息检索技术还可以解决其他有关数据和信息的问题。所谓非结构化数据,指的是没有清晰的可被计算机理解的语义结构的数据。与之相对的是结构化数据,例如传统的关系型数据库,被很多公司用来保存产品库存及员工信息。现实世界中,几乎没有数据是完全没有结构的,尤其把人类语言的潜在语义结构考虑在内的情况下。即便认为只有刻意标注的结构才属于结构化的,大多数文档都有标题,正文,下标等结构,且在文档中被显式标注的。信息检索技术还可以进行半结构化搜索,如寻找标题含有Java,正文中含有threading的文档。
信息检索领域还包括帮助用户浏览,过滤文档集,以及对检索结果进行再处理。
聚类,即给定一文档集,根据它们的内容将文档分组的过程。类似根据主题将书籍分放到不同的书架上。
分类,即给定一些类别及一组文档,判断每篇文档属于哪个类别的过程。通常此过程首先人工将一部分文档进行分类,以期新的文档可以自动判断所属的类别。
信息检索系统可以根据规模分成以下三大类:
互联网搜索(Web Search):系统的搜索对象是存储在数百万计算机上的数十亿的文档。互联网搜索系统所面临的主要问题是如何获取要索引的文档,如何高效处理大容量的数据,以及如何应对互联网特有的问题,例如跟踪挖掘超链接,防止站点欺骗(鉴于互联网的商业价值,有的站点会修改网页内容从而获得更高排名)。
个人信息检索(personal information retrieval):近年来,个人电脑操作系统开始集成信息检索系统。邮件系统通常不仅仅提供搜索功能,而且提供文本分类功能,即其至少提供垃圾邮件过滤器,也一般会提供自动或者手动的分类器,使得不同的邮件被放入不同的文件夹中。此类系统所面临的主要问题包括如何处理个人计算机上多种多样的文档类型,系统可免费维护,在启动,处理及磁盘使用方面足够的轻量级,不妨碍用户正常使用。
企业级搜索(enterprise search):主要是针对公司内部文档,专利数据库及研究论文进行检索。此种情况下,文档往往是集中存储在统一的文件系统上,一台或多台专用电脑复杂对它们进行检索。
本书讲述的技术涵盖了以上所有的范畴。然而对于互联网搜索系统中的并行及分布式检索的等方面相对涉及较少,因为有关此方面的论文也相对较少。然而除了几家互联网搜索的公司外,大多数程序员更多可能接触的是个人信息检索系统和企业级搜索系统。
本章,我们从一个简单的信息检索问题入手,介绍词条(term)-文档(document)矩阵的概念,以及最重要的倒排表数据结构。然后我们介绍布尔检索模型及如何处理布尔查询。
一个简单的信息检索问题
相信很多朋友都有莎士比亚全集这本砖头书。假设你想找出莎士比亚的那部歌剧包含Brutus和Caesar,但不包含Calpurnia。一种方式是,从头至尾阅读整本书,依次找出那些包含Brutus和Caesar,但不包含Calpurnia的歌剧。这是文档检索最简单的方式,称为顺序扫描法。这个过程常被称为grep,正如Unix命令所作的一样。顺序扫描法可以十分有效,尤其在现代计算机高处理速度的情况下,而且还常常允许使用通配符。对于如莎士比亚全集这种小于百万字的文本集时,现代计算机的速度已经足够慢速此类简单的查询,我们别无所求。
然而某些情况下,并非如此:
1. 迅速处理大量文档集。互联网上的数据量的增长速度已经超过计算机的处理速度,而我们期望能够搜索包含数十亿甚至数万亿字的文档集。
2. 支持更加灵活的查询方法。例如,用grep查找Romans NEAR countrymen是不可能的,此处NEAR表示在五个字内或者在一句话内。
3. 允许对检索结果进行排名。多数情况下,你想要的是包含特定词的文档中最好的,最能满足搜索需要的那一篇。
代替顺序扫描的一种方法是事先对文档建索引。让我们仍以莎士比亚全集为例,来介绍布尔检索模型的基本概念。假如我们记录下每篇文档(此处为莎士比亚的一部歌剧)是否包含每个莎士比亚用过的词(莎士比亚总共用了32000个词)。结果是我们得到了一个二进制的词条(term)-文档(document)的索引矩阵。词条(term)是索引的基本单位,其多数情况下是单词,至少现在你可以这样认为,然而有的词却不仅仅是单词,如I-9或者Hong Kong,所以在信息检索领域,我们称之为词条(term)。当我们按行来看这个矩阵的时候,我们会得到一个向量,表示每个词条在那些文档中出现过。当我们按列来看这个矩阵的时候,我们会得到一个向量,表示都有哪些词在此文档中出现过。
为得到Brutus AND Caesar AND NOT Calpurnia的查询结果,我们首先得到Brutus,Caesar和Calpurnia的向量,对最后一个向量取反,然后对三个向量进行二进制与运算(AND):
110100 AND 110111 AND 101111 = 100100
最后我们得到满足条件的两个歌剧,“Antony and Cleopatra”及“Hamlet”。
布尔检索模式即将词按照布尔表达式的方式用and, or not连接起来组成查询语句,并将每篇文档看成一系列词的集合。
现在,让我们考虑一个更加实际的情形,并同时利用此机会介绍一些名词和符号。假设我们有N=1M的文档,此处所谓文档(Document)即任何我们构建信息检索系统的一个单位,可以使一篇备忘录,也可以是一本书中的一章或几章。所谓的文档集(collection)即我们要进行检索的一组文档,有时又被称为语料库(corpus)。假设每篇文档包含1000个词(一本书的两三页)。假设每个词(包含空格和标点符号在内)平均占用6个byte,则此文档集大约有6GB。通常,在这些文档中共有大约M=500000个不同的词。我们没有刻意选择这些数字,其也可能随着文档量的不同而不同,但却给我们提出了此类必须解决的问题,即数据量的问题。我们会在5.1节讨论这些有关数据量的假设,并对其建模。
我们的目的是开发一个可以完成此类特定检索任务的系统。这个标准的信息检索任务即:通过它,系统可以根据任意用户一次性发起的查询语句,提供文档集中同用户的信息检索需求相关的文档。所谓信息检索需求即用户期望得知的话题,它和查询(query)不同,所谓查询是用户将自己的信息检索需求表达为计算机可理解的方式。所谓一篇文档是相关的即用户认为此文档包含其信息检索需求相关的信息。上面的例子中,信息检索需求被表达为一系列特定词的组合,是为了表述问题而人为设定的,在现实生活中,比如用户关心的是"管道泄露"相关的话题(信息检索需求),但是他们想找的文档可能并不一定精确的包含这些词,也可能他们会用其他的词来表达自己的需求,如"管道爆裂"(查询)。为了衡量信息检索系统的效果,用户可能会期望知道查询结果的两个重要统计指标:
精确度(Precision):返回的结果中有多大比例和信息检索需求相关。
召回率(recall):文档集中的相关文档有多大比例被返回了。
我们将在第八章详细讨论相关性的评估,包括精确度和召回率。
现在,我们不能再如此简单的构造一个词条-文档矩阵。一个500K x 1M的矩阵有半兆个0和1,这太多了,不能够保存在内存中。然而一个重要的发现是,矩阵是稀疏的,非零项只占很少的一部分。因为每篇文档仅包含1000个词,此矩阵有不超过十亿个1,也即至少99.8%项是0。所以一个更好的表示方法是仅仅记录值为1的项。
通过此理念,我们很容易得到信息检索一个重要的概念:反向索引(inverted index)。反向索引这个名字实际上是冗余的,因为一个索引总是从词条映射到包含它的文档。尽管如此,反向索引,或者说反向文件,成为信息检索领域的一个标准术语。图1.3展示了反向索引的基本概念,我们维护了一个词条组成的词典,对于每一个词条,都有一个列表保存着包含这个词条的文档。列表中的每一项称为一个posting,此列表称为Posting list(倒排表)。图1.3中的词典按照字母顺序排序,每个倒排表中的文档按照文档号排序,1.3节中,我们会看到,这种排序是很有用处的,在7.1.5节中,我们还考虑了其他方案。
尝试构建反向索引
为了在检索阶段获取索引的速度优势,我们必须事先创建索引。主要的步骤如下:
1.收集要索引的文档
Friends, Romans, countrymen. |
so let it be with Caesar |
…… |
2. 对这些文本进行分词,将文档变成一个个的词的序列
Friends |
Romans |
countrymen |
so |
…… |
3. 进行语言处理,将此一序列的词标准化,形成词条
friend |
roman |
countryman |
so |
…… |
4. 将词条和文档创建成反向索引,包括词典和倒排表。
我们将在第2.2节定义并讨论1至3步,在此之前,你可以简单的认为词或者标准化后词等同于单词。在此,我们假设前三步都已经完成,我们重点来看如何通过排序来构建一个基本的反向索引。
在一个文档集中,我们假设每一篇文档都有一个唯一的序列号,称为文档号。在索引创建过程中,我们可以简单的给每一个新来的文档附一个连续的整型作为文档号。对于每一篇文档,索引的输入是一系列标准化的词,我们也可以认为是一系列词条和文档号的二元组合,如图1.4所示。索引阶段一个核心的步骤是对这些词条按照字典顺序排序,如图1.4中中间一列所示。出现在同一篇文档的同一个词条的多次出现合并,相同的词条合并,并将结果分成词典和倒排表两部分,如图1.4中右面一列所示。由于一个词条一般出现在不多的文档中,这种数据组织方式已经减少了索引所占用的存储空间。词典还保存了一些统计信息,比如有多少篇文档包含此词条(称为document frequency,文档频率)。这些信息对于布尔搜索引擎不十分重要,然而却可以使我们在搜索阶段提高效率,并在需要排序的信息检索模型中发挥作用。倒排表按照文档号排序,这为高效的处理搜索奠定了基础。反向索引对于此类特定的信息检索来接无疑是最有效率的结构。
在最后形成的索引中,我们存储了词典和倒排表。其中后者占用的空间更大,词典多保存在内存中,倒排表多保存在硬盘中,所以两者占用的空间大小事很重要的,在第五章,我们会讨论如何优化二者的存储从而提高访问效率。
在倒排表中应该使用什么样的数据结构呢?定长的数组可能会比较浪费,因为有些词在很多的文档中出现,而有的词却在很少的文档中出现。对于内存中的倒排表,有两种较好的选择,一是单链表,一是变长数组。单链表使得文档插入倒排表比较廉价,而且可以很自然的扩展到如跳表这种更高级的索引方式,然而他需要额外的空间存储指针。变长数组在空间需求方面避免了指针带来了额外空间,在时间需求方面也因使用连续内存可以加快速度。实践中,额外的指针可以编码为偏移量放在链表中。如果更新相对不频繁,变长数组会更加紧凑和易于遍历。我们还可以用一个折中的方式,对每一个词条保存一个链接在一起的定长数组。当倒排表被存储在硬盘上的时候,其能够被存储为没有显式指针的连续空间,这样就可以减少倒排表的大小及把倒排表读入内存而读取硬盘的次数。
- 大小: 21.2 KB
- 大小: 20.3 KB
- 大小: 85.4 KB
- 大小: 25 KB
分享到:
相关推荐
为了深入理解和掌握信息检索的基本原理与方法,本篇将对《信息检索导论》王斌译本第一章的课后习题答案进行详细梳理,旨在帮助学习者更好地掌握词项矩阵构建、倒排记录实现、文档频率计算、布尔检索实现以及Merge...
含有2020年信息检索导论期末考试试题,2017信息检索导论作业及答案2016春国科大现代信息检索何苯期末试题(1),信息检索荷苯2015,信息检索荷苯2016,信息检索王斌2012 一、 选择题(单选, 每题 2 分,共 20 分) 1....
本章节主要围绕着《信息检索导论》这本书的第一章“布尔检索”展开讨论,包括了如何构建倒排索引、词项-文档矩阵以及如何处理布尔逻辑查询等内容。 #### 二、倒排索引与词项-文档矩阵 ##### 1. 倒排索引概念 倒排...
总之,《信息检索导论》是一本全面、深入的信息检索教程,覆盖了从基础到前沿的广泛内容,为读者提供了理解、设计和实现信息检索系统所需的知识。无论是对学术研究还是实际应用,这本书都是不可或缺的资源。
布尔检索是一种在信息检索系统中使用逻辑运算符(AND、OR、NOT等)组合关键词来精确控制搜索结果的方法。在本题中,我们探讨的是基于布尔检索的基本概念,包括词项-文档矩阵(Term-Document Matrix)和倒排索引...
### 信息检索导论答案解析 #### 一、概述 《信息检索导论》是由Christopher D. Manning、Prabhakar Raghavan与Hinrich Sch...此外,《信息检索导论》提供的习题答案也为学习者提供了一个检验自己理解程度的有效途径。
### 第八章 信息检索的评价 #### 8.1 信息检索系统的评价 信息检索系统(Information Retrieval System, IR System)的评价是衡量一个系统能否有效地满足用户信息需求的过程。这一过程需要一个测试集作为基准,...
这门课程的第一课主要介绍了布尔检索(Boolean retrieval)的概念,它是信息检索的基本方法之一。 布尔检索是一种基于逻辑运算符(如AND、OR和NOT)的查询方法。在信息检索中,我们通常处理的是非结构化的文本数据...
- **词干还原**:在布尔检索系统中,词干还原(Stemming)是一种文本预处理技术,它试图将词汇还原为其基本形式或词根。根据题目中的选项A和B,我们可以推断出词干还原可能会对检索系统的正确率和召回率产生影响。...
《信息检索导论》是计算机科学与信息技术领域中一门重要的基础课程,主要研究如何有效地获取、组织、管理和利用信息。2017年的这门课程作业及答案为学习者提供了宝贵的资源,帮助他们深入理解信息检索的核心概念和...
《信息检索导论》是一门深入探讨如何在海量数据中高效、准确地寻找所需信息的学科。这门学科的重要性在当今信息化社会不言而喻,无论是科学研究、商业决策还是日常生活,我们都需要快速有效地获取和利用信息。提供的...
综上所述,学习现代信息检索导论需要理解基本的检索模型,掌握倒排索引和相关度计算方法,熟悉自然语言处理技术,并关注最新的学习型检索系统进展。通过系统性的复习和实践,可以有效地提高在信息检索领域的专业知识...
《信息检索导论》是图灵计算机科学丛书中的一本经典教材,由Christopher D. Manning、Prabhakar Raghavan和Hinrich Schütze三位专家共同撰写。该书全面介绍了信息检索的基础理论和高级技术,对于理解并掌握信息检索...
1. **布尔检索**:这是最基础的信息检索模型,通过逻辑运算符(如AND、OR、NOT)组合关键词来构造查询,以获取满足特定条件的结果。 2. **TF-IDF**:这是一种常见的文本相关性度量方法,用于评估一个词在文档中的...
- **第一章至第八章**:详细介绍信息检索的基本原理和技术,如倒排索引、布尔检索、词项权重计算和评分算法等。 - **第九章至第二十一章**:深入探讨高级主题,包括但不限于: - 基于语言建模的方法,如概率模型、...
《现代信息检索导论》是2013年由王斌教授在计算所讲授的一门课程,涵盖了信息检索领域的核心理论与实践应用。这门课程的全部课件为我们提供了深入理解这一领域的重要资源。 信息检索(Information Retrieval,IR)...
《信息检索导论》是由Christopher D....总之,《信息检索导论》是一本全面且深入的信息检索教程,覆盖了从基础概念到前沿技术的广泛内容,对于理解信息检索系统的运作原理和提升相关技能具有极高的价值。
【信息检索导论第二课PPT】这门课程主要涵盖了信息检索的基础理论和实践方法,尤其关注倒排索引的构建及其优化。课程由Christopher Manning和Prabhakar Raghavan主讲,旨在深入理解信息检索系统的工作原理。 在上一...
NLP自然语言处理基础知识补充,《信息检索导论》第一章内容读书笔记。不知道为什么要五个C币才能下载,这个文件的价值没有这么高,需要的可以联系我免费发送。
文件“信息检索导论.pdf”和“irbookprint.pdf”可能是关于信息检索基础理论和实践的详细教程,包含了信息检索系统的架构、算法原理、优化策略等内容,对于深入理解信息检索领域非常有帮助。通过学习这两份资料,...