信息检索知识-SEOer必备知识

wangdei

浏览: 374367 次

最近访客更多访客>>

u012363178

陈民刚

limuzi13

halloffame

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

全文检索搜索引擎企业应用互联网数据挖掘

信息检索技术简介

为了使读者对信息检索研究的进展有更深的了解，这里我们简单介绍一下信息检索技术的基本原理。信息检索系统流程大致如下图所示：

总体上，系统可分为四个部分：1. 数据预处理，2.索引生成，3. 查询处理，4. 检索。下面我们分别对各个部分采用的技术加以介绍。
1. 数据预处理
      目前检索系统的主要数据来源是Web，格式包括网页、WORD 文档、PDF 文档等，这些格式的数据除了正文内容之外，还有大量的标记信息，因此从多种格式的数据中提取正文和其他所需的信息就成为数据预处理的主要任务。此外，众所周知，中文字符存在多种编码，比如GB2312、BIG5、Unicode（CJK 区），而原始数据集往往包含多种编码，因此要正确地检索到结果必须进行统一编码转换。研究者们对预处理部分要提取哪些信息并没有共识，这与后续处理所需的信息密切相关，一般来说，正文、锚文本和链接地址都是要提取出来的。
2. 索引生成
      对原始数据建索引是为了快速定位查询词所在的位置，为了达到这个目的，索引的结构非常关键。目前主流的方法是以词为单位构造倒排文档表，其结构大致如下图所示：

每个文档都由一串词组成，而用户输入的查询条件通常是若干关键词，因此如果预先记录这些词出现的位置，那么只要在索引文件中找到这些词，也就找到了包含它们的文档。为了进一步提高查询的速度，在组织索引时还可以采用一些更复杂的方法，比如B树、TRIE 树、哈希表等。这个阶段还需要对预处理之后的文档进行词法分析，这是因为很多语言的文本都不宜直接把正文中的字符串用于建立索引。例如，中文里的词与词之间不存在分隔符，因此必须先进行分词，而英文中的词存在很多变形，比如“compute”就存在“computes”、“computing”、“computed”等多种变形，应先进行词根还原。此外，有些词虽然出现频率很高，但对于查询没有任何帮助，比如“的”、“了”等，就无需放入索引，为此需要预备一个停用词表（stop word list）对这类词进行过滤。
3. 查询处理
      用户输入的查询条件可以有多种形式，包括关键词、布尔表达式、自然语言形式的描述语句甚至是文本，但如果把这些输入仅当作关键词去检索，显然不能准确把握用户的真实信息需求。很多系统采用查询扩展来克服这一问题。各种语言中都会存在很多同义词，比如查“计算机”的时候，包含“电脑”的结果也应一并返回，这种情况通常会采用查词典的方法解决。但完全基于词典所能提供的信息有限，而且很多时候并不适宜简单地以同义词替换方法进行扩展，因此很多研究者还采用相关反馈、关联矩阵等方法对查询条件进行深入挖掘。
4. 检索
      最简单的检索系统只需要按照查询词之间的逻辑关系返回相应的文档就可以了，但这种做法显然不能表达结果与查询之间的深层关系。为了把最符合用户需求的结果显示在前面，还需要利用各种信息对结果进行重排序。目前有两大主流技术用于分析结果和查询的相关性：链接分析和基于内容的计算。许多研究者发现，WWW 上超链结构是个非常丰富和重要的资源，如果能够充分利用的话，可以极大地提高检索结果的质量。基于这种链接分析的思想，Sergey Brin 和Larry Page 在1998 年提出了PageRank 算法，同年J.Kleinberg 提出了HITS 算法，其它一些学者也相继提出了另外的链接分析算法，如SALSA，PHITS，Bayesian等算法。这些算法有的已经在实际的系统中实现和使用，并且取得了良好的效果。而基于内容的计算则沿用传统的文本分类方法，多采用向量空间模型、概率模型等方法来逐一计算用户查询和结果的相似度（相关性）。两者各有优缺点，而且恰好互补。链接分析充分利用了Web 上丰富的链接结构信息，但它很少考虑网页本身的内容，而直观上看，基于内容的计算则较为深入地揭示了查询和结果之间的语义关系，但忽略了不同网页之间的指向关系，因此现在很多系统尝试把两者结合起来，以达到更好的性能。

信息检索技术研究现状

评价指标
      为便于理解评测结果所代表的意义，我们先来介绍一下评测中常用的指标。评测指标直接关系到参评系统的最终评价，指标不合理会导致对系统的评价也不合理，因此规范化的评测会议对于评价指标的选择都是很慎重的。
      早期常用的评测指标包括准确率（Precision）、召回率（Recall）、F1 值等，其意义如下：

显而易见，召回率考察系统找全答案的能力，而准确率考察系统找准答案的能力，两者相辅相成，从两个不同侧面较为全面地反映了系统性能。F1 值是一个把准确率和召回率结合起来的指标。考虑到某些情况下不同系统的准确率和召回率互有高低，不便于直接比较，而使用F1 值就可以更直观地对系统性能进行排序。
      随着测试集规模的扩大以及人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现，包括：
      1. 平均准确率（Mean Average Precision，即MAP）：单个主题的MAP 是每篇相关文档检索出后的准确率的平均值。主题集合的MAP 是每个主题的MAP 的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。
      2. R-Precision：单个主题的R-Precision 是检索出R 篇文档时的准确率。其中R 是测试集中与主题相关的文档的数目。主题集合的R-Precision 是每个主题的R-Precision 的平均值。
      3. P@10：P@10 是系统对于该主题返回的前10 个结果的准确率。考虑到用户在查看搜索引擎结果时，往往希望在第一个页面（通常为10 个结果）就找到自己所需的信息，因此设置了这样一个拟人化的指标，P@10 常常能比较有效地反映系统在真实应用环境下所表现的性能。

国外研究现状
      一提及信息检索，大家往往马上会想起Google、yahoo 等搜索引擎公司。可以说，Web 搜索引擎与大家的日常生活最为密切，在某种程度上成了信息检索技术的代称。但作为实用化的系统，搜索引擎一般采用比较成熟的技术，并对稳定性、反映速度、界面等工程化问题更为关注。因此，这些系统并不完全代表信息检索技术的发展水平。但由于人们对于各种粒度的信息获取的需求不断增长，国外的学术界和企业界为此投入了相当大的力量进行前瞻性研究，这方面比较有代表性的机构包括马萨诸塞大学、卡耐基梅隆大学、伦敦城市大学、IBM、微软研究院、滑铁卢大学等。
      总的来看，早期以Okapi、Smart、查询扩展、相关反馈为代表的内容分析技术，后来以Pagerank、HITS 为代表的链接分析技术，以及近年来的语言模型，都曾在信息检索发展过程中掀起研究热潮，但近年来却少有激动人心的新技术出现。2005 年，TREC 在其总结报告指出现在“信息检索性能已进入平台期”。这表明，与用户无关的传统信息检索技术已相对成熟。这些技术已经被商用搜索引擎广泛应用，并在一定程度上解决了用户在粗粒度（文档级）上的信息获取需求。
      从TREC 来看，现在的任务设置向高精度、细粒度和大规模三个方向倾斜，比较有代表性的有高精度文档检索任务（HARD）、新信息检测任务（Novelty）、问答任务（QA）、TB 级检索（Terabyte）等。其中前三个任务要求返回的结果不再是简单的一篇篇文档，而是信息片断，而TB 级检索则是把测试集的规模提高到了TB 级，其他不变。从评测结果来看，这些任务已经取得了很大进展。但相对于目前的技术而言，这些任务还是相当困难的，与实用还有一段距离。
      总的来看，国外主流的Web 检索技术已比较成熟，无论从结果、性能还是稳定性来看，都能提供令人满意的结果，并且已经在人们的日常信息获取中发挥作用。更高精度和更细粒度的检索技术仍处于实验室阶段，但这方面的研究方兴未艾。也许在不远的将来，我们就能看到基于这些新技术的搜索引擎的出现。

国内研究现状
      作为扶持科技发展的重要措施之一，863 国家高技术研究发展计划一直对国内的研究有着重要影响。而规范化评测作为检验系统性能的可信机制，逐渐成为863 关注的重点之一。2003 年，国家863 计划软硬件主题设立了“中文信息处理和智能人机接口技术评测”专项课题，对包括机器翻译、语音识别、信息检索在内的中文信息处理关键技术进行评测。该课题由中国科学院计算技术研究所承办，从2003 年到2005年连续举办三届，吸引了国内外众多研究单位参加。
      信息检索评测的目的并不仅仅定位为863 课题验收或资格认证，而是要了解国内在中文信息检索技术领域的研究现状，验证互联网环境下大规模数据的中文信息检索技术的系统有效性，推动技术进步和成果的应用和转化，成为这个领域技术评价和交流的平台。
      作为国内有较大影响的评测会议，863 信息检索评测基本上反映了中文信息检索技术的发展水平。下面我们通过2005 年度最新评测结果来分析国内的研究现状。这次评测分为自动和手工构造查询条件两组。评测结果如下表所示（由于863 评测结果发布采用匿名方式，因此这里只给出最终结果而不显示参赛单位名称）：

从所有参评队伍的整体检索效果看，这次评测的结果与以往的评测结果相比，各个指标都有了很大提高。这主要是因为研究者利用了链接分析技术、锚文本等相关评价因素来提高准确率，并针对评测采取有效的技术手段来克服中文检索中的某些难点，比如命名实体识别等。此外，相关反馈或者重排序技术对于提高检索效果也有一定的帮助。从检索模型来说，参评队伍采用了向量空间模型、概率模型、语言模型等基本模型或者混合模型，同时利用了PageRank、链入分析等链接分析或者页面分析技术来提高检索效果。中文检索相对英文等其它语种来说，如何正确分词对于检索效果有所影响，尤其是命名实体、缩略语以及新词等未登录词的正确识别对于某些查询来说影响较大。现在的大部分检索系统在索引以及查询分析阶段采用了命名体识别，从结果来看，取得了比较好的效果。
      当前的中文检索技术均基于国际主流的算法，在评测中成绩较好的单位在TREC 评测中也曾取得不错的成绩。可以看出，这些算法提供了基准级的性能，系统级的创新或改进不多，不过现有系统都会针对中文的特点进行改进。总体上，如果用户草拟的查询条件能够比较全面准确地表达用户需求的话，现有的中文检索技术一般能够提供比较好的检索结果，但是对于以下方面还存在着一些问题：
      ▲ 查询条件与文档词汇内容失配；
      ▲ 部分命名体、新词以及缩略语识别还存在着一些问题；
      ▲ 在计算相似度时，查询词汇权重的设定正确与否也在一定程度上影响检索效果。
      这些问题的存在导致现有检索系统性能下降，针对这些问题，现有的检索技术还有很大的改善空间来获得比较满意的检索结果。

信息检索技术的热点

　　◆ 智能检索或知识检索

　　传统的全文检索技术基于关键词匹配进行检索，往往存在查不全、查不准、检索质量不高的现象，特别是在网络信息时代，利用关键词匹配很难满足人们检索的要求。智能检索利用分词词典、同义词典，同音词典改善检索效果，比如用户查询“计算机”，与“电脑”相关的信息也能检索出来；进一步还可在知识层面或者说概念层面上辅助查询，通过主题词典、上下位词典、相关同级词典，形成一个知识体系或概念网络，给予用户智能知识提示，最终帮助用户获得最佳的检索效果，比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外，智能检索还包括歧义信息和检索处理，如“苹果”，究竟是指水果还是电脑品牌，“华人”与“中华人民共和国”的区分，将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理，高效、准确地反馈给用户最需要的信息。

　　◆ 知识挖掘

　　目前主要指文本挖掘技术的发展，目的是帮助人们更好的发现、组织、表示信息，提取知识，满足信息检索的高层次需要。知识挖掘包括摘要、分类（聚类）和相似性检索等方面。

　　自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索中，自动摘要有助于用户快速评价检索结果的相关程度，在信息服务中，自动摘要有助于多种形式的内容分发，如发往PDA、手机等。相似性检索技术基于文档内容特征检索与其相似或相关的文档，是实现用户个性化相关反馈的基础，也可用于去重分析。自动分类可基于统计或规则，经过机器学习形成预定义分类树，再根据文档的内容特征将其归类；自动聚类则是根据文档内容的相关程度进行分组归并。自动分类（聚类）在信息组织、导航方面非常有用。

　　◆ 异构信息整合检索和全息检索

　　在信息检索分布化和网络化的趋势下，信息检索系统的开放性和集成性要求越来越高，需要能够检索和整合不同来源和结构的信息，这是异构信息检索技术发展的基点，包括支持各种格式化文件，如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等处理和检索；支持多语种信息的检索；支持结构化数据、半结构化数据及非结构化数据的统一处理；和关系数据库检索的无缝集成以及其他开放检索接口的集成等。所谓“全息检索”的概念就是支持一切格式和方式的检索，从目前实践来讲，发展到异构信息整合检索的层面，基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。

　　另外，从工程实践角度，综合采用内存和外部存储的多级缓存、分布式群集和负载均衡技术也是信息检索技术发展的重要方面。

　　随着互联网的普及和电子商务的发展，企业和个人可获取、需处理的信息量呈爆发式增长，而且其中绝大部分都是非结构化和半结构化数据。内容管理的重要性日益凸现，而信息检索作为内容管理的核心支撑技术，随着内容管理的发展和普及，亦将应用到各个领域，成为人们日常工作生活的密切伙伴。

　　信息检索不等于搜索引擎

　　互联网的发展明显地促进了信息检索技术的发展和应用，一大批搜索引擎产品诞生，为网民提供了很好的快速信息获取和网络信息导航工具，但是将信息检索等同于使用搜索引擎就陷入了误区。搜索引擎技术中也普遍采用了全文信息检索技术，但互联网信息搜索和企业信息搜索是不同的。

　　一是数据量。传统信息检索系统一般索引库规模多在GB级，但互联网网页搜索需要处理几千万上亿的网页，搜索引擎的基本策略都是采用检索服务器群集，对大多数企业应用是不合适和不必要的，并不适用于企业应用。

　　二是内容相关性。信息太多，查准和排序就特别重要，Google等搜索引擎发展了网页链接分析技术，根据互联网上网页被连接次数作为重要性评判的依据。但企业网站内部的网页链接由网站内容采编发布系统决定，其链接次数存在偶然因素，不能作为判别重要性的依据。真正的企业应用的检索要求基于内容的相关性排序，就是说，和检索要求最相关的信息排在检索结果的前面，链接分析技术此种排序基本不起作用。

　　三是实时性。搜索引擎的索引生成和检索服务是分开的，周期性更新和同步数据，大的搜索引擎的更新周期需要以周乃至月度量；而企业信息检索需要实时反映内外信息变化，搜索引擎系统机制并不能适应企业中动态性数据增长和修改的要求。

　　四是安全性。互联网搜索引擎都基于文件系统，但企业应用中内容一般均会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。

　　五是个性化和智能化。由于搜索引擎数据和客户规模的限制，相关反馈、知识检索、知识挖掘等计算密集的智能技术很难应用，而专门针对企业的信息检索应用能在智能化和个性走得更远。

分享到：

用freemarker生成html页面 | URL的优化

2008-05-19 13:12
浏览 1227
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论