(Information Retrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。
目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。
信息检索技术的热点
◆ 智能检索或知识检索
传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。智能检索利用分词词典、同义词典,同音词典改善检索效果,比如用户查询“计算机”,与“电脑”相关的信息也能检索出来;进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果,比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外,智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。
◆ 知识挖掘
目前主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。 知识挖掘包括摘要、分类(聚类)和相似性检索等方面。
自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索中,自动摘要有助于用户快速评价检索结果的相关程度,在信息服务中,自动摘要有助于多种形式的内容分发,如发往PDA、手机等。
相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也可用于去重分析。
自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。
◆ 异构信息整合检索和全息检索
在信息检索分布化和网络化的趋势下,信息检索系统的开放性和集成性要求越来越高,需要能够检索和整合不同来源和结构的信息,这是异构信息检索技术发展的基点,包括支持各种格式化文件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等处理和检索;支持多语种信息的检索;支持结构化数据、半结构化数据及非结构化数据的统一处理;和关系数据库检索的无缝集成以及其他开放检索接口的集成等。所谓“全息检索”的概念就是支持一切格式和方式的检索,从目前实践来讲,发展到异构信息整合检索的层面,基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。
另外,从工程实践角度,综合采用内存和外部存储的多级缓存、分布式群集和负载均衡技术也是信息检索技术发展的重要方面。
随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据。内容管理的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。
信息检索不等于 搜索引擎
互联网的发展明显地促进了信息检索技术的发展和应用,一大批搜索引擎产品诞生,为网民提供了很好的快速信息获取和网络信息导航工具,但是将信息检索等同于使用搜索引擎就陷入了误区。搜索引擎技术中也普遍采用了全文信息检索技术,但互联网信息搜索和企业信息搜索是不同的。
一是数据量。传统信息检索系统一般索引库规模多在GB级,但互联网网页搜索需要处理几千万上亿的网页,搜索引擎的基本策略都是采用检索服务器群集,对大多数企业应用是不合适和不必要的,并不适用于企业应用。
二是内容相关性。信息太多,查准和排序就特别重要,Google等搜索引擎发展了网页链接分析技术,根据互联网上网页被连接次数作为重要性评判的依据。但企业网站内部的网页链接由网站内容采编发布系统决定,其链接次数存在偶然因素,不能作为判别重要性的依据。真正的企业应用的检索要求基于内容的相关性排序,就是说,和检索要求最相关的信息排在检索结果的前面,链接分析技术此种排序基本不起作用。
三是实时性。搜索引擎的索引生成和检索服务是分开的,周期性更新和同步数据,大的搜索引擎的更新周期需要以周乃至月度量;而企业信息检索需要实时反映内外信息变化,搜索引擎系统机制并不能适应企业中动态性数据增长和修改的要求。
四是安全性。互联网搜索引擎都基于文件系统,但企业应用中内容一般均会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。
五是个性化和智能化。由于搜索引擎数据和客户规模的限制,相关反馈、知识检索、知识挖掘等计算密集的智能技术很难应用,而专门针对企业的信息检索应用能在智能化和个性走得更远。
信息检索的起源
信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。
随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化,20世纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。Dialog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最著名的系统之一。
-------------------------------------------------
分享到:
相关推荐
在网络信息检索领域,搜索引擎如百度和谷歌等是行业领先者,它们采用的搜索技术、索引构建和检索算法是现代网络信息检索技术的核心。通过利用倒排索引等技术,搜索引擎能够高效地处理和返回用户的搜索请求。搜索技术...
在技术基础上,信息技术是支撑信息检索的核心。数据库技术是其中的关键,它包括对数据的独立管理、减少冗余、提高数据利用率等功能。数据库由数据、数据库管理系统(DBMS)、数据库管理员(DBA)等构成,其文档结构...
《网络信息检索的原理及技术》是一份关于网络信息检索的详细PPT文档,主要涵盖了网络信息检索的行为模型、核心技术以及信息的采集、组织和评价等方面。这份文档对于理解和掌握网络信息检索的全面知识至关重要。 ...
在当下信息技术日新月异的发展过程中,云计算作为一种新型的计算模式,已经成为支撑大数据处理和存储的关键技术之一。云计算不仅能够提供弹性可伸缩的计算资源,还能够显著降低运维成本,提高资源利用率。在舰船信息...
此外,本文的作者是吴广印,他是中国科学技术信息研究所的研究员以及北京万方软件有限公司董事长,同时也是RMS系统的总体设计师和主要开发人员,负责“863”专项课题“以科技文献为主的搜索引擎研制”的技术领导。...
在现代信息化社会,信息检索技术已经成为我们获取所需知识和数据的重要手段。...随着技术的不断进步和优化,未来的信息检索技术将更加智能、高效和用户友好,为人类的信息利用和知识探索提供更加坚实的支撑。
本文将探讨数字化制造的核心支撑技术——工艺数据结构化技术,并对其进行简要分析。 首先,我们需要了解工艺数据的定义及其在制造执行中的重要性。工艺数据是指在产品制造过程中产生的数据,这些数据包括但不限于...
此外,对于医学信息检索学相关技术的研究,乃是推动学科发展的核心驱动力。当前,网络技术、数字技术、检索技术和信息深加工技术的日新月异,给医学信息检索学带来巨大的变革。我们必须不断引进和开发新技术,优化...
"基于集成支撑矢量机排序的信息检索方法"是一种利用机器学习技术来改进传统信息检索过程的方法,旨在提高检索效率和准确性。此方法的核心是集成学习和支撑向量机(SVM)排序。 支撑向量机(Support Vector Machine,...
概率模型是基于概率论的信息检索模型,其核心思想是将信息检索视为一种概率事件。通过计算文档与查询之间的条件概率来评估文档的相关性。该模型通常包括概率相关模型和概率非相关模型两种类型,能够更精细地刻画文档...
在信息技术迅猛发展的今天,信息存储与检索的重要性日益凸显。它们不仅影响着科研工作的效率,还是学者获取知识、促进学术交流的关键工具。本课件重点介绍了国际上四个最为重要的信息检索系统,它们分别是《科学引文...
总结,多媒体信息检索是信息技术领域的一个重要研究方向,它结合了计算机视觉、信号处理、机器学习等多学科知识,为大数据时代的信息化服务提供了强大支撑。随着技术的不断发展,我们期待看到更多高效、智能的多媒体...
信息技术侧重于信息的编码或解码,是有关信息的收集、识别、提取、变换、存储、传递、处理、检索、检测、分析和利用等的技术。通信技术是侧重于信息传播的传送技术,主要包含传输接入、网络交换、移动通信、无线通信...
搜索引擎作为互联网时代的基础设施,其核心技术——爬虫技术、索引构建技术和查询处理与排名算法,共同支撑起了高效、准确的信息检索服务。这些技术不仅需要强大的计算能力和数据处理能力,还需要不断的技术创新和...
### Oracle全文检索技术详解 #### 一、Oracle Text 概述 Oracle Text 是 Oracle 数据库的一项强大特性,它使得 Oracle9i 及后续版本具备了先进的文本检索与智能化管理功能。这一特性最早在 Oracle8 之前的版本中被...
支撑技术,如信息表示、消息服务、事务服务等,是确保电子政务系统稳定运行、高效交互的基础。 #### 二、应用支撑技术体系概述 1. **电子政务标准技术参考模型**:该模型提供了电子政务系统设计、实施和评估的标准...
在信息化时代,数据和信息的海量增长给各行各业带来了新的挑战,其中如何有效从大量数据中提取有价值的信息成为了一...随着技术的不断进步,未来的智能检索将更加智能,将为各行各业的数据处理和分析提供强有力的支撑。
Solr作为全文检索的关键技术支撑,其分布式特性则体现在利用多个节点共同处理搜索请求,以提高效率和可靠性。Zookeeper则是作为分布式系统中协调和同步的工具,保证系统中各个节点能够高效地协作。 分类号方面,TP...
《电信设备-基于集合选择的分布式信息检索方法》是一份深入探讨如何在电信行业中利用分布式技术进行高效信息检索的重要资料。这份压缩包包含了核心文件“基于集合选择的分布式信息检索方法.pdf”,它详细阐述了在大...