--lvpei.cnblogs.com
搜索引擎普遍采用全文检索技术,而其处理的大规模文档本身都是非结构或半结构化信息,文档索引技术是信息全文检索和快速查询的基础。
一、索引概述
索引是一种数据存储的组织结构。索引器用来完成信息索引的建立,维护和管理索引的功能。
倒排索引是一种高效率的索引组织方式,采用字或词作为索引项,能够很好的支持多种检索模型,提供高性能的检索。搜索引擎的索引使用了传统信息检索中的索引模型。索引结构通常组织成按照索引项排列的链表形式,在检索时,使用检索词和索引项进行匹配,直接定位在检索结果所在的列表。
二、索引器上下环境
索引器从原始文档中抽取索引项,用于表示文档,并生成文档集合的索引表。索引器运行环境涉及到的主要内容是文本预处理和检索数据库。主要包括原始文本库(网页或者文档),文本解析器(分析网页和文档内容,统一为无格式文档或者中间格式文档),文本中间格式库(去除噪音垃圾信息,完成分词之后的纯文本或者统一的中间格式),索引器(对解析器处理的结果信息进行处理,利用预设的索引项字典建立按索引项排列的链表,并动态更改索引字典),索引字典(词和编码的二元组结构数据库),文本索引库(以索引形式组织存放的数据文件)。
三、倒排索引原理
索引技术的核心机制是倒排索引结构。大规模数据一般都是文件形式存储,倒排索引是利用索引关键字直接确定文档列表,最后确定希望找到的文档本身。
四、索引分类
索引的分类一般从两个角度考虑,索引处理的索引项的类型(字索引、词索引、短语索引、混合索引)和索引建立更新的形式(静态和动态)。
五、高性能索引的关注方向
1-如何提高索引建立的速度。
2-如何减少索引的资源占用。
3-索引使用当中如何合理分配有限的内存资源。
4-如何提高资源的访问速度。
分享到:
相关推荐
本文将详细解释`IEnumerable<T>`、`IEnumerable`、`ICollection<T>`、`IList<T>`、`ObservableCollectin<T>`以及`Collection<T>`之间的关系。 首先,`IEnumerable<T>`接口是基础,它定义了一个可以被枚举(即遍历)...
在.NET框架中,`IEnumerable<T>`、`ICollection<T>`、`IList<T>`、`ObservableCollection<T>`和`Collection<T>`是几个重要的泛型接口和类,它们在处理集合数据时扮演着不同的角色,提供了不同程度的功能和性能优化。...
<mi> N </ mi> <mo> = </ mo> <mn> 1 </ mn> </ math> $$ \ mathcal {N} = 1 $$超保形的超保形索引 四个维度上的场论具有渐近增长的状态,其电荷呈指数增长。 我们的分析采用了类似于Cardy的大电荷限制,对于...
其中有些是技术上类似<div>和<span>标签,但有一定含义,例如<nav>(网站导航块)和<footer>。这种标签将有利于搜索引擎的索引整理、小屏幕装置和视障人士使用。同时为其他浏览要素提供了新的功能,通过一个标准接口...
例如,如果你有一个JSON数组,你可能希望将其解析为`IList<string>`或`IList<MyCustomClass>`,具体取决于JSON数据的内容。 C#中解析JSON通常使用的是Json.NET库,这是一个非常流行且功能强大的开源库,可以方便地...
<li>a</li> <li>a</li> <li>a</li> <li>a</li> <li>a</li> </ul> </div> 我们遍历ul 下所有的li 并添加点击事件,一般我们会在for循环里面添加点击事件,但是结果和我们所期盼不一样,那么是为什么呢???? 接...
第15章 索引和查询优化 312<br>15.1 索引概述 312<br>15.1.1 聚集索引和非聚集索引 312<br>15.1.2 填充因子 312<br>15.1.3 使用目录视图查看索引 313<br>15.2 用CREATE INDEX语句创建索引 313<br>15.2.1 基本语法 ...
描述:本文档详细探讨了C#中泛型集合List<T>的使用,特别是其引用特性和如何通过索引访问及修改元素。此外,还深入分析了当List<T>的元素作为方法参数时的行为,并提供了一个具体的代码示例来演示这些概念。 知识点...
Java搜索引擎的研究与实现(含文档+源码)<br>目录 1<br>摘要 3<br>第一章 引言 4<br>第二章 搜索引擎的结构 5<br>2.1系统概述 5<br>2.2搜索引擎的构成 5<br>2.2.1网络机器人 5<br>2.2.2索引与搜索 5<br>2.2.3 Web...
8 <br> 概述 8 <br> 切分原理 10 <br> 经验总结 13 <br> 四、索引器 14 <br> 概述 14 <br> 实现原理 14 <br> 经验总结 16 <br> 五、查询器 16 <br> 概述 16 <br> 实现原理 17 <br> 经验总结 19 <br> 六、系统关键...
50<br>4.4.2 创建惟一索引 51<br>4.4.3 查看表的索引 52<br>4.4.4 删除索引 53<br>4.5 维护数据表 53<br>4.5.1 在表中插入新列 53<br>4.5.2 改变表中列的排列顺序 54<br>4.5.3 自动编号列和标识符列 54<br>4.5.4 可...
<br>全文搜索<br> 1 使您的Jive搜索支持中文 <br> 2 关于Jive2中的中文搜索 <br> 3 基于JAVA的全文索引引擎Lucene简介 <br><br> <br> <br>安全认证<br> 1 Jive2.1.1 License保护原理分析 <br> 2 用Java的加密机制来...
目录 <br>·此参考中包含的内容 <br>·轻松上手 <br>·简介 <br>·操作符 <br>·语句 <br>·核心 <br>·文档 <br>·窗口 <br>·表单 <br>·浏览器 <br>·事件和事件句柄 <br>·LiveWire数据库服务 <br>·进程管理...
数组<br>第7章 类<br>第8章 结构<br>第9章 接口<br>第10章 枚举<br>第11章 字段<br>第12章 方法<br>第13章 属性<br>第14章 索引器<br>第15章 委托<br>第16章 事件<br>第17章 不安全代码<br>第18章 属性标志<br>第19...
系统设计<br> 1 jive设计思路 <br> 2 jive的工作内幕 <br> 3 Jive源代码研究 <br> 4 Jive中的设计模式 <br> 5 jive学习笔记 <br><br><br><br><br>数据库设计<br> 1 Jive Forums数据库说明(英文) <br> 2 Jive KB...
<br><br>索引<br><br>1._引子<br>2._正则表达式的历史<br>3._正则表达式定义<br><br>3.1_普通字符<br>3.2_非打印字符<br>3.3_特殊字符<br>3.4_限定符<br>3.5_定位符<br>3.6_选择<br>3.7_后向引用<br><br>4._各种操作...
数据库优化 177<br>8.1 索引的使用 178<br>8.1.1索引对单个表查询的影响 178<br>8.1.2索引对多个表查询的影响 180<br>8.1.3多列索引对查询的影响 181<br>8.1.4索引的作用 182<br>8.1.5 索引的弊端 182<br>8.1.6 选择...
数据库优化 177<br>8.1 索引的使用 178<br>8.1.1索引对单个表查询的影响 178<br>8.1.2索引对多个表查询的影响 180<br>8.1.3多列索引对查询的影响 181<br>8.1.4索引的作用 182<br>8.1.5 索引的弊端 182<br>8.1.6 选择...
HTML5参考手册中还包含了许多其他标签的说明,例如用于定义代码的<code>,定义表格的<caption>、<table>、<th>、<tr>和<td>,定义区块的<div>,以及定义无序和有序列表的<ul>、<ol>和<li>等。 这份参考手册是学习和...
正则表达式<br>lucene索引合并<br>探查Weblogic JDBC Multipool 问题 <br>struts通用Exception处理 <br>Grails中默认数据库HSQLDB点滴<br>从request获取各种路径总结<br>DIV实现的表格自动伸张与收缩<br>java 邮件...