Elasticsearch如何检索数据

qindongliang1922

浏览: 2204909 次
性别:
来自: 北京

最近访客更多访客>>

北风norther

godandghost

youhere

tanss

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：118181

: 证道Hadoop
浏览量：126561

: 证道shell编程
浏览量：60544

: ELK修真
浏览量：71798

文章分类

社区版块

存档分类

博客分类：

全文检索 lucene elasticsearch

我们都知道Elasticsearch是一个全文检索引擎，那么它是如何实现快速的检索呢？

传统的数据库给每个字段都存储成一个单个值，对于全文检索而言，这样的存储是低效的。举个例子，我有一个大文本字段，存到数据库里面只能是一个值，如果想要检索这个大文本字段里面的任何一个词，数据库如何实现？只能通过like模糊查询来实现，先不说性能低，这对于一个搜索引擎是远远不够的。

针对上面数据库的不足，所以才出现了Lucene这种全文检索框架而它的核心就在于采用了倒排索引（Inverted Index）的数据结构，不同于数据库的行式存储，Lucene这里采用了列式存储的方式故而对单个字段可以支持多个值的存储，这就是倒排索引。

````
Term  | Doc 1 | Doc 2 | Doc 3 | ...
------------------------------------
brown |   X   |       |  X    | ...
fox   |   X   |   X   |  X    | ...
quick |   X   |   X   |       | ...
the   |   X   |       |  X    | ...
````

如上图所示，倒排索引的一个字段由多个Term组成，这些Term是一个有序的列表，并且是唯一不重复的。对于每一个Term又会映射上所有包含该Term的Document Id列表。

为什么谈到Lucene，因为Lucene本身只是一个全文检索工具包，它不具备企业级的一些特性，如分布式，副本，扩展等而Elasticsearch和Solr都是基于Lucene开发和扩展的企业级框架，所以了解Lucene对学习Elasticsearch和Solr会有很大帮助。

在Elasticsearch中每条数据都是一个json，实际上json中每一个字段都有它自己的倒排索引结构。

当然倒排索引中的每个Term保存的信息还有很多，比如这个Term在多少个Doucuments里面出现过的次数，在特定的Doucument里面出现的次数，每个Document的length，所有Document的平均length，这些信息是用来计算搜索的相关性（Relevance），我们都知道使用google和百度搜索结果后，数据会有个先后排名，排名靠前的基本都是最相关的数据，那么那些因素决定了数据的排名？这里面其实就是上面所说的相关性来决定，关于相关性的计算方式也是Lucene里面的核心功能，目前Lucene里面主要有两种Rank算法：

（1）经典的基于VSM向量空间的TF/IDF算法

（2）最新的基于概率论的BM25算法

刚兴趣的朋友可以去维基百科学习一下，这里不再展开了。

早期的全文检索所有的数据都会被做成一个大的倒排索引，当新索引准备好之后，它会替代旧的大索引并且最近的变化数据可以被检索。

这个大的倒排索引有一个最大的特点就是不可变性，只要索引被写入磁盘后，就是不可变的：

优点：

（1）由于不可变性，所以不需要锁，也就是不存多个线程同时去修改数据。

（2）可以直接把索引加载到FileSystem Cache停留在cache中，因为它不会被修改并且FileSystem Cache有足够大的空间，这样以来直接在内存中查询代替在磁盘上，对搜索性能大大提升。

（3）其他的缓存如filter cache在整个index的生命周期内都是有效的，他们不会被重建，因为索引是不可变的。

（4）不可变的大索引可以得到更高的压缩比，这样以来能够节省io和占用的内存资源

缺点：

倒排索引的优点也是它的缺点，因为它不可变，所以为了使你新增的数据能够正常的搜索到，你需要重建整个索引，这严重限制了单个index存储的数量以及它的更新频率。

所以在Elasticsearch中采用了动态更新多个索引方式来解决这个问题，这个会在下篇的文章中介绍。

参考链接：

https://www.elastic.co/guide/en/elasticsearch/guide/master/inverted-index.html

https://www.elastic.co/guide/en/elasticsearch/guide/master/relevance-intro.html

https://www.elastic.co/guide/en/elasticsearch/guide/master/making-text-searchable.html

有什么问题可以扫码关注微信公众号：我是攻城师(woshigcs)，在后台留言咨询。技术债不能欠，健康债更不能欠，求道之路，与君同行。

0
顶

0
踩

分享到：

Elasticsearch如何动态维护一个不可变的倒 ... | JDK8中LinkedList的工作原理剖析

2018-03-14 20:11
浏览 1138
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论