`
qindongliang1922
  • 浏览: 2183605 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117522
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:125919
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:59881
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71297
社区版块
存档分类
最新评论

Elasticsearch如何动态维护一个不可变的倒排索引

    博客分类:
  • ELK
阅读更多


上一篇文章中介绍了Elasticsearch中是如何搜索文本的,同时也简述了在es里面索引数据结构的特点不可变性。


索引不可变性的缺点限制了单个索引存储的最大数据量以及更新的频次,所以es面临的问题是如何解决倒排索引不可更新的特点而同时仍然保持不可变特性带来的好处。


答案就是使用多个索引

代替原来的每次重写整个索引,es里面采用方式是增加新的索引来反映最近的变化,然后查询的时候一次查询所有的倒排索引,从最早的一直到最新的,然后在合并结果返回。

在lucene里面一个索引是多个segment加上一个commit point文件组成,每个segment都是一个倒排索引,而commit point这个文件标记了所有的已知的segment文件。如下图所示:





注意lucene里面的index在es里面叫做shard,es里面的一个index可以包含多个shard,对es里面的一个索引查询在es底层会把查询请求发送到所有shard里面最后在把结果集合并并返回。


回到文章开头的问题,es如何利用多索引来解决更新的问题,下面我们看下数据被写入es的过程:


(1)当es收到一个写入或者更新的请求时,首先会把这个数据收集在内存的indexing buffer

(2)经过一定的间隔或者外部命令触发时,会在内存缓冲区生成新的segment。

(3)然后segment首先会被写到filesystem cache中,这个时候其实搜索就能搜到了。

(4)然后经过一段时间filesystem cache中的segment会被fsync到磁盘文件上并在commit point文件中记录新segment文件名称,同时新的segment会被打开确保搜索可见

(5)最终内存里面buffer区会被清空,并等待收集新的documnet。


如下图:







当收到查询请求时,所有的sengment包含内存和磁盘中的会被依次查询,最终聚合所有segment并准确计算每个document的相关性,上面的实现方式可以相对代价比较小的方法处理新增的document。


上面介绍的是新增数据的处理,接下来我们看下如果有删除和更新请求那么es是如何处理的。


首先我们知道sengments本身是不可变的,所以document是不能从旧的segments中移除,同时也不能被更新,那么es是如何处理删除和更新请求的呢?


在每次commit point时,es会生成一个后缀为.del的文件,这个文件标记了所有已经被删除的数据,在一条数据被删除时,es仅仅会在.del文件里面做个删除标记,被标记删除的数据仍然会被查询到,但是在最终返回结果之前,被标记删除的数据会被移除,这就是es里面删除的实现逻辑。


同理更新的逻辑也类似,当一个document被更新时,旧版本的document也会在.del文件里面被打上删除标记,新版本的document会被索引到一个新的segment里面,这个时候的查询会同时把两者都查询出来,但在最终返回结果之前被标记删除的旧版本数据会被移除掉。


以上就是es里面实现动态更新索引的内容,在这里我们能看到es里面更新和删除都类似于采用伪删除的策略来实现,到这里大家可能有个疑问,那些被标记删除的数据,什么时候才会被文件系统真正的清除,毕竟量大了还是对性能有一点影响的,这个在后面segment merge的文章中介绍。

有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。 技术债不能欠,健康债更不能欠, 求道之路,与君同行。

  • 大小: 29 KB
  • 大小: 33.1 KB
  • 大小: 33.4 KB
0
0
分享到:
评论

相关推荐

    Elasticsearch-深入理解索引原理1

    每个段都是倒排索引的一个子集,索引由多个段组成。新增的段反映了最新的变更,而旧的段保持不变。 - 当需要更新时,ES会创建新的段,而不是修改旧的,这样既能保持数据一致性,又能在不影响现有段的情况下进行更新...

    elasticsearch.rpm完整安装包带客户端

    倒排索引是Elasticsearch实现高效搜索的核心技术。在传统的索引中,我们通过关键词找到文档;而在倒排索引中,我们可以通过文档找到对应的关键词。每个关键词对应一个列表,列表中存储了包含该关键词的所有文档ID。...

    Elasticsearch-Head-Master

    3. **倒排索引**:Elasticsearch 采用倒排索引机制,快速实现全文搜索。 4. **实时性**:Elasticsearch 支持实时的数据添加、删除和搜索操作。 5. **弹性伸缩**:根据需求,可以通过添加或移除节点来调整集群规模。 ...

    elasticsearch-6.7.0.tar.gz

    3. **倒排索引**:Elasticsearch使用倒排索引机制,极大地加快了搜索速度。在索引过程中,系统会为每个词项创建一个包含该词项的所有文档的列表,从而能在短时间内找到匹配搜索查询的文档。 4. **RESTful API**:...

    elasticsearch-6.8.5.zip

    6. **倒排索引**:Elasticsearch 使用倒排索引来快速执行搜索。这种索引结构将每个词项关联到包含该词项的文档,而不是像传统索引那样将每个文档关联到其包含的词项。 7. **实时分析**:Elasticsearch 支持实时分析...

    这篇实战攻略,带你轻松入门Elastic search.pdf

    例如,对于text类型的字段,会使用分词器分词,并生成倒排索引以供搜索。对于keyword类型的字段,由于不进行分词处理,搜索时只能精确查找。下面是一个简单的mapping示例: ```json { "javalogs": { "mappings": ...

    Elasticsearch in Action 全文检索

    4. **倒排索引**:作为全文搜索引擎,Elasticsearch使用倒排索引来实现快速的文本搜索。倒排索引将每个词项与包含它的文档列表关联,从而在查询时能迅速找到相关文档。 5. **近实时搜索**:Elasticsearch具有近实时...

    elasticsearch-2.4.2

    Elasticsearch 使用倒排索引技术,使得搜索性能极佳。用户可以通过简单的 RESTful API 发送查询请求,获取结果。 Elasticsearch 还具有强大的聚合分析能力。它可以对数据进行统计分析,如求平均值、最大值、最小值...

    elasticsearch-7.0.0-linux-x86_64.tar.gz

    - 倒排索引:Elasticsearch采用倒排索引机制,快速响应搜索请求。 - 分词器:预定义和自定义分词器,如标准分词器、英文分词器,处理不同语言的文本。 5. **分布式特性** - 自动发现:节点间通过 multicast 或 ...

    Elasticsearch 25道面试题和答案.docx

    Elasticsearch 是一个分布式、实时的搜索和分析引擎,常用于大数据量的全文检索、日志分析和实时监控等场景。以下是对Elasticsearch相关面试题的详细解答,包括其集群架构、索引设计、调优策略以及核心概念。 1. **...

    Mastering ElasticSearch.pdf

    1. **倒排索引(Inverted Index)**:这是ElasticSearch的核心技术之一,它通过将文档中的词汇与包含这些词汇的文档列表相关联,从而实现快速搜索。 2. **分片和复制(Sharding and Replication)**:为了提高可用性和...

    elasticsearch-6.2.4.tar.gz与kibana-6.2.4-linux-x86_64.tar.gz

    2. **倒排索引**:Elasticsearch 使用倒排索引技术,使全文搜索变得高效。每个文档的关键字都会被索引到相应的文档中,便于快速查找匹配文档。 3. **RESTful API**:通过 HTTP 协议,Elasticsearch 提供了简单易用...

    Elasticsearch 34道面试题和答案.docx

    Elasticsearch 是一款高度可扩展的全文搜索引擎,广泛应用于日志分析、实时监控、搜索服务等领域。面试中,面试官可能会考察你对Elasticsearch的基本理解、实际应用、集群架构、索引管理和优化等方面的知识。 1. **...

    ElasticSearch优化

    ElasticSearch的索引流程可以概括为:客户端发送数据至ElasticSearch,ElasticSearch对数据进行处理后,生成倒排索引。这个索引存储了关键词到文档的映射信息,从而实现了快速的全文搜索。搜索流程则涉及到了查询...

    Elasticsearch 5

    除了基本操作,Elasticsearch 还提供了诸如脚本字段、自定义分词器、倒排索引优化、滚动搜索、多索引操作等高级功能。在实际开发中,你可能需要深入学习这些内容以提升应用性能和用户体验。 总的来说,这个 MAVEN ...

    千锋2018elasticsearch笔记修改.docx

    - **Index Module(索引模块):** 负责建立和维护倒排索引。 - **Search Module(搜索模块):** 实现了搜索功能。 - **Mapping Module(映射模块):** 处理数据映射和解析。 - **River Module(河流模块):** 已...

    学习笔记(ElasticSearch)(实战)

    例如,设置合理的分片数量、使用倒排索引、调整缓存策略等,都可以提升Elasticsearch的性能。 总之,Elasticsearch是一个强大且灵活的搜索引擎,掌握其基本概念和操作是迈向高效数据管理和分析的第一步。通过持续...

    Elasticsearch 28道面试题和答案.docx

    12. **倒排索引**:倒排索引是 Elasticsearch 实现快速全文搜索的关键。它将每个词元(token)映射到包含该词元的文档列表,使得搜索时可以迅速定位到相关文档。 以上知识点涵盖了 Elasticsearch 的核心概念,包括...

    全文搜索Lucene&ElasticSearch-新版.doc

    在索引创建过程中,原始的非结构化数据被提取信息并建立索引,这个索引是倒排索引,即通过词项找到包含它们的文档。索引搜索阶段,用户查询请求会与已创建的索引进行匹配,返回相关结果,结果会根据相关性进行排序。...

Global site tag (gtag.js) - Google Analytics