`
kfcman
  • 浏览: 399487 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Elasticsearch的存储模型和读写操作

 
阅读更多

剖析Elasticsearch集群系列涵盖了当今最流行的分布式搜索引擎Elasticsearch的底层架构和原型实例。

本文是这个系列的第一篇,在本文中,我们将讨论的Elasticsearch的底层存储模型及CRUD(创建、读取、更新和删除)操作的工作原理。

本系列已经得到原文著者Ronak Nathani的授权

Elasticsearch是当今最流行的分布式搜索引擎,GitHub、 SalesforceIQ、Netflix等公司将其用于全文检索和分析应用。在Insight,我们用到了Elasticsearch的诸多不同功能,比如:

  • 全文检索
    • 比如找到与搜索词项(term)最相关的维基百科文章。
  • 聚合
    • 比如在广告网络中,可视化的搜索词项的竞价直方图。
  • 地理空间API
    • 比如在顺风车平台,匹配最近的司机和乘客。

正是因为Elasticsearch如此流行并且就在我们身边,我决定深入研究一下。本文,我将分享Elasticsearch的存储模型和CRUD操作的工作原理。

当我在思考分布式系统是如何工作时,我脑海里的图案是这样的:

水面以上的是API,以下的才是真正的引擎,一切魔幻般的事件都发生在水下。本文所关注的就是水下的部分,我们将关注:

  • Elasticsearch是主从架构还是无主架构
  • Elasticsearch的存储模型是什么样的
  • Elasticsearch是怎么执行写操作的
  • Elasticsearch是怎么执行读操作的
  • 如何定义搜索结果的相关性

在我们深入这些概念之前,让我们熟悉下相关的术语。

1 辨析Elasticsearch的索引与Lucene的索引

Elasticsearch中的索引是组织数据的逻辑空间(就好比数据库)。1个Elasticsearch的索引有1个或者多个分片(默认是5个)。分片对应实际存储数据的Lucene的索引,分片自身就是一个搜索引擎。每个分片有0或者多个副本(默认是1个)。Elasticsearch的索引还包含"type"(就像数据库中的表),用于逻辑上隔离索引中的数据。在Elasticsearch的索引中,给定一个type,它的所有文档会拥有相同的属性(就像表的schema)。

(点击放大图像)

图a展示了一个包含3个分片的Elasticsearch索引,每个分片拥有1个副本。这些分片组成了一个Elasticsearch索引,每个分片自身是一个Lucene索引。图b展示了Elasticsearch索引、分片、Lucene索引和文档之间的逻辑关系。

对应于关系数据库术语

Elasticsearch Index == Database 
Types == Tables 
Properties == Schema

现在我们熟悉了Elasticsearch世界的术语,接下来让我们看一下节点有哪些不同的角色。

2 节点类型

一个Elasticsearch实例是一个节点,一组节点组成了集群。Elasticsearch集群中的节点可以配置为3种不同的角色:

  • 主节点:控制Elasticsearch集群,负责集群中的操作,比如创建/删除一个索引,跟踪集群中的节点,分配分片到节点。主节点处理集群的状态并广播到其他节点,并接收其他节点的确认响应。

    每个节点都可以通过设定配置文件elasticsearch.yml中的 node.master 属性为 true (默认)成为主节点。

    对于大型的生产集群来说,推荐使用一个专门的主节点来控制集群,该节点将不处理任何用户请求。

  • 数据节点:持有数据和倒排索引。默认情况下,每个节点都可以通过设定配置文件elasticsearch.yml中的 node.data 属性为 true (默认)成为数据节点。如果我们要使用一个专门的主节点,应将其 node.data 属性设置为 false 。

  • 客户端节点:如果我们将 node.master 属性和 node.data 属性都设置为 false,那么该节点就是一个客户端节点,扮演一个负载均衡的角色,将到来的请求路由到集群中的各个节点。

Elasticsearch集群中作为客户端接入的节点叫协调节点。协调节点会将客户端请求路由到集群中合适的分片上。对于读请求来说,协调节点每次会选择不同的分片处理请求,以实现负载均衡。

在我们开始研究发送给协调节点的CRUD请求是如何在集群中传播并被引擎执行之前,让我们先来看一下Elasticsearch内部是如何存储数据,以支持全文检索结果的低延迟服务的。

存储模型

Elasticsearch使用了 Apache Lucene ,后者是Doug Cutting( Apache Hadoop之父 )使用Java开发的全文检索工具库,其内部使用的是被称为倒排索引的数据结构,其设计是为全文检索结果的低延迟提供服务。文档是Elasticsearch的数据单位,对文档中的词项进行分词,并创建去重词项的有序列表,将词项与其在文档中出现的位置列表关联,便形成了倒排索引。

这和一本书后面的索引非常类似,即书中包含的词汇与其出现的页码列表关联。当我们说文档被索引了,我们指的是倒排索引。我们来看下如下2个文档是如何被倒排索引的:

文档1(Doc 1): Insight Data Engineering Fellows Program

文档2(Doc 2): Insight Data Science Fellows Program

如果我们想找包含词项"insight"的文档,我们可以扫描这个(单词有序的)倒排索引,找到"insight"并返回包含改词的文档ID,示例中是Doc 1和Doc 2。

为了提高可检索性(比如希望大小写单词都返回),我们应当先分析文档再对其索引。分析包括2个部分:

  • 将句子词条化为独立的单词
  • 将单词规范化为标准形式

默认情况下,Elasticsearch使用标准分析器,它使用了:

  • 标准分词器以单词为界来切词
  • 小写词条(token)过滤器来转换单词

还有很多可用的分析器在此不列举,请参考相关文档。

为了实现查询时能得到对应的结果,查询时应使用与索引时一致的分析器,对文档进行分析。

注意:标准分析器包含了停用词过滤器,但默认情况下没有启用。

现在,倒排索引的概念已经清楚,让我们开始CRUD操作的研究吧。我们从写操作开始。

剖析写操作

创建((C)reate)

当我们发送索引一个新文档的请求到协调节点后,将发生如下一组操作:

  • Elasticsearch集群中的每个节点都包含了改节点上分片的元数据信息。协调节点(默认)使用文档ID参与计算,以便为路由提供合适的分片。Elasticsearch使用 MurMurHash3 函数对文档ID进行哈希,其结果再对分片数量取模,得到的结果即是索引文档的分片。

    shard = hash(document_id) % (num_of_primary_shards)
  • 当分片所在的节点接收到来自协调节点的请求后,会将该请求写入translog(我们将在本系列接下来的文章中讲到),并将文档加入 内存缓冲 。如果请求在主分片上成功处理,该请求会并行发送到该分片的副本上。当translog被同步( fsync )到全部的主分片及其副本上后,客户端才会收到确认通知。
  • 内存缓冲会被周期性刷新(默认是1秒),内容将被写到文件系统缓存的一个新段上。虽然这个段并没有被同步(fsync),但它是开放的,内容可以被搜索到。
  • 每30分钟,或者当translog很大的时候,translog会被清空,文件系统缓存会被同步。这个过程在Elasticsearch中称为冲洗(flush)。在冲洗过程中,内存中的缓冲将被清除,内容被写入一个新段。段的fsync将创建一个新的提交点,并将内容刷新到磁盘。旧的translog将被删除并开始一个新的translog。

下图展示了写请求及其数据流。

(点击放大图像)

更新((U)pdate)和删除((D)elete)

删除和更新也都是写操作。但是Elasticsearch中的文档是不可变的,因此不能被删除或者改动以展示其变更。那么,该如何删除和更新文档呢?

磁盘上的每个段都有一个相应的 .del 文件。当删除请求发送后,文档并没有真的被删除,而是在 .del 文件中被标记为删除。该文档依然能匹配查询,但是会在结果中被过滤掉。当段合并(我们将在本系列接下来的文章中讲到)时,在 .del 文件中被标记为删除的文档将不会被写入新段。

接下来我们看更新是如何工作的。在新的文档被创建时,Elasticsearch会为该文档指定一个版本号。当执行更新时,旧版本的文档在 .del 文件中被标记为删除,新版本的文档被索引到一个新段。旧版本的文档依然能匹配查询,但是会在结果中被过滤掉。

文档被索引或者更新后,我们就可以执行查询操作了。让我们看看在Elasticsearch中是如何处理查询请求的。

剖析读操作((R)ead)

读操作包含2部分内容:

  • 查询阶段
  • 提取阶段

我们来看下每个阶段是如何工作的。

查询阶段

在这个阶段,协调节点会将查询请求路由到索引的全部分片(主分片或者其副本)上。每个分片独立执行查询,并为查询结果创建一个优先队列,以相关性得分排序(我们将在本系列的后续文章中讲到)。全部分片都将匹配文档的ID及其相关性得分返回给协调节点。协调节点创建一个优先队列并对结果进行全局排序。会有很多文档匹配结果,但是,默认情况下,每个分片只发送前10个结果给协调节点,协调节点为全部分片上的这些结果创建优先队列并返回前10个作为hit。

提取阶段

当协调节点在生成的全局有序的文档列表中,为全部结果排好序后,它将向包含原始文档的分片发起请求。全部分片填充文档信息并将其返回给协调节点。

下图展示了读请求及其数据流。

(点击放大图像)

如上所述,查询结果是按相关性排序的。接下来,让我们看看相关性是如何定义的。

搜索相关性

相关性是由搜索结果中Elasticsearch打给每个文档的得分决定的。默认使用的排序算法是tf/idf(词频/逆文档频率)。词频衡量了一个词项在文档中出现的次数 (频率越高 == 相关性越高),逆文档频率衡量了词项在全部索引中出现的频率,是一个索引中文档总数的百分比(频率越高 == 相关性越低)。最后的得分是tf-idf得分与其他因子比如(短语查询中的)词项接近度、(模糊查询中的)词项相似度等的组合。

接下来有什么?

这些CRUD操作由Elasticsearch内部的一些数据结构所支持,这对于理解Elasticsearch的工作机制非常重要。在接下来的系列文章中,我将带大家走进类似的那些概念并告诉大家在使用Elasticsearch中有哪些坑。

  • Elasticsearch中的脑裂问题及防治措施
  • 事务日志
  • Lucene的段
  • 为什么搜索时使用深层分页很危险
  • 计算搜索相关性中困难及权衡
  • 并发控制
  • 为什么Elasticsearch是准实时的
  • 如何确保读和写的一致性

     http://www.tuicool.com/topics/11020003

分享到:
评论

相关推荐

    1_elasticsearch技术解析与实战

    1. **数据模型**:Elasticsearch采用文档型的数据模型,每个文档被存储在一个索引(Index)中,索引由一个或多个类型(Type)组成,而类型又包含多个文档。在最新的版本中,Type概念已被弃用,所有文档直接属于索引...

    springBoot整合kafka和elasticSearch,实现批量拉取日志以及批量更新到es里

    4. **索引分片和副本**:根据集群资源设置合适的Elasticsearch索引分片和副本数量,提高读写性能。 5. **监控与调优**:定期监控系统性能,根据实际情况进行调优。 以上就是如何使用SpringBoot整合Kafka和Elastic...

    SolrCloud和ElasticSearch对比

    - **Solr** 在传统搜索方面表现更佳,而 **ElasticSearch** 在近实时搜索和读写索引方面更为优秀。 5. **数据模型**: - **Solr** 需要配置 **schema.xml** 文件来定义数据结构,而 **ElasticSearch** 支持 **...

    人工智能-项目实践-搜索引擎-SpringBoot+ElasticSearch全文搜索引擎

    2. **集成Spring Boot**:使用Spring Data Elasticsearch库来连接和操作Elasticsearch。这包括添加相关依赖,配置连接参数(如主机地址、端口),并创建ElasticsearchRepository接口以进行CRUD操作。 3. **定义数据...

    基于HDFS、ElasticSearch、Spark和TensorFlow的文本分析中台基础架构.pptx

    以考研信息分析为例,我们可以利用 ElasticSearch 对考研相关网站(如中国研究生招生信息网)上的信息进行抓取和索引,然后通过 TensorFlow 训练模型来对这些信息进行情感分析和主题分类,最终为用户提供有价值的...

    Elasticsearch.in.Action.2015.11

    2. **文档导向**:Elasticsearch处理的是JSON格式的文档,这使得它能适应各种类型的数据,且易于理解和操作。 3. **索引与搜索**:索引是将数据存储到Elasticsearch的过程,而搜索则通过查询语句从索引中获取信息。...

    elasticsearch-6.5.3.zip

    1. **分布式架构**:Elasticsearch设计时考虑了可扩展性和高可用性,它将数据分布在整个集群中,每个节点都可以存储和处理部分数据。这种设计使得它能够处理大量数据,并在节点故障时仍能保持服务的连续性。 2. **...

    Elasticsearch 5.0

    API接口得到了增强,包括批量操作(Bulk API)的优化,以及对JSON请求体的支持,使得与Elasticsearch的交互更加便捷。 9. **存储优化(Storage Optimization)** 引入了零拷贝(Zero Copy)技术,减少了数据在...

    G04-杨樾人-基于Elasticsearch集群的数据查询优化1

    Elasticsearch作为一个分布式、RESTful风格的搜索和数据分析引擎,能够快速地存储、搜索和分析大量数据。它采用了Apache Lucene作为其核心搜索引擎,提供了丰富的API接口和灵活的数据模型,支持实时数据索引和查询,...

    最新版Elasticsearch调优搜索速度.pdf

    Elasticsearch 是一款高度可扩展的全文搜索引擎,广泛应用于数据搜索和分析场景。在实际应用中,优化Elasticsearch的搜索速度是确保高效服务的关键。本文将深入探讨影响Elasticsearch查询性能的因素,并提出一系列...

    ES与大数据平台集成资料

    在现代大数据处理领域,Elasticsearch(简称ES)与大数据平台的集成变得越来越重要,尤其在结合Spark等处理引擎时,能实现高效的数据检索、分析和可视化。本资料集主要探讨了如何将Elasticsearch与大数据平台进行...

    精选7道Elastic Search面试题!.zip

    Elasticsearch(简称ES)是一种基于Lucene的分布式、RESTful搜索分析引擎,广泛应用于日志分析、实时监控、数据搜索、全文检索等场景。它以其高效、灵活、可扩展的特点,深受Java开发者喜爱。以下将针对精选的7道...

    HOS:一种基于HBase的分布式存储系统设计与实现.pdf

    在实际应用中,这种基于HBase和Redis的分布式存储系统能够适应多种场景,比如大数据量的存储和处理、需要快速读写操作的实时性应用等。通过本篇论文的介绍,我们可以了解到,HOS系统在结合HBase的稳定性与Redis的...

    PyPI 官网下载 | elasticsearch-django-5.1.tar.gz

    Elasticsearch是一个基于Lucene的开源分布式搜索引擎,具备实时、可扩展、全文搜索、分析和存储能力。它设计用于处理海量数据,支持水平扩展,能够处理PB级别的数据。Elasticsearch的主要特性包括: 1. **分布式**:...

    Java基于Elasticsearch与MariaDB的文档检索中心.zip

    通过Java客户端库,开发者可以方便地与Elasticsearch集群交互,实现文档的添加、删除、更新和检索操作。 MariaDB是MySQL的一个分支,它提供了高性能、高可用性和稳定性。在这个文档检索中心,MariaDB可能用于存储元...

    基础服务:redis + Elasticsearch + kafka + mysql + mongodb

    在这个场景中,我们关注的是五个关键组件:Redis、Elasticsearch、Kafka、MySQL和MongoDB。下面将分别详细介绍这五者的核心特性、用途以及它们如何协同工作。 **Redis** Redis是一个开源的内存数据结构存储系统,常...

    CQRS读写分离模式的例子

    总结来说,CQRS模式通过分离读写操作,提高了系统的可扩展性和性能,尤其是在高并发和复杂业务场景下。同时,结合Event Sourcing,可以实现对系统状态的完全追溯,增强了系统的可维护性和可恢复性。通过实际项目...

    yscb elastic 压力测试工具

    Elasticsearch(简称ES)作为一款流行的开源搜索引擎,常被用于大数据存储和检索场景。YSCB与Elasticsearch的结合,为评估ES在高并发、大数据量环境下的性能提供了有效的手段。本文将深入探讨YSBC如何对Elastic...

    04-阿里云 Elasticsearch Serverless 低成本弹性能力解读 杭州 1.6 2024

    在技术实现上,Elasticsearch Serverless可能采用了如Openstore这样的高性能存储技术,以优化数据存储和检索性能。Openstore可能作为热存储解决方案,确保快速的数据存取,以满足Elasticsearch的实时分析需求。 总...

Global site tag (gtag.js) - Google Analytics