`

Elasticsearch Aggregations限制内存使用

阅读更多

限制内存使用

为了让聚集(或者任何需要访问字段值的请求)能够快点,访问fielddata一定会快些, 这就是为什么它加载到内存的原因。但是加载太多的数据到内存会导致垃圾回收缓慢, 因为JVM试着发现堆里面的额外空间,甚至导致OutOfMemory异常。

可能让你吃惊的是,你会发现Elaticsearch不是只把符合你的查询的值加载到fielddata. 而是把index里的所有document都加载到内存,甚至是不同的 _type 的document。

逻辑是这样的,如果你在这个查询需要访问documents X,Y和Z, 你可能在下一个查询 就需要访问别的documents。而一次把所有的值都加载并 保存在内存 , 比每次查询 都去扫描倒排索引要更方便。

JVM堆是一个有限制的资源需要聪明的使用。有许多现存的机制去限制fielddata对堆内 存使用的影响。这些限制非常重要,因为滥用堆将会导致节点的不稳定(多亏缓慢的垃 圾回收)或者甚至节点死亡(因为OutOfMemory异常)。

选择一个堆大小

对于环境变量 $ES_HEAP_SIZE 在设置Elasticsearch堆大小的时候有2个法则可以运用:

  • 不超过RAM的50%

    Lucene很好的利用了文件系统cache,文件系统cache是由内核管理的。如果没有足够的文 件系统cache空间,性能就会变差。

  • 不超过32G

    如果堆小于32GB,JVM能够使用压缩的指针,这会节省许多内存:每个指针就会使用4字节 而不是8字节。

    把对内存从32GB增加到34GB将意味着你将有 更少 的内存可用,因为所有的指针占用了 双倍的空间。同样,更大的堆,垃圾回收变得代价更大并且可能导致节点不稳定。

这个限制对大内存的影响主要是fielddata。

Fielddata大小

参数 indices.fielddata.cache.size 控制有多少堆内存是分配给fielddata的。当你 执行一个查询需要访问新的字段值的时候,将会把值加载到内存,然后试着把它们加入到 fielddata。如果结果的fielddata大小超过指定的 大小 ,为了腾出空间别的值就会被 驱逐出去。

默认情况下,这个参数设置的是 无限制 — Elasticsearch将永远不会把数据从fielddata 里替换出去。

这个默认值是故意选择的:fielddata不是临时的cache。它是一个在内存里为了快速执行必须 能被访问的数据结构,而且构建它代价非常昂贵。如果你每个请求都要重新加载数据,性能就 会很差。

一个有限的大小强迫数据结构去替换数据。我们将看看什么时候去设置下面的值,首先让我们 看一个警告:

[警告]

这个设置是一个保护措施,而不是一个内存不足的解决方案

如果你没有足够的内存区保存你的fielddata到内存里,Elasticsearch将会经常性的从磁盘 重新加载数据,并且驱逐别的数据区腾出空间。这种数据的驱逐会导致严重的磁盘I/O并且在 内存里产生大量的垃圾,这个会在后面被垃圾回收。

假设你在索引日志,每天使用给一个新的索引。通常情况下你只会对过去1天或者2天的数据 感兴趣。即使你把老的索引数据保留着,你也很少查询它们。尽管如此,使用默认的设置, 来自老索引的fielddata也不会被清除出去!fielddata会一直增长直到它触发fielddata circuit breaker --参见下面的 断路器 --它将阻止你继续加载fielddata。

在那个时候你被卡住了。即使你仍然能够执行访问老的索引里的fielddata的查询, 你再也不能 加载任何新的值了。相反,我们应该把老的值清除出去给新的值腾出空间。

为了防止这种情景,通过在 config/elasticsearch.yml 文件里加上如下的配置给fielddata 设置了一个上限:

indices.fielddata.cache.size:  40% (1)
  1. 能设置成堆大小的百分比,或者一个具体的值,比如 5gb.

通过适当的设置这个值,最近被访问的fielddata将被清除出去,给新加载的数据腾出空间。

[警告]

在网上你可能会看到另外一个设置参数: indices.fielddata.cache.expire 。

我们请求你 千万不要 使用这个设置!这个设置将来就会废弃了!

这个设置告诉Elasticsearch把比 过期时间 老的数据从fielddata里驱逐出去,而不管这个值 是否被用到。

这对性能是 非常可怕的 。驱逐数据是有代价的,并且这个有目的的高效的安排驱逐数据并没 有任何真正的收获。

没有任何理由去使用这个设置;我们一点也不能从理论上制造一个假设的有用的情景。现阶段存 在只是为了向后兼容。我们在这个书里提到这个设置是因为这个设置曾经在网络上的各种文章里 被作为一个 “性能小窍门” 被推荐过。

永远不要使用它!

监控fielddata

仔细监控fielddata使用了多少内存以及是否有数据被驱逐是非常重要的。大量的数据被驱逐会导 致严重的资源问题以及不好的性能。

Fielddata使用可以通过下面的方式来监控:

  • 对于单个索引使用 {ref}indices-stats.html[indices-stats API]:

    GET /_stats/fielddata?fields=*
    
  • 对于单个节点使用 {ref}cluster-nodes-stats.html[nodes-stats API]:

    GET /_nodes/stats/indices/fielddata?fields=*
    
  • 或者甚至单个节点单个索引

    GET /_nodes/stats/indices/fielddata?level=indices&fields=*
    

通过设置 ?fields=* 内存使用按照每个字段分解了.

断路器

聪明的读者可能已经注意到fielddata大小设置的一个问题。fielddata的大小是在数据被 加载之后才校验的。如果一个查询尝试加载到fielddata的数据比可用的内存大会发生什么 情况?答案是非常丑陋的:你将会获得一个OutOfMemory异常。

Elasticsearch包含了一个 fielddata断路器 ,这个就是设计来处理这种情况的。断路器 通过检查涉及的字段(它们的类型,基数,大小等等)来估计查询需要的内存。然后检查加 载需要的fielddata会不会导致总的fielddata大小超过设置的堆的百分比。

如果估计的查询大小超过限制,断路器就会触发并且查询会被抛弃返回一个异常。这个发生 在数据被加载之前,这就意味着你不会遇到OutOfMemory异常。

Elasticsearch拥有一系列的断路器,所有的这些都是用来保证内存限制不会被突破:

indices.breaker.fielddata.limit

这个 fielddata 断路器限制fielddata的大小为堆大小的60%,默认情况下。

indices.breaker.request.limit

这个 request 断路器估算完成查询的其他部分要求的结构的大小,比如创建一个聚集通, 以及限制它们到堆大小的40%,默认情况下。

indices.breaker.total.limit

这个 total 断路器封装了 request 和 fielddata 断路器去确保默认情况下这2个 使用的总内存不超过堆大小的70%。

断路器限制可以通过文件 config/elasticsearch.yml 指定,也可以在集群上动态更新:

PUT /_cluster/settings
{
  "persistent" : {
    "indices.breaker.fielddata.limit" : 40% (1)
  }
}
  1. 限制设置的是堆的百分比

最好把断路器设置成一个相对保守的值。记住fielddata需要和堆共享 request 断路器, 索引内存缓冲区,过滤器缓存,打开的索引的Lucene数据结构,以及各种各样别的临时数据 结构。所以默认为相对保守的60%。过分乐观的设置可能会导致潜在的OOM异常,从而导致整 个节点挂掉。

从另一方面来说,一个过分保守的值将会简单的返回一个查询异常,这个异常会被应用处理。 异常总比挂掉好。这些异常也会促使你重新评估你的查询:为什么单个的查询需要超过60%的 堆空间。

断路器和Fielddata大小

在 Fielddata大小 部分我们谈到了要给fielddata大小增加一个限制去保证老的不使用 的fielddata被驱逐出去。indices.fielddata.cache.size 和 indices.breaker.fielddata.limit 的关系是非常重要的。如果断路器限制比缓冲区大小要小,就会没有数据会被驱逐。为了能够 让它正确的工作,断路器限制必须比缓冲区大小要大。

我们注意到断路器是和总共的堆大小对比查询大小,而不是和真正已经使用的堆内存区比较。 这样做是有一系列技术原因的(比如,堆可能看起来是满的,但是实际上可能正在等待垃圾 回收,这个很难准确的估算)。但是作为终端用户,这意味着设置必须是保守的,因为它是 和整个堆大小比较,而不是空闲的堆比较。

 

from  http://blog.csdn.net/yinchunxiang/article/details/39011297

分享到:
评论

相关推荐

    ElasticSearch Java API 中文文档

    标题《ElasticSearch Java API 中文文档》表明本篇文档的主要内容是关于ElasticSearch的Java API的中文使用说明和相关知识点介绍。ElasticSearch是一个基于Lucene构建的开源搜索引擎,它提供了一个分布式、多用户...

    Elasticsearch queryJson实例代码

    在大数据分析和搜索领域,Elasticsearch(ES)因其高效、灵活和强大的全文检索能力而被广泛应用。在 ES 中,JSON 文档是数据存储和查询的基础,而查询 JSON 则是进行数据检索的关键。本篇文章将深入解析 `query` ...

    Elastic Search搭建使用教程.pdf(内含ElasticSearch教程权威指南)

    Elasticsearch是一款基于Lucene的开源搜索引擎,它使用RESTful接口进行数据操作,数据以JSON格式存储。Elasticsearch以其高效的全文搜索功能,实时数据处理能力,以及易于使用的特性,在众多企业中得到了广泛应用,...

    elasticsearch安装和使用

    使用`/opt/es/essoftware/elasticsearch-2.3.4/bin/plugin install mobz/elasticsearch-head`命令安装,然后通过`http://cm3:9200/_plugin/head/`访问。 2. Marvel和Kibana是Elasticsearch的数据监控和可视化工具。...

    (狂神)ElasticSearch快速入门笔记,ElasticSearch基本操作以及爬虫(Java-ES仿京东实战)

    (狂神)ElasticSearch快速入门笔记,ElasticSearch基本操作以及爬虫(Java-ES仿京东实战),包含了小狂神讲的东西,特别适合新手学习,笔记保存下来可以多看看。好记性不如烂笔头哦~,ElasticSearch,简称es,es是一个...

    es-head Elasticsearch的可视化操作插件

    es-head是一个针对Elasticsearch的可视化操作插件。它提供了一个便捷的操作工具,可以连接Elasticsearch搜索引擎,并提供可视化的操作页面,对Elasticsearch进行各种设置和数据检索功能的管理。 es-head 插件可以在...

    Elasticsearch 开机自启脚本

    `start` 用于启动Elasticsearch,这里使用 `su` 命令切换到指定的Elasticsearch用户(例如 `es-admin`),然后进入Elasticsearch的安装目录并执行 `bin/elasticsearch` 文件以后台模式启动服务。`stop` 通过查找并杀...

    elasticsearch JAVA使用手册

    在Java环境中使用Elasticsearch,通常会涉及到Elasticsearch官方提供的Java客户端库,它允许开发者通过Java代码操作Elasticsearch集群,实现数据的索引、查询、聚合、更新以及删除等操作。Java客户端通过REST API与...

    elasticsearch elasticsearch-6.2.2 elasticsearch-6.2.2.zip 下载

    根据提供的文件信息,我们可以推断出本篇文章将围绕Elasticsearch 6.2.2版本进行详细介绍,包括其下载方式、主要功能特性以及在实际应用中的常见用途。 ### Elasticsearch简介 Elasticsearch是一款基于Lucene的...

    elasticsearch常用版本

    在本文中,我们将深入探讨Elasticsearch的不同版本及其使用。 标题提及的"elasticsearch常用版本"意味着我们将关注几个Elasticsearch的主流版本,包括elasticsearch-2.4.4、elasticsearch-6.2.3。每个版本都有其...

    springboot+elasticsearch

    在查询Elasticsearch数据的“各种demo实现”中,开发者可能会创建多个示例,展示如何使用Spring Data Elasticsearch的Querydsl、Aggregations、Scrolling、Suggesters等功能,以及如何进行复杂的查询和过滤操作。...

    elasticSearch(ES)最新版 ik分词插件7.10 elasticsearch-analysis-ik-7.10.0

    Elasticsearch(ES)是一种流行的开源全文搜索引擎,它基于Lucene构建,提供了分布式、RESTful风格的搜索和分析引擎服务。在中文环境下,为了实现精确的分词和搜索,我们需要安装适合版本的分词插件,如“elastic...

    elasticsearch服务器安装包

    2. **下载安装包**:这里的"es安装包"即为Elasticsearch的安装文件,通常是一个zip或tar.gz格式的压缩包。你需要从官方网站或者镜像站点下载对应版本的安装包,确保与你的系统兼容。 3. **解压安装**:下载完成后,...

    ElasticSearch官方测试数据

    Elasticsearch(ES)是一种流行的开源全文搜索引擎,它基于Lucene库构建,被广泛用于大数据分析、日志聚合、实时搜索和索引等场景。官方提供的测试数据集是检验Elasticsearch功能、性能和稳定性的关键资源,可以帮助...

    elasticsearch7.17.10-最新支持Java1.8版本

    2. **倒排索引**:Elasticsearch使用倒排索引机制进行快速的全文搜索,将每个词项指向包含该词的文档集合,而不是将每个文档指向其包含的词项,大大提升了搜索效率。 3. **RESTful API**:Elasticsearch采用HTTP和...

    elasticsearch 8.11.3 windows安装包

    Elasticsearch 是位于 Elastic Stack 核心的分布式搜索和分析引擎。Logstash 和 Beats 有助于收集、聚合和丰富您的数据并将其存储在 Elasticsearch 中。Kibana 使您能够以交互方式探索、可视化和分享对数据的见解,...

    7.17.1系列Elasticsearch的elasticsearch-analysis-ik分词器

    适用于7.17.1系列,例如Elasticsearch的7.17.12版本。 elasticsearch-analysis-ik 是一个常用的中文分词器,在 Elasticsearch 中广泛应用于中文文本的分析和搜索。下面是 elasticsearch-analysis-ik 分词器的几个...

    elasticsearch-7.17.3

    1. 系统资源限制:确保有足够的内存和CPU资源,因为Elasticsearch是内存密集型应用。 2. 配置文件:编辑 `config/elasticsearch.yml` 文件,根据实际需求调整设置,如集群名称、节点角色、网络接口等。 3. 安全性:...

    ElasticSearch-head插件

    7. **安全控制**:虽然head插件本身不提供安全认证,但可以通过配置Elasticsearch的权限控制,限制对head的访问,确保数据安全。 在安装Elasticsearch-head插件时,需要确保已经安装Node.js和Grunt。通常,插件安装...

    elasticsearch7.14.0.zip

    这个压缩包包含了针对Windows和Linux操作系统的安装包,便于在不同环境下部署和使用Elasticsearch。此外,它还提供了多个插件的源码,如IK分词器、Pinyin插件和HanLP自然语言处理库,这些插件为Elasticsearch增加了...

Global site tag (gtag.js) - Google Analytics