`

(转)elasticsearch堆内存:大小和交换

阅读更多

堆内存:大小和交换

Elasticsearch 默认安装后设置的堆内存是 1 GB。对于任何一个业务部署来说,这个设置都太小了。如果你正在使用这些默认堆内存配置,您的集群可能会出现问题。

这里有两种方式修改 Elasticsearch 的堆内存。最简单的一个方法就是指定 ES_HEAP_SIZE 环境变量。服务进程在启动时候会读取这个变量,并相应的设置堆的大小。比如,你可以用下面的命令设置它:

export ES_HEAP_SIZE=10g

此外,你也可以通过命令行参数的形式,在程序启动的时候把内存大小传递给它,如果你觉得这样更简单的话:

./bin/elasticsearch -Xmx10g -Xms10g (1)

<!--[if !supportLists]-->1.    <!--[endif]-->确保堆内存最小值( Xms )与最大值( Xmx )的大小是相同的,防止程序在运行时改变堆内存大小,这是一个很耗系统资源的过程。

通常来说,设置 ES_HEAP_SIZE 环境变量,比直接写 -Xmx -Xms 更好一点。

把你的内存的(少于)一半给 Lucene

一个常见的问题是给 Elasticsearch 分配的内存  大了。假设你有一个 64 GB 内存的机器,天啊,我要把 64 GB 内存全都给 Elasticsearch。因为越多越好啊!

当然,内存对于 Elasticsearch 来说绝对是重要的,它可以被许多内存数据结构使用来提供更快的操作。但是说到这里,还有另外一个内存消耗大户 非堆内存 off-heap):Lucene

Lucene 被设计为可以利用操作系统底层机制来缓存内存数据结构。 Lucene 的段是分别存储到单个文件中的。因为段是不可变的,这些文件也都不会变化,这是对缓存友好的,同时操作系统也会把这些段文件缓存起来,以便更快的访问。

Lucene 的性能取决于和操作系统的相互作用。如果你把所有的内存都分配给 Elasticsearch 的堆内存,那将不会有剩余的内存交给 Lucene这将严重地影响全文检索的性能。

标准的建议是把 50的可用内存作为 Elasticsearch 的堆内存,保留剩下的 50%。当然它也不会被浪费,Lucene 会很乐意利用起余下的内存。

如果你不需要对分词字符串做聚合计算(例如,不需要 fielddata )可以考虑降低堆内存。堆内存越小,Elasticsearch(更快的 GC)和 Lucene(更多的内存用于缓存)的性能越好。

不要超过 32 GB

这里有另外一个原因不分配大内存给 Elasticsearch。事实上, JVM 在内存小于 32 GB 的时候会采用一个内存对象指针压缩技术。

Java 中,所有的对象都分配在堆上,并通过一个指针进行引用。普通对象指针(OOP)指向这些对象,通常为 CPU 字长 的大小:32 位或 64 位,取决于你的处理器。指针引用的就是这个 OOP 值的字节位置。

对于 32 位的系统,意味着堆内存大小最大为 4 GB。对于 64 位的系统,可以使用更大的内存,但是 64 位的指针意味着更大的浪费,因为你的指针本身大了。更糟糕的是,更大的指针在主内存和各级缓存(例如 LLCL1 等)之间移动数据的时候,会占用更多的带宽。

Java 使用一个叫作 内存指针压缩(compressed oops的技术来解决这个问题。它的指针不再表示对象在内存中的精确位置,而是表示 偏移量 。这意味着 32 位的指针可以引用 40 亿个 对象 而不是 40 亿个字节。最终,也就是说堆内存增长到 32 GB 的物理内存,也可以用 32 位的指针表示。

一旦你越过那个神奇的 ~32 GB 的边界,指针就会切回普通对象的指针。每个对象的指针都变长了,就会使用更多的 CPU 内存带宽,也就是说你实际上失去了更多的内存。事实上,当内存到达 40–50 GB 的时候,有效内存才相当于使用内存对象指针压缩技术时候的 32 GB 内存。

这段描述的意思就是说:即便你有足够的内存,也尽量不要超过 32 GB。因为它浪费了内存,降低了 CPU 的性能,还要让 GC 应对大内存。

到底需要低于 32 GB多少,来设置我的 JVM

遗憾的是,这需要看情况。确切的划分要根据 JVMs 和操作系统而定。如果你想保证其安全可靠,设置堆内存为 31 GB 是一个安全的选择。另外,你可以在你的 JVM 设置里添加 -XX:+PrintFlagsFinal 用来验证 JVM 的临界值,并且检查 UseCompressedOops 的值是否为 true。对于你自己使用的 JVM 和操作系统,这将找到最合适的堆内存临界值。

例如,我们在一台安装 Java 1.7 MacOSX 上测试,可以看到指针压缩在被禁用之前,最大堆内存大约是在 32600 mb~31.83 gb):

$ JAVA_HOME=`/usr/libexec/java_home -v 1.7` java -Xmx32600m -XX:+PrintFlagsFinal 2> /dev/null | grep UseCompressedOops

     bool UseCompressedOops   := true

$ JAVA_HOME=`/usr/libexec/java_home -v 1.7` java -Xmx32766m -XX:+PrintFlagsFinal 2> /dev/null | grep UseCompressedOops

     bool UseCompressedOops   = false

相比之下,同一台机器安装 Java 1.8,可以看到指针压缩在被禁用之前,最大堆内存大约是在 32766 mb~31.99 gb):

$ JAVA_HOME=`/usr/libexec/java_home -v 1.8` java -Xmx32766m -XX:+PrintFlagsFinal 2> /dev/null | grep UseCompressedOops

     bool UseCompressedOops   := true

$ JAVA_HOME=`/usr/libexec/java_home -v 1.8` java -Xmx32767m -XX:+PrintFlagsFinal 2> /dev/null | grep UseCompressedOops

     bool UseCompressedOops   = false

这个例子告诉我们,影响内存指针压缩使用的临界值,是会根据 JVM 的不同而变化的。所以从其他地方获取的例子,需要谨慎使用,要确认检查操作系统配置和 JVM

如果使用的是 Elasticsearch v2.2.0,启动日志其实会告诉你 JVM 是否正在使用内存指针压缩。你会看到像这样的日志消息:

[2015-12-16 13:53:33,417][INFO ][env] [Illyana Rasputin] heap size [989.8mb], compressed ordinary object pointers [true]

这表明内存指针压缩正在被使用。如果没有,日志消息会显示 [false] 

我有一个 1 TB 内存的机器!

这个 32 GB 的分割线是很重要的。那如果你的机器有很大的内存怎么办呢?一台有着 512–768 GB内存的服务器愈发常见。

首先,我们建议避免使用这样的高配机器(参考 [hardware])。

但是如果你已经有了这样的机器,你有三个可选项:

<!--[if !supportLists]-->·         <!--[endif]-->你主要做全文检索吗?考虑给 Elasticsearch 4 - 32 GB 的内存, Lucene 通过操作系统文件缓存来利用余下的内存。那些内存都会用来缓存 segments,带来极速的全文检索。

<!--[if !supportLists]-->·         <!--[endif]-->你需要更多的排序和聚合?而且大部分的聚合计算是在数字、日期、地理点和 非分词 字符串上?你很幸运,你的聚合计算将在内存友好的 doc values 上完成! Elasticsearch 4 32 GB 的内存,其余部分为操作系统缓存内存中的 doc values

<!--[if !supportLists]-->·         <!--[endif]-->你在对分词字符串做大量的排序和聚合(例如,标签或者 SigTerms,等等)不幸的是,这意味着你需要 fielddata,意味着你需要堆空间。考虑在单个机器上运行两个或多个节点,而不是拥有大量 RAM 的一个节点。仍然要坚持 50原则。

假设你有个机器有 128 GB 的内存,你可以创建两个节点,每个节点内存分配不超过 32 GB也就是说不超过 64 GB 内存给 ES 的堆内存,剩下的超过 64 GB 的内存给 Lucene

如果你选择这一种,你需要配置 cluster.routing.allocation.same_shard.host: true 这会防止同一个分片(shard)的主副本存在同一个物理机上(因为如果存在一个机器上,副本的高可用性就没有了)。

Swapping 是性能的坟墓

这是显而易见的,但是还是有必要说的更清楚一点:内存交换到磁盘对服务器性能来说是 致命 的。想想看:一个内存操作必须能够被快速执行。

如果内存交换到磁盘上,一个 100 微秒的操作可能变成 10 毫秒。再想想那么多 10 微秒的操作时延累加起来。不难看出 swapping 对于性能是多么可怕。

最好的办法就是在你的操作系统中完全禁用 swap。这样可以暂时禁用:

sudo swapoff -a

如果需要永久禁用,你可能需要修改 /etc/fstab 文件,这要参考你的操作系统相关文档。

如果你并不打算完全禁用 swap,也可以选择降低 swappiness 的值。这个值决定操作系统交换内存的频率。这可以预防正常情况下发生交换,但仍允许操作系统在紧急情况下发生交换。

对于大部分Linux操作系统,可以在 sysctl 中这样配置:

vm.swappiness = 1 (1)

<!--[if !supportLists]-->1.    <!--[endif]-->swappiness 设置为 1 比设置为 0 要好,因为在一些内核版本 swappiness 设置为 0 会触发系统 OOM-killer(注:Linux 内核的 Out of MemoryOOMkiller 机制)。

最后,如果上面的方法都不合适,你需要打开配置文件中的 mlockall 开关。它的作用就是允许 JVM 锁住内存,禁止操作系统交换出去。在你的 elasticsearch.yml 文件中,设置如下:

bootstrap.mlockall: true

转自:https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/blob/cn/510_Deployment/50_heap.asciidoc

 

 

 

 

 

 

分享到:
评论

相关推荐

    elasticsearch服务器安装包

    Elasticsearch是一个开源的全文搜索引擎,它以分布式、RESTful接口和实时性为特点,广泛应用于数据搜索、分析和监控。这个"elasticsearch服务器安装包"包含了一个用于部署Elasticsearch服务的jar包,以及可能的配置...

    Elasticsearch优化及升级1

    1. 内存优化:Elasticsearch 建议使用系统内存的50%作为堆内存,但最大不超过32GB。在JVM参数中设置 `-Xmx` 和 `-Xms` 分别为8GB,这确保了JVM启动时分配的最小和最大堆内存一致,避免了动态调整带来的性能波动。...

    最新版windows elasticsearch-7.8.0-windows-x86_64.zip

    可以在`jvm.options`文件中调整JVM堆内存大小,如`-Xms`和`-Xmx`。 4. **安全性**:Elasticsearch 7.8.0开始引入了默认的安全机制,包括内置的Transport和HTTP SSL/TLS加密。在生产环境中,应配置合适的证书和密码...

    最新版linux elasticsearch-7.16.2-linux-x86_64.tar.gz

    7. **JVM调优**:Elasticsearch依赖Java虚拟机(JVM),根据你的系统资源,可能需要调整JVM堆大小等参数,这在`jvm.options`文件中进行。 8. **插件安装**:Elasticsearch支持丰富的插件,如Kibana用于数据可视化,...

    elasticsearch6.8.10

    4. **内存分配**:`bootstrap.memory_lock` 锁定内存以避免交换,`indices.memory.index_buffer_size` 控制索引缓冲区大小。 **安全性与权限**: Elasticsearch 6.8.10 版本可能需要额外的安全配置,例如设置用户和...

    ElasticSearch中文学习教程

    主要关注点包括堆内存大小、垃圾回收策略等。 #### 五、源码分析 **6.1. 使用Guice进行依赖注入与模块化系统** ElasticSearch使用Guice框架来管理和注入依赖,这有助于提高代码的可维护性和可扩展性。 **6.2. ...

    linux elasticsearch 7.17.0

    Linux上的Elasticsearch 7.17.0是一款强大的开源搜索引擎和分析引擎,主要用于处理、存储、搜索和分析大量数据。Elasticsearch基于Lucene库,但提供了更高级别的分布式、实时、容错功能,使其成为大数据场景下理想的...

    ElasticSearch写入原理及优化.docx

    Elasticsearch(ES)是一种流行的分布式搜索引擎和分析引擎,它以高效、实时的特性而闻名。本文主要探讨了Elasticsearch的写入、读取、检索数据的底层原理以及性能调优策略。 **Elasticsearch 写入数据流程** 1. ...

    test-es集成.zip

    5. **内存和JVM配置**:调整`bootstrap.memory_lock`以锁定内存避免交换,以及`xms`和`xmx`设置JVM内存大小。 **Logstash**: Logstash是一个数据收集、处理和转发引擎,用于将各类数据源的日志数据转化为结构化的...

    elasticsearch.yml.zip

    - `xms` 和 `xmx`: 分别设置JVM初始堆大小和最大堆大小,确保有足够的内存运行Elasticsearch。 7. **安全性与认证** - `action.auto_create_index`: 是否自动创建索引,可防止未经许可的索引创建。 - `security....

    elasticsearch:搜索..

    运行./elasticsearch(具有可选的堆大小设置:-Xmx2G -Xms2G) 转到http://:9200 / _plugin / HQ以查看集群状态 后备 如使用主体将存储库注册到/ _snapshot / ,主体 使用可选正文对/ _snapshot / &lt;R

    elasticsearch配置优化文档

    如果要在 32 位机器上以客户端模式运行 Elasticsearch,则需要修改 `jvm.options` 文件,移除 `-server` 参数,并调整线程堆栈大小 (`-Xss`) 到合适的值,例如从 `1m` 减小至 `320k`。但是,官方并不建议直接修改 `...

    Elasticsearch索引和查询性能调优.pdf

    Elasticsearch是一个强大的分布式搜索引擎,广泛应用于日志分析、实时数据分析和全文检索等领域。为了确保其性能,我们需要对其进行有效的调优。以下是一些关键的Elasticsearch索引和查询性能优化策略。 首先,硬件...

    Elasticsearch数据库下载、配置、使用案例与项目源码资源.docx

    - **jvm.options**: 配置 JVM 的初始和最大堆内存大小等参数。 ##### 安全设置 - **xpack.security.enabled**: 开启 X-Pack 安全模块,提供身份验证、授权等功能。 - **xpack.security.http.ssl.enabled**: 配置 ...

    linux下安装ES.txt

    进入`config`目录,编辑配置文件`elasticsearch.yml`和`logging.yml`。 2. **集群名称**: ```yaml cluster.name: elasticsearch ``` 设置集群的名称,默认为`elasticsearch`。 3. **节点名称**: ```yaml ...

    es 5.4.3版本及一键配置脚本

    2. **交换空间**:虽然 Elasticsearch 建议禁用交换空间,但在资源有限的环境中,可以适当设置交换空间,但要确保其大小远小于 heap size。 3. **线程池配置**:根据工作负载调整 Elasticsearch 的线程池设置,以...

    Elasticsearch最新2021年面试题大汇总,附答案.md

    - **合理设置堆内存**:根据节点的实际内存大小,合理配置JVM的堆内存,通常推荐设置为节点内存的一半或不超过32GB。 - **调整文件句柄限制**:提高系统的最大文件句柄数,以支持更多的并发连接。 - **调整线程池和...

    ES优化1

    - 变量`ES_HEAP_SIZE`用于设定JVM堆内存大小,需确保不超过物理内存的一半。 3. **集群与节点命名**: - 集群名称需明确,便于管理和识别,节点名称建议使用主机名,方便故障排查。 4. **主节点与数据节点**: ...

    ES和HADOOP使用问题和需求

    在实时数据分析领域,ELK(Elasticsearch、Logstash、Kibana)栈提供了从数据采集、处理到可视化的完整解决方案。 - **节点个数考量**:节点个数不是越多越好,应根据具体需求和数据特性来确定。对于数据量不大且...

    《深入解析Linux内存管理》

    - **交换机制**:将部分不常用的数据或代码从物理内存移动到磁盘,以便腾出更多物理内存空间。 - **缺页异常**:当CPU尝试访问一个未映射到物理内存的虚拟页面时触发的异常。 - **共享内存**:允许多个进程共享同一...

Global site tag (gtag.js) - Google Analytics