`

ElasticSearch性能优化策略

 
阅读更多

ElasticSearch性能优化主要分为4个方面的优化。
一、服务器部署
1、增加1-2台服务器,用于负载均衡节点
elasticSearch的配置文件中有2个参数:node.master和node.data。这两个参 数搭配使用时,能够帮助提供服务器性能。
1.1> node.master: false    node.data: true
        该node服务器只作为一个数据节点,只用于存储索引数据。使该node服务器功能 单一,只用于数据存储和数据查询,降低其资源消耗率。
    1.2> node.master: true    node.data: false
        该node服务器只作为一个主节点,但不存储任何索引数据。该node服务器将使用 自身空闲的资源,来协调各种创建索引请求或者查询请求,讲这些请求合理分发到相关 的node服务器上。
    1.3> node.master: false    node.data: false
该node服务器即不会被选作主节点,也不会存储任何索引数据。该服务器主要用 于查询负载均衡。在查询的时候,通常会涉及到从多个node服务器上查询数据,并请 求分发到多个指定的node服务器,并对各个node服务器返回的结果进行一个汇总处理, 最终返回给客户端。
2、关闭data节点服务器中的http功能
针对ElasticSearch集群中的所有数据节点,不用开启http服务。将其中的配置 参数这样设置:http.enabled: false,同时也不要安装head, bigdesk, marvel等监控 插件,这样保证data节点服务器只需处理创建/更新/删除/查询索引数据等操作。
http功能可以在非数据节点服务器上开启,上述相关的监控插件也安装到这些服 务器上,用于监控ElasticSearch集群状态等数据信息。
这样做一来出于数据安全考虑,二来出于服务性能考虑。
3、一台服务器上最好只部署一个Node
一台物理服务器上可以启动多个Node服务器节点(通过设置不同的启动port), 但一台服务器上的CPU,内存,硬盘等资源毕竟有限,从服务器性能考虑,不建议一台 服务器上启动多个node节点。

二、服务器配置
1、配置索引线程池的大小
ElastiSearch服务器有多个线程池大小配置。主要有:index,search,suggest, get,bulk,percolate,snapshot,snapshot_data,warmer,refresh。
在此主要针对index和search进行一个配置调整。index操作包含:创 建/更新/删除索引数据。search操作主要针对用户的各种搜索操作。
具体配置如下:
threadpool:
    index:
        type: fixed
        size: 100
    search:
        type: fixed
        size: 1000
2、创建/查找索引设置相同的分词解析器
索引服务器用到了ik中文分词插件,对于添加到该搜索服务器中的数据都使用该 中文分词(例如orgglobal对象中的orgName就使用了ik中文分词)。当执行搜索请求 时,搜索关键词也需要用到相关的中文分词器,如果不指定设置的话,则会使用服务器 默认的中文分词standard,而使用standard作为中文分词器进行查询时,性能不好。 通过将ik中分词设置为默认的分词器时,则查询效率是standard的2-3倍。
该配置具体如下:
index:
     analysis:
         analyzer:
        ik:
         alias: [news_analyzer_ik,ik_analyzer]
          type: org.elasticsearch.index.analysis.IkAnalyzerProvider
index.analysis.analyzer.default.type: ik
    3、确定分片(shard)的数量和副本(replica)的数量
ElasticSearch在创建索引数据时,最好指定相关的shards数量和replicas,
    否则会使用服务器中的默认配置参数shards=5,replicas=1。
因为这两个属性的设置直接影响集群中索引和搜索操作的执行。假设你有足够的  
    机器来持有碎片和副本,那么可以按如下规则设置这两个值:
     1) 拥有更多的碎片可以提升索引执行能力,并允许通过机器分发一个大型的索引;
     2) 拥有更多的副本能够提升搜索执行能力以及集群能力。
  对于一个索引来说,number_of_shards只能设置一次,而number_of_replicas可以使用索引更新设置API在任何时候被增加或者减少。
这两个配置参数在配置文件的配置如下:
index.number_of_shards: 5
index.number_of_shards: 1
    4、查询速度慢的日志配置
在进行实际应用中,会记录下查询速度慢或者添加索引速度慢的操作记录,为后
    续性能优化提供依据。其具体配置如下:
index.search.slowlog.threshold.query.warn: 10s
index.search.slowlog.threshold.query.info: 5s
index.search.slowlog.threshold.query.debug: 2s
index.search.slowlog.threshold.query.trace: 500ms

index.search.slowlog.threshold.fetch.warn: 1s
index.search.slowlog.threshold.fetch.info: 800ms
index.search.slowlog.threshold.fetch.debug: 500ms
index.search.slowlog.threshold.fetch.trace: 200ms

index.indexing.slowlog.threshold.index.warn: 10s
index.indexing.slowlog.threshold.index.info: 5s
index.indexing.slowlog.threshold.index.debug: 2s
index.indexing.slowlog.threshold.index.trace: 500ms
三、数据结构优化
1、尽量减少不需要的字段
ElasticSearch中存储的数据是用于搜索服务,因此其他一些不需要用于搜索的字段最好不存到ES中,这样即节省空间,同时在相同的数据量下,也能提高搜索性能。
2、routing值的设置
通常情况下,往ElasticSearch服务器添加索引数据时,是无需指定routing值。ElasticSearch会根据索引Id,将该条数据存储到ElasticSearch集群中的一个shard中。而当指定了routing值为accountId(用户Id),则ElasticSearch会将相同accountId的多个数据都存放到同一个shard中,后续查询的时候,在指定routing值后,ElasticSearch只需要查询一个shard就能得到所有需要的数据,而不用再去查询所有的shard,从而大大提供了搜索性能。
四、运行期优化
1、optimize
随着时间的推移,ElasicSearch中每个shard的数据也会越来越多,索引越来越大,而生成的segment(在每个shard中,每个索引文件实际是由多个sgment文件组成)也会越来越多。而segment越多的话,则查询的性能越差,所以通过调用optimize命令,将多个segment合并成更少数量的segment(最少为一个),从而来提高查询性能。
在调用该命令时,可以设置几个参数,这些参数的具体含义如下:
1.1> max_num_segments
段数优化。要全面优化索引,将其设置为1。默认设置只需检查是否需要执行一个合并,如果需要,则执行它。【经过测试,该值越小,查询速度越快】
1.2> only_expunge_deletes
该优化操作是否只清空打有删除标签的索引记录。在Lucence中,在执行删除操作时,不会直接删除segment中的记录,而是对该记录打上delete标签。当多个segment进行合并操作时,就会生成一个新的segment,而该新的segment中不再包含删除的记录。这个参数允许只对哪些包含删除记录的segment进行优化操作。
1.3>flush
在执行完优化操作之后,再执行刷新操作。默认值为true
1.4>wait_for_merge
当该参数设置为true时,表示其他请求操作要等到合并segment操作结束之后,再进行响应。值得注意的是,由于这个优化操作是一个非常耗时,耗资源的事情,用户提交的请求操作是不能容忍等待这么久,所以这个参数最好设置为false.
具体调用命令如下:
http://localhost:9200/indexName/_optimize?only_expunge_deletes=true&wait_for_merge=false
2、warmers
当ElasticSearch服务器启动之后,业务系统中要使用的索引数据暂时没有导入到内存中,因此当用户进行第一次数据搜索时,会因为数据导入耗时很久,而严重影响用户的使用体验。为了解决该问题,可以使用warmer工具。通过ElastiSearch提供的工具,可以register/delete/get特定名称的warmer。通常情况下,warmer包含的请求需要载入大量的索引数据(例如在数据搜索中需要针对特定字段的排序操作,或者用到一些聚合sum,min,max函数的查询等),这样才能达到预热的效果。
具体调用示例如下(下面的warmer是针对索引名为test的warmer,warmer定义的名字为warmer_1):
curl -XPUT localhost:9200/test/_warmer/warmer_1 -d '{
    "query" : {
        "match_all" : {}
    },
    "aggs" : {
        "aggs_1" : {
            "terms" : {
                "field" : "field"
            }
        }
    }
}'
分享到:
评论

相关推荐

    elasticsearch 性能测试

    **Elasticsearch 性能测试** Elasticsearch 是一个分布式、全文检索的搜索引擎,广泛应用于数据分析、日志聚合和实时搜索场景。为了确保系统在高负载下仍能保持高效稳定,性能测试是至关重要的。本篇文章将围绕如何...

    Elasticsearch性能优化汇总.docx

    ### Elasticsearch性能优化详解 #### 一、硬件选择与磁盘I/O优化 Elasticsearch的基础构建于Lucene之上,所有索引及文档数据均存储在本地磁盘中。磁盘性能直接影响Elasticsearch的性能表现,尤其是在高负载情况下...

    企业级Elasticsearch 8.X技术来临!性能优化与集群部署 基础与进阶全面实战

    性能优化策略: 了解并掌握Elasticsearch性能优化的关键策略,包括索引设计、查询优化、分片与副本的管理等方面的最佳实践。 集群部署与管理: 学习如何设计、部署和管理稳健而高效的Elasticsearch集群,包括节点的...

    es性能优化.docx

    【Elasticsearch 性能优化】 Elasticsearch (ES) 是一个流行的开源全文搜索引擎,用于高效存储和检索大量数据。为了实现最佳性能,我们需要对多个层面进行调优,包括集群规划、Linux 系统参数配置、JVM 参数设置...

    Elasticsearch优化及升级1

    以下是一些关键的优化策略,主要关注内存管理、系统配置、索引设置以及网络配置。 1. 内存优化:Elasticsearch 建议使用系统内存的50%作为堆内存,但最大不超过32GB。在JVM参数中设置 `-Xmx` 和 `-Xms` 分别为8GB,...

    百度Elasticsearch实践及优化-高攀

    1. 数据导入优化:百度可能使用了批量导入数据的策略,如使用Elasticsearch的Bulk API,减少网络通信开销,提高导入效率。同时,通过合理的分片策略,确保数据分布均匀,降低单节点压力。 2. 查询性能提升:优化查询...

    elasticsearch elasticsearch-6.2.2 elasticsearch-6.2.2.zip 下载

    Elasticsearch 6.x系列相较于5.x版本有了显著的改进和增强,尤其是在性能优化和安全性方面。具体到6.2.2版本,它不仅继承了6.x系列的优势,还针对早期版本的一些已知问题进行了修复,提高了系统的稳定性和可靠性。...

    浅入深出ElasticSearch构建高性能搜索架构.docx

    ### 浅入深出ElasticSearch构建高性能搜索...通过以上内容的学习,读者不仅能掌握ElasticSearch的核心技术和实践技巧,还能了解如何构建和优化高性能的搜索架构。这将为处理大规模数据集和复杂查询场景提供坚实的基础。

    elasticSearch(ES)最新版 ik分词插件7.10 elasticsearch-analysis-ik-7.10.0

    Elasticsearch(ES)是一种流行的开源全文搜索引擎,它基于Lucene构建,提供了分布式、RESTful风格的搜索和分析引擎服务。在中文环境下,为了实现精确的分词和搜索,我们需要安装适合版本的分词插件,如“elastic...

    Elasticsearch 存储方式和管理优化细节1

    Elasticsearch 是一个分布式搜索引擎,其数据存储方式和管理优化对于高效检索和稳定运行至关重要。在Elasticsearch中,数据存储的基本单位是段(segment),每个段都是一个倒排索引,由Lucene生成。每次数据写入后,...

    elasticsearch-analysis-pinyin-7.4.0 es拼音分词器7.4.0

    在大数据环境下,elasticsearch-analysis-pinyin-7.4.0的性能优化显得尤为重要。随着数据量的增加,高效处理拼音转换和全文检索的能力直接影响到系统的响应速度。因此,理解并合理利用Elasticsearch的索引策略、分片...

    ElasticSearch官方测试数据

    **Elasticsearch官方测试数据详解** Elasticsearch(ES)是一种流行的开源...通过对Elasticsearch官方测试数据的深入研究和实践,我们可以更好地理解和优化Elasticsearch的性能,为实际应用提供强大且高效的搜索服务。

    Elasticsearch优化1

    在本文中,我们将深入探讨Elasticsearch的优化策略,这些策略涵盖了内存管理、系统配置、索引设置、集群通信和数据恢复等多个方面。Elasticsearch是一个高性能的全文搜索引擎,优化其性能对于提升系统的整体效率至关...

    适用于elasticsearch7.12.1版本

    这个版本的 Elasticsearch 针对性能和稳定性进行了优化,适用于大规模数据检索和分析场景。Elasticsearch 不仅支持英文分词,还特别强调了对中文的支持,因此在处理中文文档时,它通常会搭配使用专门的中文分词器。 ...

    elasticsearch6.6.0 aarch64 arm

    1. **增强的搜索性能**:Elasticsearch 6.6.0对搜索算法进行了优化,提升了查询速度和响应时间,尤其是在处理大规模数据时,能够提供更快的搜索体验。 2. **多租户支持**:支持多个独立索引,每个索引有自己的设置...

    JAVA实现ElasticSearch的简单实例

    Java实现Elasticsearch的简单实例主要涉及以下几个关键知识点: 1. **Elasticsearch基础**:Elasticsearch(ES)是一个...在实际开发中,还需要考虑性能优化、安全性、集群管理等多个方面,以构建高效稳定的ES应用。

    Elasticsearch技术解析与实战_高清 带索引书签目录_朱林(著)

    **Elasticsearch技术解析与实战**是一本由朱林编著的专业书籍,主要涵盖了Elasticsearch的核心概念、功能以及在实际应用中的策略。Elasticsearch(简称ES)是一款基于Lucene的分布式、RESTful搜索和分析引擎,广泛...

Global site tag (gtag.js) - Google Analytics