关于elasticsearch filter bitset的全部
在使用ES进行查询时,你常常会发现自己深深地陷入了过滤器的各种复合中。假设你需要过滤满足下面要求的用户:
bitset
首先需要看看bitset如何工作的。基本上,bitset是一个表示状态的列表。每个位置非0即1.
过滤器不对文档打分——仅仅是包含或者拒绝。如果文档匹配了一个过滤器,则在bitset中会置成1;否则置为0.于是ES就可以在一个紧致的bitset中存储整个分段的过滤信息。
ES第一次执行过滤器时,他解析了Lucene的分段数据结构来判断哪些东西匹配了你的过滤器。而且会将这个信息存放在一个Bitset中。
下次同样的过滤器执行时,ES可以找到压缩后的Bitset而不是Lucene分段。这将带来性能的巨大提升。
我喜欢bitset的原因
怎么说bitset快都不为过
按bit进行操作是一个基础的计算单元,CPU专门设计为按照按bit操作的。执行一个内存中的按位AND比解析Lucene数据结构和手动地执行交集操作要快好几个数量级。
拥有多个过滤器时,可以进行AND操作来获得最终匹配的文档。
更好的是,bitset独立于查询本身进行cache。复杂的查询可以用一堆过滤器,但是这些过滤器bitset是独立的并且可以在其他的上下文环境中进行使用。这就使得ES重用过滤器非常高效。
而且因为bitset针对每个segment进行存储,ES可以做出一些非常酷的性能技巧。Lucene分段是不可变的——一旦写入磁盘,便永不改变
如果一个特定的过滤器不匹配一个分段中的任何文档(bitset中所有位置都是0),ES可以在其执行过滤操作时忽略整个bitset。
类似的,当新的分段被加进来时,缓存的过滤bitset不需要被关闭。如果你索引新的文档进入一个mysql表,例如B-Tree索引是不断地进行更新的。
使用ES过滤器缓存,只有新创建的分段需要构建过滤器bitset,老的bitset可以不需要修改进行重用。
boolean 还是 and/or/not
“可是这跟我有啥关系呢?”你也许会问。
当然重要了,因为bool过滤器使用了Bitset而and/or/not过滤器没有/如果你将一个term过滤器放入一个and中,尽管它存在,也不会用到Bitset。
为什么?
and/or/not是一个文档一个文档进行的。首先会载入需要放入field数据内存池中,然后对这些文档进行遍历。不会有bitset被使用,也就不会有缓存的过滤器重用复合了。ES简单地扫描文档的列表,并独立地检查每个。
如果你有多个过滤器,and/or/not将进行短路操作,只会传递匹配的文档进入下一个过滤器。
这个会降低每个后续的需要执行的过滤器工作量。因此,你最重的过滤器应该放到最后位置——典型例子是Geo过滤因为他们会进行相当重的计算来确定距离。
什么时候使用and/or/not
看起来Bool过滤器在任何方面都超过了对手,那么有没有什么时候需要使用and/or/not呢?
and/or/not在你使用哪些不返回bitset的过滤器时更有效率。这些操作肯定需要对每个文档进行一遍。例如,定制的script不是可以bitset化,因为它对每个文档进行计算。
在这些情形下,and/or/not是比bool更好的选择。Non-Bitset
过滤器非常少,下面列出来:
- Geo* filter
- Scripts
- Numeric_range
其他的过滤器都应该放在一个bool中
把bool和and/or/not结合起来
当你遇到需要用到这两者的情形时,可以将他们合起来使用。总是使用一个and/or/not整合起来。例如,你有这样的数据:
- Gender: Male
- Age: 23-26
- Language: English
- Custom Script
- Geo
你过滤器列表看起来就是这样:
{
"and" : [
{
"bool" : {
"must" : [
{ "term" : {} },
{ "range" : {} },
{ "term" : {} }
]
}
},
{ "custom_script" : {} },
{ "geo_distance" : {} }
]
}
总结
过滤器让我们可以找到想要的文档,通过使用bitset操作来代替简单的排除操作来提高查询性能。当我们整合过滤器时,确保你花了时间来考虑如何组织他们来使用合适的聚合过滤器的类:
- Geo, Script or Numeric_range filter: Use And/Or/Not Filters
- Everything else: Use Bool Filter
from http://www.jianshu.com/p/627a4459975d
相关推荐
(狂神)ElasticSearch快速入门笔记,ElasticSearch基本操作以及爬虫(Java-ES仿京东实战),包含了小狂神讲的东西,特别适合新手学习,笔记保存下来可以多看看。好记性不如烂笔头哦~,ElasticSearch,简称es,es是一个...
多弹性搜索头,对著名的 Elasticsearch Head 的改进 1.保存和存储几个Elasticsearch端点 2.索引选项卡中的更多列 3. 任何请求现在都可以像 /_cat/indices 一样处理 JSON 返回 4. 更简约的外观(更小的字体等...) ...
适用于7.17.1系列,例如Elasticsearch的7.17.12版本。 elasticsearch-analysis-ik 是一个常用的中文分词器,在 Elasticsearch 中广泛应用于中文文本的分析和搜索。下面是 elasticsearch-analysis-ik 分词器的几个...
Elasticsearch 是位于 Elastic Stack 核心的分布式搜索和分析引擎。Logstash 和 Beats 有助于收集、聚合和丰富您的数据并将其存储在 Elasticsearch 中。Kibana 使您能够以交互方式探索、可视化和分享对数据的见解,...
根据提供的文件信息,我们可以推断出本篇文章将围绕Elasticsearch 6.2.2版本进行详细介绍,包括其下载方式、主要功能特性以及在实际应用中的常见用途。 ### Elasticsearch简介 Elasticsearch是一款基于Lucene的...
Elasticsearch(ES)是一种流行的开源全文搜索引擎,它基于Lucene构建,提供了分布式、RESTful风格的搜索和分析引擎服务。在中文环境下,为了实现精确的分词和搜索,我们需要安装适合版本的分词插件,如“elastic...
Elasticsearch(简称ES)是一款强大的开源搜索引擎,广泛应用于数据检索、分析和管理。作为分布式、RESTful风格的搜索和数据分析引擎,Elasticsearch能够提供实时、高可用性以及可扩展的搜索功能。在进行日常的数据...
**Elasticsearch 8.11 for Windows** Elasticsearch 是一个开源的分布式搜索引擎,以其高可伸缩性、实时性、灵活性以及强大的数据分析能力而闻名。在Windows平台上部署Elasticsearch,用户可以利用其强大的搜索和...
`start` 用于启动Elasticsearch,这里使用 `su` 命令切换到指定的Elasticsearch用户(例如 `es-admin`),然后进入Elasticsearch的安装目录并执行 `bin/elasticsearch` 文件以后台模式启动服务。`stop` 通过查找并杀...
Elasticsearch是一款基于Lucene的开源搜索引擎,它使用RESTful接口进行数据操作,数据以JSON格式存储。Elasticsearch以其高效的全文搜索功能,实时数据处理能力,以及易于使用的特性,在众多企业中得到了广泛应用,...
es-head是一个针对Elasticsearch的可视化操作插件。它提供了一个便捷的操作工具,可以连接Elasticsearch搜索引擎,并提供可视化的操作页面,对Elasticsearch进行各种设置和数据检索功能的管理。 es-head 插件可以在...
Elasticsearch 7.14.0 是一个高度可扩展的全文搜索引擎,广泛应用于日志分析、实时数据分析和全文检索等多个领域。这个压缩包包含了针对Windows和Linux操作系统的安装包,便于在不同环境下部署和使用Elasticsearch。...
Elasticsearch是一个强大的开源搜索引擎,基于Apache Lucene构建,它为开发者和数据分析师提供了高效、可扩展、实时的搜索和分析功能。6.8.18版本是Elasticsearch的一个稳定版本,它在前几个版本的基础上进行了优化...
2. **下载安装包**:这里的"es安装包"即为Elasticsearch的安装文件,通常是一个zip或tar.gz格式的压缩包。你需要从官方网站或者镜像站点下载对应版本的安装包,确保与你的系统兼容。 3. **解压安装**:下载完成后,...
Elasticsearch 8.14.1 是一个高度可扩展的开源全文检索和分析引擎,专为分布式环境设计。它允许开发者和系统管理员快速、高效地存储、搜索和分析大量数据。Elasticsearch 广泛应用于日志分析、信息检索、网站搜索、...
这个名为"基于.netcore搜索封装ElasticSearch.zip"的压缩包,显然包含了一个针对.NET Core平台的Elasticsearch客户端库,方便开发者在.NET Core应用中集成和操作Elasticsearch。 Elasticsearch是一个开源的分布式...
在数据抽取 ELT 领域,ES 全家桶 ELK(Elasticsearch+Logstash+Kibana)赫赫有名。 Elasticsearch 基本概念: * 倒排索引:Elasticsearch 为什么快,核心设计理念就是采用了倒排索引机制。倒排索引的方式是,根据 ...
Elasticsearch 是一个流行的开源全文搜索引擎,常用于大数据分析和实时数据检索。然而,如果没有正确配置安全设置,它可能会暴露于未授权访问的风险中,这可能导致数据泄露或恶意操作。本文将详细讲解如何修复 ...
Elasticsearch 7.12.1 是一个强大的开源全文搜索引擎,它基于 Lucene 库进行构建,提供了分布式、实时的搜索和分析引擎服务。这个版本的 Elasticsearch 针对性能和稳定性进行了优化,适用于大规模数据检索和分析场景...