原文链接:http://blog.csdn.net/dm_vincent/article/details/42387161
本章翻译自Elasticsearch官方指南的Aggregations-High-level Concepts一章。
高层概念(High-Level Concepts)
和查询DSL一样,聚合(Aggregations)也拥有一种可组合(Composable)的语法:独立的功能单元可以被混合在一起来满足你的需求。这意味着需要学习的基本概念虽然不多,但是它们的组合方式是几近无穷的。
为了掌握聚合,你只需要了解两个主要概念:
Buckets(桶):
满足某个条件的文档集合。
Metrics(指标):
为某个桶中的文档计算得到的统计信息。
就是这样!每个聚合只是简单地由一个或者多个桶,零个或者多个指标组合而成。可以将它粗略地转换为SQL:
SELECT COUNT(color)
FROM table
GROUP BY color
以上的COUNT(color)就相当于一个指标。GROUP BY color则相当于一个桶。
桶和SQL中的组(Grouping)拥有相似的概念,而指标则与COUNT(),SUM(),MAX()等相似。
让我们仔细看看这些概念。
桶(Buckets)
一个桶就是满足特定条件的一个文档集合:
- 一名员工要么属于男性桶,或者女性桶。
- 城市Albany属于New York州这个桶。
- 日期2014-10-28属于十月份这个桶。
随着聚合被执行,每份文档中的值会被计算来决定它们是否匹配了桶的条件。如果匹配成功,那么该文档会被置入该桶中,同时聚合会继续执行。
桶也能够嵌套在其它桶中,能让你完成层次或者条件划分这些需求。比如,Cincinnati可以被放置在Ohio州这个桶中,而整个Ohio州则能够被放置在美国这个桶中。
ES中有很多类型的桶,让你可以将文档通过多种方式进行划分(按小时,按最流行的词条,按年龄区间,按地理位置,以及更多)。但是从根本上,它们都根据相同的原理运作:按照条件对文档进行划分。
指标(Metrics)
桶能够让我们对文档进行有意义的划分,但是最终我们还是需要对每个桶中的文档进行某种指标计算。分桶是达到最终目的的手段:提供了对文档进行划分的方法,从而让你能够计算需要的指标。
多数指标仅仅是简单的数学运算(比如,min,mean,max以及sum),它们使用文档中的值进行计算。在实际应用中,指标能够让你计算例如平均薪资,最高出售价格,或者百分之95的查询延迟。
将两者结合起来
一个聚合就是一些桶和指标的组合。一个聚合可以只有一个桶,或者一个指标,或者每样一个。在桶中甚至可以有多个嵌套的桶。比如,我们可以将文档按照其所属国家进行分桶,然后对每个桶计算其平均薪资(一个指标)。
因为桶是可以嵌套的,我们能够实现一个更加复杂的聚合操作:
- 将文档按照国家进行分桶。(桶)
- 然后将每个国家的桶再按照性别分桶。(桶)
- 然后将每个性别的桶按照年龄区间进行分桶。(桶)
- 最后,为每个年龄区间计算平均薪资。(指标)
此时,就能够得到每个<国家,性别,年龄>组合的平均薪资信息了。它可以通过一个请求,一次数据遍历来完成!
相关推荐
Elasticsearch(ES)是一款功能强大的全文搜索引擎,广泛应用于数据检索、数据分析等领域。为了提高搜索的准确性和便利性,Elasticsearch提供了丰富的分析插件,其中"elasticsearch-analysis-dynamic-synonym-7.2.0...
在IT领域,尤其是在搜索引擎优化和大数据分析中,Elasticsearch(ES)是一个广泛使用的开源全文检索引擎。它基于Lucene库,提供了分布式、实时、高可用性以及容错能力的数据存储和搜索解决方案。本篇文章将重点讲解...
Elasticsearch插件安装后,可以被集成到Elasticsearch的内部机制中,使得用户可以在Elasticsearch实例上直接使用插件提供的功能。Elasticsearch的插件有多种,其中就包括同义词处理插件。同义词插件让Elasticsearch...
《Elasticsearch拼音分词器7.4.0在大数据全文检索中的应用》 Elasticsearch(简称ES)是一款强大的开源搜索引擎,广泛应用于大数据领域的全文检索。它以其高可扩展性、实时性能以及丰富的分析能力著称。在中文环境...
在现代大数据分析和搜索引擎领域,Elasticsearch(ES)因其高效、灵活的全文检索能力而备受青睐。然而,对于中文这样的多字节语言,如何准确地进行分词是关键。这时,我们就需要引入专门的中文分词器。本文将详细...
最新版 elasticsearch-analysis-ik-8.7.0.zip最新版 elasticsearch-analysis-ik-8.7.0.zip最新版 elasticsearch-analysis-ik-8.7.0.zip最新版 elasticsearch-analysis-ik-8.7.0.zip
在信息技术领域,尤其是在搜索引擎和全文检索系统的发展上,Elasticsearch作为一款开源的搜索引擎库,已经广泛应用在数据检索和分析的场景中。Elasticsearch的优势在于其扩展性强,支持多种插件,其中Elasticsearch-...
在Elasticsearch 7.10.0版本中,"elasticsearch-analysis-ik-7.10.0.zip"是一个包含了IK分词器的压缩包,适用于这个特定版本的Elasticsearch。用户在下载并解压此文件后,可以将其安装到Elasticsearch环境中,以增强...
最新版elasticsearch-analysis-ik-8.8.1.zip最新版elasticsearch-analysis-ik-8.8.1.zip最新版elasticsearch-analysis-ik-8.8.1.zip最新版elasticsearch-analysis-ik-8.8.1.zip
"elasticsearch-analysis-dynamic-synonym-7.0.0.zip"是一个专为Elasticsearch设计的同义词插件,它的主要目的是在搜索过程中实现同义词的智能匹配,提高搜索的准确性和用户体验。 这个插件的独特之处在于它支持...
Elasticsearch(ES)作为一个开源的全文搜索引擎,因其强大的搜索功能和分布式特性而备受青睐。然而,对于中文这种复杂的语言,分词是搜索引擎理解文本的关键步骤。本文将详细介绍elasticsearch-analysis-ik-7.10.2...
总的来说,"elasticsearch-analysis-ik-7.6.2.zip"是Elasticsearch对中文文本处理的重要工具,它帮助我们更有效地索引和搜索中文内容,提升搜索体验。通过了解和掌握IK分析器的使用,我们可以更好地利用Elastic...
总的来说,`elasticsearch-analysis-dynamic-synonym-7.6.2`插件是ES7.6.2版本中实现动态同义词功能的重要工具,它通过高效的数据处理和灵活的API,让同义词管理变得更加便捷,极大地提升了ES在实际业务中的应用效果...
《Elasticsearch分词器:elasticsearch-analysis-ik-7.16.2深度解析》 在信息爆炸的时代,搜索引擎的效能成为了数据检索的关键。Elasticsearch作为一款强大的开源搜索引擎,其灵活性和可扩展性备受青睐。而在中文...
在Elasticsearch中,“分析”是一个核心概念,它负责将文本数据转化为适合搜索的形式。分析器(Analyzers)是Elasticsearch处理文本的一个基本工具,它由一系列的组件组成,包括字符过滤器(Character Filters)、...
最新版elasticsearch-analysis-ik-8.8.2.zip最新版elasticsearch-analysis-ik-8.8.2.zip最新版elasticsearch-analysis-ik-8.8.2.zip最新版elasticsearch-analysis-ik-8.8.2.zip
标题中所指的"elasticsearch-analysis-pinyin-8.15.0"是一个特定版本的拼音分析插件,专门为Elasticsearch版本8.15.0设计。Elasticsearch是一种开源的搜索引擎,它允许用户快速构建和部署大数据的搜索引擎。它通常...
在这个“elasticsearch-head-chrome-master.zip”压缩包中,我们得到了 Chrome 浏览器插件版的 Elasticsearch Head,这使得用户可以直接在浏览器上便捷地管理自己的 Elasticsearch 实例,无需额外的服务器部署或本地...
首先,让我们详细了解一下Elasticsearch的核心概念和功能: 1. **分布式搜索引擎**:Elasticsearch是一个分布式的全文搜索引擎,这意味着它可以将数据分散在多个节点上,实现高可用性和水平扩展。每个节点都可以...
在信息检索和自然语言处理领域,搜索引擎扮演着至关重要的角色,而Elasticsearch作为一款强大的开源全文搜索引擎,因其高性能、易用性而广受青睐。然而,为了实现中文的精确搜索,我们需要对中文文本进行分词处理,...