study121007

浏览: 181245 次
性别:
来自: 上海

最近访客更多访客>>

Peak_

yanghui_123

javalover123

Kinghoo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Elasticsearch 聚合中的重要概念 - Buckets(桶)及Metrics(指标)

博客分类：

Elasticsearch

elasticsearch 搜索 Buckets Metrics

本章翻译自Elasticsearch官方指南的Aggregations-High-level Concepts一章。

高层概念(High-Level Concepts)

和查询DSL一样，聚合(Aggregations)也拥有一种可组合(Composable)的语法：独立的功能单元可以被混合在一起来满足你的需求。这意味着需要学习的基本概念虽然不多，但是它们的组合方式是几近无穷的。

为了掌握聚合，你只需要了解两个主要概念：

Buckets(桶)：

满足某个条件的文档集合。

Metrics(指标)：

为某个桶中的文档计算得到的统计信息。

就是这样！每个聚合只是简单地由一个或者多个桶，零个或者多个指标组合而成。可以将它粗略地转换为SQL：

SELECT COUNT(color) 
FROM table
GROUP BY color

以上的COUNT(color)就相当于一个指标。GROUP BY color则相当于一个桶。

桶和SQL中的组(Grouping)拥有相似的概念，而指标则与COUNT()，SUM()，MAX()等相似。

让我们仔细看看这些概念。

桶(Buckets)

一个桶就是满足特定条件的一个文档集合：

一名员工要么属于男性桶，或者女性桶。
城市Albany属于New York州这个桶。
日期2014-10-28属于十月份这个桶。

随着聚合被执行，每份文档中的值会被计算来决定它们是否匹配了桶的条件。如果匹配成功，那么该文档会被置入该桶中，同时聚合会继续执行。

桶也能够嵌套在其它桶中，能让你完成层次或者条件划分这些需求。比如，Cincinnati可以被放置在Ohio州这个桶中，而整个Ohio州则能够被放置在美国这个桶中。

ES中有很多类型的桶，让你可以将文档通过多种方式进行划分(按小时，按最流行的词条，按年龄区间，按地理位置，以及更多)。但是从根本上，它们都根据相同的原理运作：按照条件对文档进行划分。

指标(Metrics)

桶能够让我们对文档进行有意义的划分，但是最终我们还是需要对每个桶中的文档进行某种指标计算。分桶是达到最终目的的手段：提供了对文档进行划分的方法，从而让你能够计算需要的指标。

多数指标仅仅是简单的数学运算(比如，min，mean，max以及sum)，它们使用文档中的值进行计算。在实际应用中，指标能够让你计算例如平均薪资，最高出售价格，或者百分之95的查询延迟。

将两者结合起来

一个聚合就是一些桶和指标的组合。一个聚合可以只有一个桶，或者一个指标，或者每样一个。在桶中甚至可以有多个嵌套的桶。比如，我们可以将文档按照其所属国家进行分桶，然后对每个桶计算其平均薪资(一个指标)。

因为桶是可以嵌套的，我们能够实现一个更加复杂的聚合操作：

将文档按照国家进行分桶。(桶)
然后将每个国家的桶再按照性别分桶。(桶)
然后将每个性别的桶按照年龄区间进行分桶。(桶)
最后，为每个年龄区间计算平均薪资。(指标)

此时，就能够得到每个<国家，性别，年龄>组合的平均薪资信息了。它可以通过一个请求，一次数据遍历来完成！

分享到：

Elasticsearch 聚合的测试数据 | Elasticsearch 控制相关度 (六) - function ...

2016-04-29 07:22
浏览 1598
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Elasticsearch 聚合中的重要概念 - Buckets(桶)及Metrics(指标)

高层概念(High-Level Concepts)

桶(Buckets)

指标(Metrics)

将两者结合起来

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Elasticsearch 聚合中的重要概念 - Buckets(桶)及Metrics(指标)

高层概念(High-Level Concepts)

桶(Buckets)

指标(Metrics)

将两者结合起来

评论

发表评论

相关推荐

Elasticmate don't run elasticsearch as root.

Elasticsearch 常用的java操作

Elasticsearch 使用java来进行crud操作

Elasticsearch 连接ES的两种方式

elasticsearch.yml

分布式搜索Elasticsearch 创建客户端（三）

Elasticsearch 创建客户端（二）

Elasticsearch 创建客户端（一）

分布式搜索Elasticsearch源码分析之二------索引过程源码概要分析

Elasticsearch源码分析之一——使用Guice进行依赖注入与模块化系统

Elasticsearch 数据建模 - 处理关联关系(2)

Elasticsearch 数据建模 - 处理关联关系(1)

Elasticsearch 过滤查询以及聚合(Filtering Queries and Aggregations)

Elasticsearch 聚合作用域(Scoping Aggregations)

Elasticsearch 聚合 - 时间数据处理(Looking at Time)

Elasticsearch 聚合 - 创建条形图(Bar Chart)

Elasticsearch 聚合的测试数据

Elasticsearch 控制相关度 (六) - function_score查询中的filter，functions及random_score参数

Elasticsearch 控制相关度 (五) - function_score查询及field_value_factor，boost_mode，max_

Elasticsearch 控制相关度 (四) - 忽略TF/IDF

最近访客更多访客>>