这一篇将简单介绍下数据的聚合。
不得不说mongo是一个强大的数据库,它为数据分析提供了很多有用的工具。
很多公司也在使用mongo做数据分析,而且取得了不错的性能。
首先说下RDBMS里面常用的聚合函数在mongo的世界里面是怎么回事。
在RDBMS的世界里常用的聚合函数有max min avg sum count,不过现在我们到了mongo的世界了,这些可爱的东西也就离我们远去了。虽然mongo还支持count,但是这个函数只能返回一个数,如果你要根据不同的文档属性分组并返回每个分组的文档数,遗憾的是mongo的count做不到这一点。难道还有比这更糟的事吗?连这些基本的聚合功能都没有,怎么能说它的聚合能力强大呢?
那是因为mongo提供了更灵活、通用的聚合能力。我们完全可以借助这些功能轻易的实现max min avg sum count。
下面就开始介绍我们在mongo世界的新朋友。
group----分组
db.COLLECTION_NAME.group({key:{},
initial:{},
reduce:function(doc,aggregator){},
cond:{},
finalize:function(doc){}});
db.COLLECTION_NAME.group({keyf:function(){},
initial:{},
reduce:function(doc,aggregator){},
cond:{},
finalize:function(doc){}});
大家一定发现了这两个调用方式的不同之处就在于参数的第一个属性分别是key和keyf。
第一个属性key/keyf,是用于分组的属性,eg. key:{name:true,registDate:true},就是针对集合中文档的name属性和注册时间分组。至于keyf,当然就是接收当前正在遍历的文档为参数返回一个新的文档,以这个新文档里的属性作为分组属性,eg. keyf:function(doc){return {year:doc.registDate.getFullYear()};}就是以注册年份分组。
第二个参数是分组聚合结果的初始值。熟悉map-reduce的朋友一定很容易理解。在整个聚合分组的过程中,它只使用一次。至于它究竟是个什么东东,下面会举个例子说明。
第三个参数接收一个函数,第一个参数doc就是正在遍历的文档,第二个参数就是遍历到这个文档之前的聚合结果,这个函数将根据这两个参数形成新的聚合结果。如果doc是遍历的第一个文档,initial将被作为实参传给aggregator。
第三个参数可省略,它是用于过程聚合文档的查询选择器。选择器的语法就不多说了,请参考:mongo简介——查询 mongo简介——查询(续)。
第四个参数是一个函数,这个函数接收聚合完成的结果作为参数做最终计算。
整个group聚合过程完成之后,会返回一个文档列表,这个文档列表就是分组计算的结果。
大家一定看出来了,整个group的聚合过程实际上就是遍历数据集进行计算的过程。跟自己先把满足条件的文档查询出来再挨个遍历计算的过程一样,只不过是它把遍历的工作也替我们做了而已。从这里也可以看出,对于数据集比较的情况,聚合运算会消耗巨量的计算资源和时间。
假如我们要计算一下每年每个用户的发帖数、浏览数、顶数、踩数,以及顶或踩与浏览数的比值和顶/(顶+踩)的比值。
db.blogs.group({
keyf:function(doc){return {name:doc.name,year:doc.date.getFullYear()}},
initial:{topics:0,browses:0,ups:0,downs:0},
reduce:function(doc,aggregator){
if(!aggregator.name){aggregator.name=doc.name;aggregator.year=doc.year;}
agregator.topics++;
agregator.browses+=doc.browses;
agregator.ups+=doc.ups;
agregator.downs+=doc.downs;
},
finalize:function(doc){
var browses=doc.browses,ups=doc.ups,downs=doc.downs;
doc.upPerBrowse=ups/browses;
doc.downPerBrowses=down/browses;
doc.upRatio=ups/(ups+downs);
};
});
上面的代码的执行结果就是我们想要计算的结果。
如果不按年份分组,只想知道每个用户的相关数据只需要把keyf属性替换成下面的代码即可:
key:{name:true}
如果只想知道runfriends的博文统计结果呢?只需要使用分组cond属性,可以在这个属性里应用任意查询选择器。
db.blogs.group({
key:{name:true},
initial:{topics:0,browses:0,ups:0,downs:0},
reduce:function(doc,aggregator){
if(!aggregator.name){aggregator.name=doc.name;aggregator.year=doc.year;}
agregator.topics++;
agregator.browses+=doc.browses;
agregator.ups+=doc.ups;
agregator.downs+=doc.downs;
},
cond:{name:'runfriends'},
finalize:function(doc){
var browses=doc.browses,ups=doc.ups,downs=doc.downs;
doc.upPerBrowse=ups/browses;
doc.downPerBrowses=down/browses;
doc.upRatio=ups/(ups+downs);
};
});
关于上面avg sum max min等聚合功能,mongo没有提供的说法,现在已经不正确了。今天(2013-02-26)我看了下mongo官方手册,所有这些sql支持的聚合功能在mongo也都原生支持了。
mongo的发展变化还是快啊。
下面附上mongo官方手册:http://docs.mongodb.org/manual/contents/
这个地址列出了mongo支持的所有查询与聚合命令:http://docs.mongodb.org/manual/reference/operator/
这个地址列出了shell支持的所有函数:http://docs.mongodb.org/manual/reference/method/
相关推荐
mongotemplate按日期聚合查询,实现 $year,$month聚合功能
在本教程中,我们将深入探讨MongoDB中的三个关键聚合操作:`count`、`distinct`和`group`。 1. `count` 函数: `count` 方法用于计算集合中符合特定条件的文档数量。在MongoDB中,你可以直接调用`db.collection....
但是,在使用 spring-data-mongodb-1.9.5.RELEASE 版本时,我们可能会遇到一些问题,例如在调用 mongoTemplate 类型的 aggregate 聚合框架时,需要提供 'cursor' 选项,否则将抛出异常。为了避免这些问题,我们可以...
在MongoVUE中,`group`功能是实现聚合操作的关键,它可以模拟SQL中的聚合函数,如`count`、`sum`、`avg`等,帮助用户对数据进行统计分析。 ### 1. 在MongoVUE中使用`group` 在MongoVUE中使用`group`操作,首先需要...
mongo聚合函数(aggregate)java版, 类似mysql的group。 对应查询语句可查看 https://blog.csdn.net/xu180/article/details/89175663
MongoDB的聚合框架由一系列阶段(stages)组成,如$match、$group、$sort、$project等。这些阶段可以串联起来,形成一个数据流,数据流中的每个文档都会依次通过这些阶段进行处理。Mongo聚合助手可能会提供一些辅助...
mongodb_exporter监控 https://github.com/dcu/mongodb_exporter.git 下19年4月的编译结果文件 编译很麻烦 ,注意修改文件的可执行权限
在SQL世界中,我们有GROUP BY、JOIN等操作来对数据进行聚合和分析。在MongoDB中,聚合框架提供了一套强大的工具,可以进行复杂的查询和数据转换。它包括一系列阶段,如$match、$group、$sort、$skip、$limit等,允许...
阿里mongo同步工具mongo-shake正是为了解决这些问题而设计的。 Mongo-shake 是阿里巴巴开发的一款高效、稳定且易于使用的MongoDB数据迁移工具,主要用于实现MongoDB集群之间的数据同步。它支持全量数据迁移和增量...
- MongoTemplate支持MongoDB的聚合框架,如`aggregate()`方法,可以处理复杂的聚合管道操作,包括 `$match`, `$group`, `$sort`, `$project`, `$unwind` 等。 5. **索引管理**: - 通过`createIndex()`和`drop...
MongoDB 提供了丰富的查询语言,支持动态查询、全文搜索、地理空间查询以及数据聚合功能,使得数据操作更加灵活高效。同时,它还支持完全索引,提高了查询速度。数据库的复制功能(副本集)确保了高可用性,自动故障...
此外,php_mongo还支持聚合框架、索引管理、复制集监控等多种高级功能,使得开发者能够充分利用MongoDB的特性。 总之,php_mongo-1.3.0扩展为PHP开发者提供了方便快捷的MongoDB接口,通过这一扩展,可以在PHP环境中...
PHP为了方便开发者与MongoDB数据库打交道,提供了专门的MongoDB扩展——php_mongo。本文将详细介绍标题为"php_mongo_5.2.6.6"的扩展,它是专为PHP 5.2.6版本设计的一个重要组件。 一、php_mongo扩展简介 php_mongo...
它支持丰富的查询选项,包括基本查询、聚合查询以及正则表达式匹配,帮助用户精确定位所需的数据。 3. 文档编辑:MongoVUE提供了可视化的文档编辑器,让用户可以方便地以树状视图或表视图查看和编辑文档内容,同时...
2. **强大的查询功能**:MongoVUE支持复杂的查询构建器,用户可以方便地创建和执行MongoDB查询语句(MongoDB Query Language,MQL),包括基本查询和聚合框架。这使得对数据库的查询和数据分析变得直观且高效。 3. ...
聚合管道是 MongoDB 提供的一种强大的工具,用于处理和分析数据,类似于 SQL 的 GROUP BY 操作。在 MongoDB 中,聚合框架允许用户对数据进行一系列的转换和过滤操作,以生成聚合结果。本篇文章将深入探讨 MongoDB 的...
mongoVUE.1.6.9.破解文件,解压后覆盖安装目录中的MongoVUE.exe文件 安装文件下载地址:http://www.mongovue.com/downloads/
MongoDB,一款NoSQL数据库管理系统,在业界内以其高效和灵活著称。本文将详细探讨其分布式架构,首先我们会讨论分布式架构与云技术之间的联系,然后分析分布式架构的应用场景,并最终讲述MongoDB如何应用于云存储和...
mongo docker 镜像
4. **集合操作**:用户可以创建新的集合,执行数据导入导出,甚至执行数据聚合操作。MongoVUE还提供了丰富的命令行工具,如`db.collection.insert()`, `db.collection.find()`, `db.collection.update()`等,以满足...