这一篇将简单介绍下数据的聚合。
不得不说mongo是一个强大的数据库,它为数据分析提供了很多有用的工具。
很多公司也在使用mongo做数据分析,而且取得了不错的性能。
首先说下RDBMS里面常用的聚合函数在mongo的世界里面是怎么回事。
在RDBMS的世界里常用的聚合函数有max min avg sum count,不过现在我们到了mongo的世界了,这些可爱的东西也就离我们远去了。虽然mongo还支持count,但是这个函数只能返回一个数,如果你要根据不同的文档属性分组并返回每个分组的文档数,遗憾的是mongo的count做不到这一点。难道还有比这更糟的事吗?连这些基本的聚合功能都没有,怎么能说它的聚合能力强大呢?
那是因为mongo提供了更灵活、通用的聚合能力。我们完全可以借助这些功能轻易的实现max min avg sum count。
下面就开始介绍我们在mongo世界的新朋友。
group----分组
db.COLLECTION_NAME.group({key:{},
initial:{},
reduce:function(doc,aggregator){},
cond:{},
finalize:function(doc){}});
db.COLLECTION_NAME.group({keyf:function(){},
initial:{},
reduce:function(doc,aggregator){},
cond:{},
finalize:function(doc){}});
大家一定发现了这两个调用方式的不同之处就在于参数的第一个属性分别是key和keyf。
第一个属性key/keyf,是用于分组的属性,eg. key:{name:true,registDate:true},就是针对集合中文档的name属性和注册时间分组。至于keyf,当然就是接收当前正在遍历的文档为参数返回一个新的文档,以这个新文档里的属性作为分组属性,eg. keyf:function(doc){return {year:doc.registDate.getFullYear()};}就是以注册年份分组。
第二个参数是分组聚合结果的初始值。熟悉map-reduce的朋友一定很容易理解。在整个聚合分组的过程中,它只使用一次。至于它究竟是个什么东东,下面会举个例子说明。
第三个参数接收一个函数,第一个参数doc就是正在遍历的文档,第二个参数就是遍历到这个文档之前的聚合结果,这个函数将根据这两个参数形成新的聚合结果。如果doc是遍历的第一个文档,initial将被作为实参传给aggregator。
第三个参数可省略,它是用于过程聚合文档的查询选择器。选择器的语法就不多说了,请参考:mongo简介——查询 mongo简介——查询(续)。
第四个参数是一个函数,这个函数接收聚合完成的结果作为参数做最终计算。
整个group聚合过程完成之后,会返回一个文档列表,这个文档列表就是分组计算的结果。
大家一定看出来了,整个group的聚合过程实际上就是遍历数据集进行计算的过程。跟自己先把满足条件的文档查询出来再挨个遍历计算的过程一样,只不过是它把遍历的工作也替我们做了而已。从这里也可以看出,对于数据集比较的情况,聚合运算会消耗巨量的计算资源和时间。
假如我们要计算一下每年每个用户的发帖数、浏览数、顶数、踩数,以及顶或踩与浏览数的比值和顶/(顶+踩)的比值。
db.blogs.group({
keyf:function(doc){return {name:doc.name,year:doc.date.getFullYear()}},
initial:{topics:0,browses:0,ups:0,downs:0},
reduce:function(doc,aggregator){
if(!aggregator.name){aggregator.name=doc.name;aggregator.year=doc.year;}
agregator.topics++;
agregator.browses+=doc.browses;
agregator.ups+=doc.ups;
agregator.downs+=doc.downs;
},
finalize:function(doc){
var browses=doc.browses,ups=doc.ups,downs=doc.downs;
doc.upPerBrowse=ups/browses;
doc.downPerBrowses=down/browses;
doc.upRatio=ups/(ups+downs);
};
});
上面的代码的执行结果就是我们想要计算的结果。
如果不按年份分组,只想知道每个用户的相关数据只需要把keyf属性替换成下面的代码即可:
key:{name:true}
如果只想知道runfriends的博文统计结果呢?只需要使用分组cond属性,可以在这个属性里应用任意查询选择器。
db.blogs.group({
key:{name:true},
initial:{topics:0,browses:0,ups:0,downs:0},
reduce:function(doc,aggregator){
if(!aggregator.name){aggregator.name=doc.name;aggregator.year=doc.year;}
agregator.topics++;
agregator.browses+=doc.browses;
agregator.ups+=doc.ups;
agregator.downs+=doc.downs;
},
cond:{name:'runfriends'},
finalize:function(doc){
var browses=doc.browses,ups=doc.ups,downs=doc.downs;
doc.upPerBrowse=ups/browses;
doc.downPerBrowses=down/browses;
doc.upRatio=ups/(ups+downs);
};
});
关于上面avg sum max min等聚合功能,mongo没有提供的说法,现在已经不正确了。今天(2013-02-26)我看了下mongo官方手册,所有这些sql支持的聚合功能在mongo也都原生支持了。
mongo的发展变化还是快啊。
下面附上mongo官方手册:http://docs.mongodb.org/manual/contents/
这个地址列出了mongo支持的所有查询与聚合命令:http://docs.mongodb.org/manual/reference/operator/
这个地址列出了shell支持的所有函数:http://docs.mongodb.org/manual/reference/method/
相关推荐
8. **分组(Group By) vs 聚合(Aggregation)**:SQL使用GROUP BY语句进行分组操作,而MongoDB则提供了聚合框架来处理类似需求。 9. **BSON语法**:MongoDB查询表达式以JSON对象形式表示,但实际上使用的是一种二进制...
在MongoDB 4.0版本之后,它引入了一个新的集合类型——时间序列集合(Time Series Collection),专门优化处理时间戳数据,这正是“mongo-timeseries”这个主题所涉及的核心内容。时间序列数据在许多领域,如物联网...
还可以使用`$match`, `$group`, `$sort`, `$project`等聚合管道操作处理大量数据。 6. **中间件(Middleware)**:Mongoose的中间件功能允许在数据操作前后执行自定义逻辑,如验证、日志记录或业务逻辑处理。可以在...
['$group' => ['_id' => '$age', 'count' => ['$sum' => 1]]], ]; $aggregate = new MongoDB\Driver\Aggregate('mydb.mycoll', $pipeline); $result = $manager->executeAggregate($aggregate); foreach ($result ...
li_3ck_02a_1118
基于MATLAB的牛顿迭代法实现
mellitz_3ck_01_0319
内容概要:文章阐述了银行采用人工智能(AI)技术替代传统系统的紧迫性和收益,讨论了通过构建现代化的数据和技术平台实现效率提升的方法,同时强调实施过程中确保数据质量和建立信任的重要性。文中提及,在金融行业中,若想优化业绩则必须拥抱AI带来的机遇,并为此进行经营模式的革新。根据Workday主办的研讨会内容,PwC金融服务风险与监管领导和Workday金融服务高层指出了大部分银行对AI认知不足的问题,强调AI在金融、人力资源以及IT等领域的广泛应用潜力及具体应用场景,如欺诈检测、技能映射和财务管理方面的作用。并且提到了AI部署过程中可能出现的技术与非技术难题及相应解决办法,鼓励金融机构及时投资建设新型基础设施,以保持竞争力。 适用人群:银行及其他金融机构管理人员;金融科技领域的专业研究人员;对企业数字化和智能化转型感兴趣的商业分析师、投资者;从事信息技术咨询工作的顾问。 使用场景及目标:本文可以帮助金融机构制定合理的技术发展战略规划,评估是否有必要推进AI技术转型,同时也为希望涉足银行科技项目的开发者提供了宝贵的市场洞察,帮助理解行业内普遍存在的困难与潜在的市场需求。此外,对于想要了解银行
matlab程序代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!
AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!
AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!
AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!
chromedriver-linux64-136.0.7058.0.zip
AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!
AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!
内容概要:本文档介绍了背压热电联产(CHP)发电厂的详细设计步骤,涵盖确定各状态点的压力、温度、比焓以及质量流率的具体方法。主要内容围绕计算净电功率、燃料消耗及其效率展开,并提供了T-s图绘制的指南。针对每个组件(如蒸汽轮机、冷凝器、除氧器等),都列出了详细的效率假设和压力损失表,为实际工程应用提供了宝贵的参考资料和操作指导。同时,该作业任务要求学生从给定初始值中选择合适的操作条件进行系统模拟,并利用课程讲义和Moodle平台资料完成计算流程。 适用人群:对能源转换和动力设备设计感兴趣的学生或者初涉该领域的工程师。 使用场景及目标:旨在帮助学员深入了解并掌握背压热电联产装置的工作原理和技术指标计算的方法论,通过实践练习提高他们的问题解决能力。 其他说明:文档强调了稳态运行假设的重要性,即物质平衡等于能量输入等于输出的原则,并鼓励参与者借助附录提供的典型操作参数图表来寻找解决问题的方向。此外,它还特别指出对于一些变量值求解可能需要迭代法来进行调整,直至获得稳定结果。提交的报告必须含有一份详细的T-s图和其他必要附件。
机器学习_市财政收入分析(含数据集)
AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!
tracy_3cd_01_0318
lusted_3cd_01_0918