资讯月刊下载
[数据库] Spark vs. MapReduce 时间节约66%,计算节约40%
摘要:本文将介绍基于物品的协同过滤推荐算法案例在TDW Spark与MapReudce上的实现对比,相比于MapReduce,TDW Spark执行时间减少了66%,计算成本降低了40%。 MapReduce为大数据挖掘提供了有力的支持,但是复杂的挖掘算法往往需要多个MapReduce作业才能完成,多个作业之间存在着冗余的磁盘读写开销和多次资源申请过程,使得基于MapReduce的算法实现存在严重的 ...
[编程语言] Java开发者值得关注的7款新工具
云计算、大数据地快速发展催生了不少热门的应用及工具。作为老牌语言Java,其生态圈也出来了一些有关云服务、监控、文档分享方面的工具。本文总结了7款较新的Java工具,大家不妨看下。 1. JClarity——性能监控 JClarity目前提供两款有关Java性能的工具:Illuminate和Censum,Illuminate是一款性能监控工具,而Censum是一款专注于垃圾回收的日志分析工具。除 ...
[数据库] Spark颠覆MapReduce保持的排序记录
在过去几年,Apache Spark的采用以惊人的速度增加着,通常被作为MapReduce后继,可以支撑数千节点规模的集群部署。在内存中数据处理上,Apache Spark比MapReduce更加高效已经得到广泛认识;但是当数据量远超内存容量时,我们也听到了一些机构在Spark使用上的困扰。因此,我们与Spark社区一起,投入了大量的精力做Spark稳定性、扩展性、性能等方面的提升。既然Spark ...
[数据库] 开源力量公开课第49期:Spark——大数据时代的电光火 ...
开源力量公开课第49期课程题目:Spark——大数据时代的电光火石 形式: 线上公开课(免费) 直播地址:http://www.osforce.cn/openclass/65/show?id=iteye 开课时间:2014-04-01 20:00 课程背景: Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图 ...
[开源软件] 分布式计算系统 Spark 成为 Apache 顶级项目
Apache软件基金会今天宣布,Spark项目已从孵化器毕业,成为Apache软件基金会的一个顶级项目。 Spark是一个高效的分布式计算系统,发源于美国加州大学伯克利分校AMPLab的集群计算平台。 Spark被称为“Hadoop的瑞士军刀”,拥有非凡的速度和易用性。Spark立足于内存计算,相比Hadoop MapReduce,Spark在性能上要高100倍,而且Spark提供了比Had ...
[互联网] Google正打造Spark:一个基于Chrome的集成开发环境
据外媒报道,Google近日推出了名叫Spark(星火)的项目。Spark是一个运行于Chrome浏览器中的Web IDE(集成开发环境),用它来编写Chrome应用应该再合适不过了。这也意味着Chromebook码农们无需迁移到Windows、Mac或Linux上。 这条消息首先是被开发者兼Google开源Chromium布道者François Beaufort公布的,以下是他对这个新的IDE项 ...