资讯月刊下载
[数据库] Apache Spark 1.6发布
今天我们非常高兴能够发布Apache Spark 1.6,通过该版本,Spark在社区开发中达到一个重要的里程碑:Spark源码贡献者的数据已经超过1000人,而在2014年年末时人数只有500。 那么,Spark 1.6有什么新特性呢?Spark 1.6有逾千个补丁。在本博文中,我们将重点突出三个主要的开发主题:性能提升、新的DataSet API和数据科学函数的扩展。 性能提升 根据我们 ...
[数据库] 双倍提升Apache Spark排序性能
区别常见的Embarrassingly Parallel系统,类似MapReduce和Apache Spark(Apache Hadoop的下一代数据处理引擎)这样的计算引擎主要区别在于对“all-to-all” 操作的支持上。和许多分布式引擎一样,MapReduce和Spark的操作通常针对的是被分片数据集的子分片,很多操作每次只处理单个数据节点,同时这些操作所涉及到的数据往往都只存在于这个数据片 ...