- 浏览: 6643 次
- 性别:
- 来自: 北京
最新评论
文章列表
Twitter Storm(https://github.com/nathanmarz/storm)是一个分布式实时计算系统,作者使用clojure和java来编写系统;因此storm默认支持使用clojure和java来编写计算任务。但在系统设计和实现上,作者考虑到了各种跨语言的场景,因此也提供了使用其他非JVM语言编写storm任务的机制。
使用其他语言,如c++,python来编写storm计算任务的主要方法可以参见Storm wiki上的说明(https://github.com/nathanmarz/storm/wiki/Using-non-JVM-languages-with ...
迭代计算是一种通过多次循环得出结果的计算方式,一般需要将上一次计算的结果代入到下一步的计算中去。当计算数据和计算规模都比较小时,可以在单机上实现计算过程;但是当数据集变大或者计算复杂度上升时,在单机上就可能无法完成计算了。在互联网企业中,各种数据挖掘,信息检索等计算用例,由于抽取的数据集较大,往往都是进行分布式的迭代计算。
MapReduce框架能够很好的处理大规模的数据计算,但是在实现需要迭代类算法时的效率比较低。一是由于为了提高可靠性,在Map和Reduce过程中都有写磁盘的过程,计算结果并不是直接在计算子过程之间传递;对于迭代类的计算,这种模式会导致在循环计算中反复I/O;二是M ...
在互联网的各种数据处理,分析中,经常要用到迭代式的计算;而相关的开源框架都还不大成熟,spark(http://www.spark-project.org)还算是其中较为可行的方案之一,它在上周发布了0.6.0版本。
相对于0.5.0, 新版本的主要改进如下:
提供了一种新的部署方式,原先在部署运行时有本地模式和依赖于mesos的分布式模式两种,现在不依赖于mesos这种分布式集群管理框架也可以分布式运行了;
提供了一套JAVA API,可以使用java直接编写spark计算任务了,对于那些不想学写scala的是一种福音;但是相对的,任务代码要繁复一些了。不知道神码时候可以为c++ ...
Jubatus http://jubat.us/en/overview.html 是一个面向大数据数据流的分布式在线机器学习的开源框架,和storm有些类似,但是从介绍上来看,它提供了更多的功能。
Jubatus认为未来的数据分析平台应该同时向三个方向展开:处理更大的数据,深层次的分析和实时处理;而当前还没有一种能够处理不断生成的流式大数据的水平可扩展的分布式架构。Hadoop的mapreduce能够处理大数据,但不能做复杂的机器学习算法;Apache Mahout是基于Hadoop的机器学习平台,但不适用于在线处理数据流。
Jubatus将在线机器学习,分布式计算和随机算法等的优势结合 ...