两款高性能并行计算引擎Storm和Spark比较（转） -

jackiee_cn

浏览: 115886 次
性别:
来自: 北京

最近访客更多访客>>

enock

yeqingcheng

placeholder

WangJiaX

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

两款高性能并行计算引擎Storm和Spark比较（转）

博客分类：

云计算

storm spark

Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。

所以这是把过程传递给数据。这和Hadoop map/reduce非常相似，除了积极使用内存来避免I/O操作，以使得迭代算法（前一步计算输出是下一步计算的输入）性能更高。

Shark只是一个基于Spark的查询引擎（支持ad-hoc临时性的分析查询）

而Storm的架构和Spark截然相反。Storm是一个分布式流计算引擎。每个节点实现一个基本的计算过程，而数据项在互相连接的网络节点中流进流出。和Spark相反，这个是把数据传递给过程。

两个框架都用于处理大量数据的并行计算。

Storm在动态处理大量生成的“小数据块”上要更好（比如在Twitter数据流上实时计算一些汇聚功能或分析）。

Spark工作于现有的数据全集（如Hadoop数据）已经被导入Spark集群，Spark基于in-memory管理可以进行快讯扫描，并最小化迭代算法的全局I/O操作。

不过Spark流模块（Streaming Module）倒是和Storm相类似（都是流计算引擎），尽管并非完全一样。

Spark流模块先汇聚批量数据然后进行数据块分发（视作不可变数据进行处理），而Storm是只要接收到数据就实时处理并分发。

不确定哪种方式在数据吞吐量上要具优势，不过Storm计算时间延迟要小。

总结下，Spark和Storm设计相反，而Spark Steaming才和Storm类似，前者有数据平滑窗口（sliding window），而后者需要自己去维护这个窗口。

出处：http://blog.csdn.net/iefreer/article/details/32715153

分享到：

Raphael调研例子 | XML节点当做文本处理

2014-11-20 14:37
浏览 935
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

两款高性能并行计算引擎Storm和Spark比较（转）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

两款高性能并行计算引擎Storm和Spark比较 （转）

评论

发表评论

相关推荐

云计算环境下应用架构的设计思考

解决hadoop web UI无法访问问题

解决hadoop的启动异常

解决hadoop抛出的Task process exit with nonzero status of 134异常（原创）

hadoop单机安装要点

最近访客更多访客>>

两款高性能并行计算引擎Storm和Spark比较（转）