`

spark与storm的对比

 
阅读更多

摘自: http://www.cnblogs.com/yaohaitao/p/5703288.html

 

对比点

Storm

Spark Streaming

实时计算模型

纯实时,来一条数据,处理一条数据

准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理

实时计算延迟度

毫秒级

秒级

吞吐量

事务机制

支持完善

支持,但不够完善

健壮性 / 容错性

ZooKeeper,Acker,非常强

Checkpoint,WAL,一般

动态调整并行度

支持

不支持

 Spark Streaming与Storm的应用场景

 

对于Storm来说:
1、建议在那种需要纯实时,不能忍受1秒以上延迟的场景下使用,比如实时金融系统,要求纯实时进行金融交易和分析
2、此外,如果对于实时计算的功能中,要求可靠的事务机制和可靠性机制,即数据的处理完全精准,一条也不能多,一条也不能少,也可以考虑使用Storm
3、如果还需要针对高峰低峰时间段,动态调整实时计算程序的并行度,以最大限度利用集群资源(通常是在小型公司,集群资源紧张的情况),也可以考虑用Storm
4、如果一个大数据应用系统,它就是纯粹的实时计算,不需要在中间执行SQL交互式查询、复杂的transformation算子等,那么用Storm是比较好的选择

对于Spark Streaming来说:
1、如果对上述适用于Storm的三点,一条都不满足的实时场景,即,不要求纯实时,不要求强大可靠的事务机制,不要求动态调整并行度,那么可以考虑使用Spark Streaming
2、考虑使用Spark Streaming最主要的一个因素,应该是针对整个项目进行宏观的考虑,即,如果一个项目除了实时计算之外,还包括了离线批处理、交互式查询等业务功能,而且实时计算中,可能还会牵扯到高延迟批处理、交互式查询等功能,那么就应该首选Spark生态,用Spark Core开发离线批处理,用Spark SQL开发交互式查询,用Spark Streaming开发实时计算,三者可以无缝整合,给系统提供非常高的可扩展性

 Spark Streaming与Storm的优劣分析

事实上,Spark Streaming绝对谈不上比Storm优秀。这两个框架在实时计算领域中,都很优秀,只是擅长的细分场景并不相同。

Spark Streaming仅仅在吞吐量上比Storm要优秀,而吞吐量这一点,也是历来挺Spark Streaming,贬Storm的人着重强调的。但是问题是,是不是在所有的实时计算场景下,都那么注重吞吐量?不尽然。因此,通过吞吐量说Spark Streaming强于Storm,不靠谱。

事实上,Storm在实时延迟度上,比Spark Streaming就好多了,前者是纯实时,后者是准实时。而且,Storm的事务机制、健壮性 / 容错性、动态调整并行度等特性,都要比Spark Streaming更加优秀。

Spark Streaming,有一点是Storm绝对比不上的,就是:它位于Spark生态技术栈中,因此Spark Streaming可以和Spark Core、Spark SQL无缝整合,也就意味着,我们可以对实时处理出来的中间数据,立即在程序中无缝进行延迟批处理、交互式查询等操作。这个特点大大增强了Spark Streaming的优势和功能。

分享到:
评论

相关推荐

    flink,spark streaming,storm框架对比

    flink,spark streaming,storm框架对比,

    Flink,Storm,Spark Streaming三种流框架的对比分析

    Flink、Storm、Spark Streaming三种流框架的对比分析 Flink架构及特性分析 Flink是一个原生的流处理系统,提供高级的API。Flink也提供API来像Spark一样进行批处理,但两者处理的基础是完全不同的。Flink把批处理...

    hadoop、storm、spark的区别对比

    Hadoop、Storm和Spark都是大数据处理框架,但各自有不同的特点和适用场景。下面将对这三个框架进行详细的区别对比。 Hadoop的核心是HDFS(Hadoop Distributed File System)和MapReduce计算模型。HDFS用于存储大量...

    spark Streaming和storm的对比

    以下将详细介绍Spark Streaming和Storm的核心原理,并进行对比分析。 首先来了解Spark Streaming,它是由Spark提供的一种实时数据处理框架。Spark Streaming利用了Spark强大的批处理能力,并将流式计算转换成一系列...

    stom与sparkStreaming对比

    讲述Storm与sparkStreaming分别用法与区别,在操作流程等。

    各种流计算的技术路线对比spark/storm/flink

    流计算框架如Apache Spark、Apache Storm和Apache Flink已经成为众多开发者在构建实时数据管道时的首选。下面我们详细探讨这些技术路线的核心特点、性能指标以及各自的优势和劣势。 Apache Spark是基于内存计算的...

    流式处理框架stormspark和samza的对比共5页

    本文将深入探讨三个流行的流处理框架——Apache Storm、Spark Streaming和Apache Samza,对比它们的设计理念、功能特性以及适用场景。 首先,Apache Storm是Twitter开源的一款实时计算系统,它以低延迟和高吞吐量...

    SparkStreaming预研报告

    6. Spark Streaming与Storm、Samza的对比 与Storm和Samza进行比较,文档展示了三者在架构、吞吐量等方面的异同。例如,图2-4展示了Spark Streaming与Storm在吞吐量上的比较结果,而图6-3、图6-4和图6-5则分别展示了...

    sparkstreaming

    #### Spark Streaming 与 Storm 对比 尽管两者都能实现流数据处理,但它们之间还是存在显著差异: - **编程模型**:Spark Streaming 基于 DStream(Discretized Stream)模型,将流分割成一系列微小的批处理;而 ...

    Spark技术内幕和快速数据处理.zip

    《Storm技术内幕与大数据实践》一书可能会对比Spark和另一个实时处理框架——Apache Storm。Storm以其低延迟和高吞吐量的特点被广泛用于实时数据处理。尽管Spark Streaming的延迟相比Storm略高,但其在易用性和可...

    Spark从入门到精通

    Spark与Hadoop系统的对比 | Spark | Hadoop | |-------------|------------| | Spark Core | MapReduce | | Spark SQL | Hive | | Spark Streaming | Storm | | Spark MLlib | Mahout | | Spark GraphX | 不适用 |...

    大数据框架对比:Hadoop、Storm、Samza、Spark和Flink

    大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了...

    Storm实战构建大数据实时计算

    - 与Spark Streaming的对比:Spark Streaming提供了DStream(Discretized Stream),实现了微批处理,兼顾实时与批量。 8. **最佳实践与性能优化** - 拓扑设计:合理分配Spout和Bolt的数量,平衡负载。 - 资源...

    Spark Streaming解析

    ##### 1.3 Spark 与 Storm 的对比 - **处理模型**:Spark Streaming 采用微批次模型处理数据流,而 Apache Storm 采用真正的流式处理模型。 - **容错机制**:Spark Streaming 通过检查点和预写日志机制实现容错,而...

    5_Spark系统1

    2013年,Spark成为Apache软件基金会的重要项目,与Hadoop、Storm并列。Spark以其内存计算特性,显著提升了数据分析的速度,尤其是在2014年,它打破了Hadoop的排序记录,以更快的速度和更低的资源消耗完成了大规模...

    第6章spark1

    Spark Streaming对比Storm,虽然在处理速度上可能稍逊一筹,但在易用性、容错性和与Spark其他模块的集成上具有优势,更易于开发和维护。 在Spark Streaming中,数据流被划分为时间窗口的微批次,然后通过一系列的...

    基于Spark Streaming的实时流数据处理模型化研究与实现.pdf

    5. 可扩展性和稳定性:在研究实现中,对比了多个流计算框架,例如Spark Streaming、Apache Storm、Apache Flink等。这些框架在流模型的容错性、延迟、吞吐量以及稳定性等方面都各有特色,选择适合的框架对实现高效...

Global site tag (gtag.js) - Google Analytics