`
m635674608
  • 浏览: 5027478 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

hadoop storm 区别

 
阅读更多

http://www.zhihu.com/question/20098507 
最主要的方面:Hadoop使用磁盘作为中间交换的介质,而storm的数据是一直在内存中流转的。 
两者面向的领域也不完全相同,一个是批量处理,基于任务调度的;另外一个是实时处理,基于流。 
以水为例,Hadoop可以看作是纯净水,一桶桶地搬;而Storm是用水管,预先接好(Topology),然后打开水龙头,水就源源不断地流出来了。 

Storm之于实时处理,就好比Hadoop之于批处理。 

Storm的主要特点如下: 
简单的编程模型。类似于MapReduce降低了并行批处理复杂性,Storm降低了进行实时处理的复杂性。 
快速。系统的设计保证了消息能得到快速的处理,使用MQ作为其底层消息队列。 

Storm关键字  Nimbus, Supervisor, Topology, Spout/Bolt 



Hadoop M/R基于HDFS,需要切分输入数据、产生中间数据文件、排序、数据压缩、多份复制等,效率较低。 
Storm 基于ZeroMQ这个高性能的消息通讯库,不持久化数据。 

Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。 

 

这里的快主要是指的时延。
storm的网络直传、内存计算,其时延必然比hadoop的通过hdfs传输低得多;当计算模型比较适合流式时,storm的流式处理,省去了批处理的收集数据的时间;因为storm是服务型的作业,也省去了作业调度的时延。所以从时延上来看,storm要快于hadoop。

说一个典型的场景,几千个日志生产方产生日志文件,需要进行一些ETL操作存入一个数据库。

假设利用hadoop,则需要先存入hdfs,按每一分钟切一个文件的粒度来算(这个粒度已经极端的细了,再小的话hdfs上会一堆小文件),hadoop开始计算时,1分钟已经过去了,然后再开始调度任务又花了一分钟,然后作业运行起来,假设机器特别多,几钞钟就算完了,然后写数据库假设也花了很少的时间,这样,从数据产生到最后可以使用已经过去了至少两分多钟。
而流式计算则是数据产生时,则有一个程序去一直监控日志的产生,产生一行就通过一个传输系统发给流式计算系统,然后流式计算系统直接处理,处理完之后直接写入数据库,每条数据从产生到写入数据库,在资源充足时可以在毫秒级别完成。


当然,跑一个大文件的wordcount,本来就是一个批处理计算的模型,你非要把它放到storm上进行流式的处理,然后又非要让等所有已有数据处理完才让storm输出结果,这时候,你再把它和hadoop比较快慢,这时,其实比较的不是时延,而是比较的吞吐了。

 

  

先要明白Storm和Hadoop的应用领域,注意加粗、标红的关键字。
Hadoop是基于Map/Reduce模型的,处理海量数据的离线分析工具。
Storm是分布式的、实时数据流分析工具,数据是源源不断产生的,例如Twitter的Timeline。
再回到你说的速度问题,只能说Storm更适用于实时数据流,Map/Reduce模型在实时领域很难有所发挥,不能简单粗暴的说谁快谁慢。

 

分享到:
评论

相关推荐

    hadoop storm hbase spark

    根据提供的文件信息,我们可以从以下几个方面来探讨与Hadoop、Storm、HBase和Spark相关的知识点。 ### Hadoop #### 1. Hadoop简介 Hadoop是一个开源软件框架,用于分布式存储和处理大型数据集。它由Apache基金会...

    hadoop storm spark 机器学习

    hadoop storm spark 机器学习

    Apache Hadoop---Storm.docx

    Apache Hadoop---Storm Apache Storm 是一个专为实时大数据处理设计的开源分布式系统。它能够高效、容错地处理大规模数据流,具有高吞吐量的特点,尤其适用于需要低延迟响应的应用场景。作为Hadoop生态的一部分,...

    2017零基础学云计算大数据视频教程hadoop storm kafka spark开发

    本套视频教程主要针对2017年时的云计算与大数据技术进行讲解,重点涵盖了Hadoop、Storm、Kafka和Spark等核心组件的开发与应用。对于初学者来说,这是一份非常有价值的资源,旨在帮助他们从零基础快速建立起对大数据...

    2017零基础学云计算大数据视频教程hadoop storm kafka spark开发(重发)

    综上所述,这份视频教程涵盖了云计算和大数据领域的核心技术和工具,包括Hadoop、Storm、Kafka以及Spark等,适合初学者入门学习。通过系统地学习这些技术,可以帮助学习者掌握大数据处理的基本原理和方法,为进一步...

    Hadoop Hive HBase Spark Storm概念解释

    #### Spark与Storm的区别 - **设计理念**:Spark基于的理念是当数据量非常大时,将计算过程传递给数据(即数据驻留在内存中)要比将数据传递给计算过程更有效率。而Storm则是基于将数据传递给计算过程的设计理念。 -...

    hadoop、storm、spark的区别对比

    Hadoop、Storm和Spark都是大数据处理框架,但各自有不同的特点和适用场景。下面将对这三个框架进行详细的区别对比。 Hadoop的核心是HDFS(Hadoop Distributed File System)和MapReduce计算模型。HDFS用于存储大量...

    Storm实战构建大数据实时计算

    Storm官方网站有段简介 Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。Storm简单,可以使用任何编程语言。

    基于Hadoop和Storm的音乐推荐系统设计.docx

    【基于Hadoop和Storm的音乐推荐系统设计】 本论文详细探讨了如何利用Hadoop和Storm构建一个音乐推荐系统,这是大数据处理和分析在现代互联网服务中的一个典型应用。Hadoop和Storm分别是大数据处理领域的两个重要...

    storm-yarn结合pig实现广告点击量分析

    Storm用于实时数据流处理,YARN作为Hadoop的资源管理系统,而Pig则提供了一种高级数据处理语言,简化了大规模数据集的分析。这里我们将深入探讨如何将这三个组件结合,实现广告点击量的实时分析。 首先,让我们了解...

    storm实时写入hadoop hdfs代码

    请管理员删除 有敏感信息。请管理员删除 有敏感信息。

    8天学会hadoop2+storm

    ### Hadoop 2 和 Storm 学习指南 #### 一、Hadoop 2 概述 Hadoop 是一个能够对大量数据进行分布式处理的软件框架,由 Apache 基金会开发并维护。Hadoop 2 相对于早期版本进行了重大改进,包括引入了 YARN(Yet ...

    hadoop,storm,NOSQL学习资源

    标题中的“Hadoop”、“Storm”和“NOSQL”都是大数据处理领域的核心技术和工具,它们在现代数据处理和分析中扮演着至关重要的角色。现在,让我们深入了解一下这些技术。 **Hadoop** 是一个开源的分布式计算框架,...

    大数据hadoop-spark-storm全套视频教程

    大数据全套视频教程。linux,hadoop,spark,storm,hive,flume,oozie,,hbase,zookeeper,mysql,mongodb,redis,多个项目实践等等,应有尽有。

    [大数据]Hadoop+Storm+Spark全套入门及实战视频教程.zip

    大数据Hadoop权威指南,pdf,中英文版。第4版 The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing. The Apache Hadoop software library is a framework...

    基于Hadoop+Storm的网络日志实时分析系统+源代码+文档说明

    基于Hadoop+Storm的网络日志实时分析系统+源代码+文档说明 -------- 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,...

    批量下载】storm环境搭建v1等.zip

    【描述】:“strom hadoop,批量下载】storm环境搭建v1等.zip批量下载】storm环境搭建v1等.zip”虽然重复,但可以推测内容可能不仅限于Storm本身,还可能涉及到Hadoop的集成,因为提到了“hadoop”。这暗示了这个...

    新版Hadoop视频教程 段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发

    第一天 hadoop的基本概念 伪分布式hadoop集群安装 hdfs mapreduce 演示 01-hadoop职位需求状况.avi 02-hadoop课程安排.avi 03-hadoop应用场景.avi 04-hadoop对海量数据处理的解决思路.avi 05-hadoop版本选择和...

Global site tag (gtag.js) - Google Analytics