hadoop与storm的一点区别 - - ITeye博客

`

aniu2008

浏览: 42690 次
性别:
来自: 北京

最近访客更多访客>>

诸葛不亮

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

tianzizhi： aniu2008 写道迅雷面试回来，用了整整一下午（不知道怎么 ...
迅雷亲历面经：笔试+上机+面试（完整JAVA面试题求解大讨论）
luobin23628： Pattern.compile("[ab3]&quo ...
迅雷亲历面经：笔试+上机+面试（完整JAVA面试题求解大讨论）
zlandjj：用比较垃圾的办法写出来了 public class TetM ...
迅雷亲历面经：笔试+上机+面试（完整JAVA面试题求解大讨论）
thinkingame： aniu2008 写道迅雷面试回来，用了整整一下午（不知道怎么 ...
迅雷亲历面经：笔试+上机+面试（完整JAVA面试题求解大讨论）
ww362034710： tomcat 记得是150个吧
迅雷亲历面经：笔试+上机+面试（完整JAVA面试题求解大讨论）

hadoop与storm的一点区别

阅读更多

hadoop与storm的一点区别
本文由larrylgq编写，转载请注明出处：http://blog.csdn.net/larrylgq/article/details/7326058
作者:吕桂强
邮箱：larry.lv.word@gmail.com

hadoop是实现了mapreduce的思想，将数据切片计算来处理大量的离线数据数据。hadoop处理的数据必须是已经存放在hdfs上或者类似hbase的数据库中，所以hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率
而storm不同，storm是一个流计算框架，处理的数据是实时消息队列中的，所以需要我们写好一个topology逻辑放在那，接收进来的数据来处理，所以是通过移动数据平均分配到机器资源来获得高效率。

总的来说
hadoop的优点是处理数据量大（瓶颈是硬盘和namenode，网络等），分析灵活，可以通过实现dsl，mdx等拼接hadoop命令或者直接使用hive（超烂。。），pig等来灵活分析数据。适应对大量维度进行组合分析
ps:相较与hive，pig建议自己实现mdx，即灵活又高效
缺点就是慢：每次执行前要分发jar包，hadoop每次map数据超出阙值后会将数据写入本地文件系统，然后在reduce的时候再读进来

storm的优点是全内存计算，因为内存寻址速度是硬盘的百万倍以上，所以storm的速度相比较hadoop非常快（瓶颈是内存，cpu）
缺点就是不够灵活：必须要先写好topology结构来等数据进来分析，如果我们需要对几百个维度进行组合分析，那么。。。

另外推荐storm的DRPC实在太有用了，以至于这个本来要分理出来的项目，被并入storm^^

分享到：

struts2完全学习文档

2014-03-19 11:55
浏览 888
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Apache Storm.pdf: Storm与Hadoop虽然在某些方面互补，但它们的用途和工作方式存在明显区别。Storm更适合实时数据处理，而Hadoop更适合批量处理。Storm的无状态设计和基于ZooKeeper的集群协调机制，使得它的实时数据处理更加高效和可靠...

Kafka+FlumeNG+Storm+HBase构架设计: 本文将详细介绍如何利用Kafka、FlumeNG、Storm与HBase搭建一套高效的数据处理系统。该系统旨在实现以下目标： - 实时处理任意规模的数据集。 - 支持多种类型的处理操作。 - 结合多种技术和工具，构建一个全方位的大...

Storm数据流模型的分析及讨论: 本文来自于博客园，本文首先介绍了Storm的基本概念和数据流模型，然后结合一个典型应用场景来说明Storm支持Topology之间数据流订阅的必要性，最后对比了Storm与另一个流处理系统在数据流模型上的区别之处。Storm是一...

厦门大数据比赛.zip: 标题中的“厦门大数据比赛.zip”表明这是一个与大数据相关的竞赛项目，可能包含参赛团队或个人提交的源代码。描述中的“比赛项目源码”确认了这一点，暗示我们需要关注的是数据分析、处理和挖掘的代码实现。在...

给学习大数据开发初学者的一些建议.docx: 例如，Hadoop MapReduce用于离线批处理，Spark则提供了更高效的内存计算，而Storm或Spark Streaming用于实时流处理。此外，还需要熟悉Kafka、HBase、Redis等组件，它们在数据存储、传输和查询方面发挥着重要作用。 ...

大数据科普：大数据后台层次角色及数据流向.doc: 在线计算层则分为离线计算（如MapReduce）和实时计算（如Storm或Spark Streaming），满足不同时效性的计算需求。数据管道系统，如消息队列，用于不同计算层间的通信和数据传输。大数据预测的精准度要求很高，因此...

大数据分析项目解决方案.docx: 为了实现这一点，需要利用先进的算法和技术来提高数据处理的速度和效率。 #### 二、数据分析员的角色与职责随着大数据技术的发展，数据分析员在组织中的角色变得更加重要和多样化。他们不仅需要具备深厚的技术...

华为-大数据分析工具FusionInsight Miner介绍.pdf: 其数据处理平台支持Hadoop生态系统中的组件，如Hive/Impala、M/R、Spark、Storm、Solr、Hadoop API等，以及Yarn/Zookeeper、HDFS/HBase等存储计算框架。这一架构旨在统一管理数据，同时提供系统级的安全治理。关系...

大数据技术分享 Spark技术讲座 Apache Spark如何改变我们雇佣员工的方式共17页.pdf: 内容中所提到的招聘标准和技能需求，如MapReduce、Hadoop/HDFS、Hive/Pig、Storm、SQL、分布式计算、集群管理和基础设施管理等，这些都是大数据技术的核心技能。企业需要招聘具备这些技能的人才来满足其技术需求。 ...

大数据漫谈系列之：大数据怎么发挥大价值.rar: 大数据分析往往与云计算紧密结合，C#在Azure平台上提供了丰富的服务，如Azure Data Factory用于数据集成，Azure Databricks用于Spark集群管理，Azure Stream Analytics处理实时数据流等。开发者可以利用这些服务构建...

Global site tag (gtag.js) - Google Analytics