hadoop与storm的一点区别
本文由larrylgq编写,转载请注明出处:http://blog.csdn.net/larrylgq/article/details/7326058
作者:吕桂强
邮箱:larry.lv.word@gmail.com
hadoop是实现了mapreduce的思想,将数据切片计算来处理大量的离线数据数据。hadoop处理的数据必须是已经存放在hdfs上或者类似hbase的数据库中,所以hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率
而storm不同,storm是一个流计算框架,处理的数据是实时消息队列中的,所以需要我们写好一个topology逻辑放在那,接收进来的数据来处理,所以是通过移动数据平均分配到机器资源来获得高效率。
总的来说
hadoop的优点是处理数据量大(瓶颈是硬盘和namenode,网络等),分析灵活,可以通过实现dsl,mdx等拼接hadoop命令或者直接使用hive(超烂。。),pig等来灵活分析数据。适应对大量维度进行组合分析
ps:相较与hive,pig建议自己实现mdx,即灵活又高效
缺点就是慢:每次执行前要分发jar包,hadoop每次map数据超出阙值后会将数据写入本地文件系统,然后在reduce的时候再读进来
storm的优点是全内存计算,因为内存寻址速度是硬盘的百万倍以上,所以storm的速度相比较hadoop非常快(瓶颈是内存,cpu)
缺点就是不够灵活:必须要先写好topology结构来等数据进来分析,如果我们需要对几百个维度进行组合分析,那么。。。
另外推荐storm的DRPC实在太有用了,以至于这个本来要分理出来的项目,被并入storm^^
分享到:
相关推荐
Storm与Hadoop虽然在某些方面互补,但它们的用途和工作方式存在明显区别。Storm更适合实时数据处理,而Hadoop更适合批量处理。Storm的无状态设计和基于ZooKeeper的集群协调机制,使得它的实时数据处理更加高效和可靠...
本文将详细介绍如何利用Kafka、FlumeNG、Storm与HBase搭建一套高效的数据处理系统。该系统旨在实现以下目标: - 实时处理任意规模的数据集。 - 支持多种类型的处理操作。 - 结合多种技术和工具,构建一个全方位的大...
本文来自于博客园,本文首先介绍了Storm的基本概念和数据流模型,然后结合一个典型应用场景来说明Storm支持Topology之间数据流订阅的必要性,最后对比了Storm与另一个流处理系统在数据流模型上的区别之处。Storm是一...
标题中的“厦门大数据比赛.zip”表明这是一个与大数据相关的竞赛项目,可能包含参赛团队或个人提交的源代码。描述中的“比赛项目源码”确认了这一点,暗示我们需要关注的是数据分析、处理和挖掘的代码实现。 在...
例如,Hadoop MapReduce用于离线批处理,Spark则提供了更高效的内存计算,而Storm或Spark Streaming用于实时流处理。此外,还需要熟悉Kafka、HBase、Redis等组件,它们在数据存储、传输和查询方面发挥着重要作用。 ...
在线计算层则分为离线计算(如MapReduce)和实时计算(如Storm或Spark Streaming),满足不同时效性的计算需求。数据管道系统,如消息队列,用于不同计算层间的通信和数据传输。 大数据预测的精准度要求很高,因此...
为了实现这一点,需要利用先进的算法和技术来提高数据处理的速度和效率。 #### 二、数据分析员的角色与职责 随着大数据技术的发展,数据分析员在组织中的角色变得更加重要和多样化。他们不仅需要具备深厚的技术...
其数据处理平台支持Hadoop生态系统中的组件,如Hive/Impala、M/R、Spark、Storm、Solr、Hadoop API等,以及Yarn/Zookeeper、HDFS/HBase等存储计算框架。这一架构旨在统一管理数据,同时提供系统级的安全治理。 关系...
内容中所提到的招聘标准和技能需求,如MapReduce、Hadoop/HDFS、Hive/Pig、Storm、SQL、分布式计算、集群管理和基础设施管理等,这些都是大数据技术的核心技能。企业需要招聘具备这些技能的人才来满足其技术需求。 ...
大数据分析往往与云计算紧密结合,C#在Azure平台上提供了丰富的服务,如Azure Data Factory用于数据集成,Azure Databricks用于Spark集群管理,Azure Stream Analytics处理实时数据流等。开发者可以利用这些服务构建...