Twitter Storm简介
from: http://xumingming.sinaapp.com/109/twitter-storm简介/
本文翻译自storm官方wiki: https://github.com/nathanmarz/storm/wiki/Rationale
背景
过去的十年是数据处理变革的十年, MapReduce, Hadoop以及一些相关的技术使得我们能处理的数据量比以前要大得多得多。但是这些数据处理技术都不是实时的系统 — 它们设计的目的也不是为了实时计算。没有什么办法可以简单地把hadoop变成一个实时计算系统。实时数据处理系统和批量数据处理系统在需求上有着本质的差别。
然而大规模的实时数据处理已经越来越成为一种业务需求了, 而缺少一个“实时版本的hadoop”已经成为数据处理整个生态系统的一个巨大缺失。
Storm填补了这个缺失。
Storm出现之前,你可能需要自己手动维护一个由消息队列和消息处理者所组成的实时处理网络, 消息处理者从消息队列取出一个消息进行处理, 更新数据库,发送消息给其它队列, 等等等等。不幸的是,这种方式有以下几个缺陷:
1. 单调乏味: 你花费了绝大部分开发时间去配置把消息发送到哪里, 部署消息处理者,部署中间消息节点 — 你的大部分时间花在设计, 配置这个数据处理框架上, 而你真正关心的消息处理逻辑在你的代码里面占的比例很少。
2. 脆弱: 不够健壮, 你要自己写代码保证所有的消息处理者和消息队列正常运行。
3. 伸缩性差: 当一个消息处理者的消息量达到阀值,你需要对这些数据进行分流, 你需要配置这些新的处理者以让他们处理分流的消息。
虽然对于一个大量消息处理系统来说,分解到最后就是消息队列和消息处理者的组合,而消息处理无疑是实时计算的基础。那么现在问题就是:怎样去做才能不丢失数据,可以很好的扩展到更大的消息量并且非常容易操作呢?
Storm满足你的需求。
为什么我们说Storm很重要呢?
Storm定义了一批实时计算的原语。如同hadoop大大简化了并行批量数据处理,storm的这些原语大大简化了并行实时数据处理。storm的一些关键特性如下:
1. 适用场景广泛: storm可以用来处理消息和更新数据库(消息流处理), 对一个数据量进行持续的查询并返回客户端(持续计算), 对一个耗资源的查询作实时并行化的处理(分布式方法调用), storm的这些基础原语可以满足大量的场景。
2. 可伸缩性高: Storm的可伸缩性可以让storm每秒可以处理的消息量达到很高。为了扩展一个实时计算任务,你所需要做的就是加机器并且提高这个计算任务的并行度设置(parallelism setting)。作为Storm可伸缩性的一个例证, 一个Storm应用在一个10个节点的集群上每秒处理1000000个消息 — 包括每秒一百多次的数据库调用。Storm使用ZooKeeper来协调集群内的各种配置使得Storm的集群可以很容易的扩展很大。
3. 保证无数据丢失: 实时系统必须保证所有的数据被成功的处理。 那些会丢失数据的系统的适用场景非常窄, 而storm保证每一条消息都会被处理, 这一点和S4相比有巨大的反差。
4. 异常健壮: 不像Hadoop — 出了名的难管理, storm集群非常容易管理。容易管理是storm的设计目标之一。
5. 容错性好:如果在消息处理过程中出了一些异常, storm会重新安排这个出问题的处理逻辑。 storm保证一个处理逻辑永远运行 — 除非你显式杀掉这个处理逻辑。
6. 语言无关性: 健壮性和可伸缩性不应该局限于一个平台。Storm的topology和消息处理组件可以用任何语言来定义, 这一点使得任何人都可以使用storm.
.
分享到:
相关推荐
基于java的开发源码-开放实时数据处理平台 Twitter Storm.zip 基于java的开发源码-开放实时数据处理平台 Twitter Storm.zip 基于java的开发源码-开放实时数据处理平台 Twitter Storm.zip 基于java的开发源码-开放...
### Twitter Storm:实时计算系统详解 #### 背景与定义 Twitter Storm 是一款由Apache基金会维护的开源分布式实时计算系统。它最初由BackType公司开发,并于2011年开源,随后被Twitter收购并进一步发展。Storm 的...
标题"基于Java的实例源码-开放实时数据处理平台 Twitter Storm.zip"揭示了我们讨论的主题是Twitter Storm,一个用于实时数据处理的开源平台,其核心实现是用Java编程语言编写的。这个压缩包包含了Nathan Marz开发的...
开放实时数据处理平台 Twitter Storm
### 分布式与容错实时计算:Twitter Storm详解 #### 引言 随着大数据时代的到来,实时数据处理的需求日益增长。传统的批处理框架如Hadoop虽然在处理大规模静态数据集方面表现出色,但对于无限的数据流处理却显得...
【标题】: "基于Java的开放实时数据处理平台Twitter Storm" 【描述】: Twitter Storm是一个开源的分布式实时计算系统,它允许开发者构建可以处理无界数据流的应用程序。这个技术源自于Twitter,但现在已经成为...
【标题】"基于Java的开放实时数据处理平台Twitter Storm"是一个强大的开源系统,它专为大规模数据流处理而设计。Storm是由Nathan Marz开发的,并在2011年被Twitter收购,随后成为了其核心的数据处理技术之一。这个...
开放实时数据处理平台 Twitter Storm.7z
《Java源码剖析:Twitter Storm实时数据处理平台》 Twitter Storm是一个开源的分布式实时计算系统,它被设计用于处理和汇总大规模的数据流。这个压缩包包含的是Nathan Marz开发的Storm项目的源代码,版本号为9a3e1...
### Storm简介及安装知识点梳理 #### 一、Storm简介 **Storm** 是一款由BackType公司开发的分布式实时计算系统,后被Twitter收购并开源。它主要用于处理大规模的数据流,能够简单、高效、可靠地处理实时数据。...
《Storm @Twitter》是大数据流处理领域的经典之作,它由Twitter公司的工程师们提出,为实时数据流分析提供了一个强大的平台。这篇论文的原作PPT是学习Storm和流处理技术的重要资源。以下是对Storm核心概念和内部机制...
"开放实时数据处理平台 Twitter Storm源码" 这个标题和描述提到了Twitter Storm,它是一个开源的分布式实时计算系统,专为处理无界数据流而设计。Twitter Storm允许用户创建复杂的数据处理管道,这些管道可以以高...
Twitter的实时数据处理系统Storm是一个基于实时、容错、分布式流数据处理系统。Storm在Twitter中扮演着至关重要的角色,用于在大规模和实时的情况下运行各种关键计算。本文详细介绍了Storm的架构,分布式扩展和容错...
它由Twitter公司开发,最初的目的是为了处理大规模的数据,如社交网络上的实时信息更新。Storm的基本单位是“topology”(拓扑结构),它可以理解为一个实时计算的网络图,包含spouts和bolts两个主要组件。 Spout是...
Storm是一个开源的分布式实时计算系统,由Twitter开发并开源,旨在实现高可靠性、可伸缩性、快速处理无界数据流。Storm可以与Hadoop进行类比,但相较于Hadoop处理批量数据的批处理方式,Storm更专注于处理实时数据流...
免责声明:资料部分来源于合法的互联网渠道收集和整理,部分自己学习积累成果,供大家学习参考与交流。收取的费用仅用于收集和整理资料耗费时间的酬劳。 本人尊重原创作者或出版方,资料版权归原作者或出版方所有,...
Storm是一个分布式实时计算系统,由Twitter开源并广泛应用于实时数据处理领域。本笔记主要围绕Storm的核心概念、起源、架构、组件、原理以及应用场景进行详细讲解。 **一、Storm概念** Storm设计的目标是使实时...
Storm 代码来自于Twitter上月收购的BackType,似乎是Twitter为方便用户解析数据的努力。 现在Storm的势头相当强劲,Twitter开发的使其完美的工具,已经变得非常强大。类似于Hadoop,另一个开源数据操作平台,Storm...
Storm是一个开源的分布式实时计算系统,由Twitter开发并开源,其设计目标是让实时处理变得简单、强大且可靠。在Storm中,数据流被抽象为持续不断的Tuple(元组)序列,这些Tuple在网络中的worker节点间进行分布式...
《Twitter4j在Storm中的应用与实践》 Twitter4j是一个开源的Java库,它为开发者提供了方便地访问Twitter API的接口。这个“twitter4j-2.2.5.zip”压缩包包含了Twitter4j库的各个组成部分,适用于在Apache Storm环境...