最新文章列表

twitter storm的多语言组件(1)

  Twitter Storm(https://github.com/nathanmarz/storm)是一个分布式实时计算系统,作者使用clojure和java来编写系统;因此storm默认支持使用clojure和java来编写计算任务。但在系统设计和实现上,作者考虑到了各种跨语言的场景,因此也提供了使用其他非JVM语言编写storm任务的机制。   使用其他语言,如c++,python来编写st ...
xuwenq 评论(0) 有1491人浏览 2012-11-08 15:42

Twitter Storm中Topology的状态

Twitter Storm中Topology的状态 状态转换如下,Topology 的持久化状态包括: active, inactive, killed, rebalancing 四个状态。 代码上看到每种状态都可以转换成一些持久化 ( 写入到 zk 中的状态 ) 或者中间状态。 (defn state-transitions [nimbus storm-id status] {:a ...
zhou85xin 评论(2) 有5590人浏览 2012-05-15 15:05

storm资料汇总(更新中)

storm wiki //storm最权威, 最新资料 storm starter //storm的hello world storm邮件列表 //storm的stack overflow storm wiki中文版 // 更新最及时, 几乎与storm wiki同步, 也有不少原创 庄周梦蝶blog里storm相关内容 //storm的贡献者之一, 有不少storm比较深入的原创 Twitter ...
macrochen 评论(0) 有3533人浏览 2012-03-16 06:20

关于storm的complete latency

最近我们的storm在跑的过程中, 发现bolt的complete latency都非常低, 在1ms以下, 而spout却不断的增加, 达到了好几千ms, 最后导致整个spout挂掉(后来发现complete latency不断增加跟fail有关). 这是一个非常严重的问题, 于是在storm-user上google了一把, 发现这里(1,2)已经有了一些答案. nathan对complete ...
macrochen 评论(2) 有4533人浏览 2012-03-12 11:26

storm ui上emit和transferred的区别

最开始对storm ui上展示出来的emit和transferred数量不是很明白, 于是在storm-user上google了一把, 发现有人也有跟我一样的困惑, nathan做了详细的回答: emitted栏显示的数字表示的是调用OutputCollector的emit方法的次数. transferred栏显示的数字表示的是实际tuple发送到下一个task的计数. 如果一个bolt A使 ...
macrochen 评论(2) 有8812人浏览 2012-03-04 14:07

storm中supervisor, task, worker, spout, bolt之间的关系

一个storm topology运行起来之后, 会在supervisor 机器上启动一些进程来运行spout和bolt实例. 如果一个topology里面一共有一个spout, 一个bolt。 其中spout的parallelism ...
macrochen 评论(0) 有18967人浏览 2012-03-04 13:53

Storm搭建、安装、以及环境配置

准备工作:   1. 首先安装zookeeper,然后验证zookeeper正确性:     bin/zkCli.sh -server 127.0.0.1:2181   2.安装kafka Download a recent stable release. > tar xzf kafka-<VERSION>.tgz > cd kafka-<VERS ...
sznmail 评论(2) 有12079人浏览 2012-03-01 15:22

最近碰到的一些storm问题总结(不断更新)

目前使用的是storm.0.6.0这个版本. 至于其他版本有没有这问题, 不做研究. ★ yaml跟我们一般用的属性配置文件有所不同, 它的要求更严格一些, 因此在往conf/storm.yaml中添加配置的时候必须注意. 比如必须注意开始位置和冒号后面的空格, 否则配置不会生效. 关于yaml相关的资料, 网上有很多资料可以参考 如何检查配置是否生效, 可以使用命令: storm local ...
macrochen 评论(14) 有27816人浏览 2012-02-27 23:24

storm的ack和fail

为了保证数据能正确的被处理, 对于spout产生的每一个tuple, storm都会进行跟踪, 这里面涉及到ack/fail的处理, 如果一个tuple处理成功, 会调用spout的ack方法, 如果失败, 会调用fail方法. 而在处理tuple的每一个bolt都会通过OutputCollector来告知storm, 当前bolt处理是否成功. 为了了解OutputCollector的ack/fa ...
macrochen 评论(2) 有23284人浏览 2012-02-20 20:21

storm的序列化问题及与spring的结合方式

最近打算在项目中用storm从一个database生成多个搜索引擎的实时索引, 于是看了一些相关的资料就开始上手了. 按照以前熟悉的套路, 使用spring来管理对象之间的依赖, 于是我开始将topology, spout, bolt看成一个个bean, 然后放在spring容器中来完成初始化, 但是在本地模式运行的时候, 出现序列化的问题(抛出java.io.NotSerializableExce ...
macrochen 评论(8) 有11493人浏览 2012-02-16 21:40

Storm实现实时feed信息处理

这篇文章通过用一个如何处理feed数据的应用场景来说明为什么会出现Storm实时计算框架, 对我们自己的技术选型和系统架构设计非常有参考价值. 原文在这里 Storm 成为最近开源社区的一个热门, 其作者Nathan Marz 所在的公司Backtype现在已经被Twitter收购. 该项目的wiki 非常完善. 从这里对Storm做一个全面了解. 目前的场景是这样的, 通过解析xml fee ...
macrochen 评论(1) 有5849人浏览 2012-02-01 22:44

Strom的一些最重要特性

Storm作为Twitter开源的实时计算框架, 已经成为big data下一个热点. 下面是一些主要特性: 简单的编程模型: 类似MapReduce, 不过MR用来降低并行批量处理的复杂性, 而Storm用来简化实时处理模型. 支持多种编程语言: 目前支持Clojure, Java, Ruby, Python 容灾高可用: Strom管理整个worker集群, 允许单节点失败 支持水平扩展:支持 ...
macrochen 评论(0) 有1616人浏览 2012-01-31 21:10

Twitter Storm:开源实时Hadoop

Twitter 将 Storm 正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在 GitHub 上,遵循 Eclipse Public License 1.0。Storm 是由 BackType 开发的实时处理系统,BackType 现在已在 Twitter 麾下。GitHub 上的最新版本是 Storm 0.5.2,基本是用 Clojure 写的。   Storm 为分布式实时计算提供 ...
lingmin.guo 评论(0) 有1194人浏览 2012-01-18 11:40

Twitter Storm简介

Twitter Storm简介 from: http://xumingming.sinaapp.com/109/twitter-storm简介/ 本文翻译自storm官方wiki:  https://github.com/nathanmarz/storm/wiki/Rationale 背景 过去的十年是数 ...
caizhongda 评论(0) 有1435人浏览 2012-01-14 23:39

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics